论文 · Papers2026-06-02 · Tuesday, June 2, 2026

LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards

LongTraceRL 用 search agent 轨迹构造更难的长上下文训练样本：读取未引用文档作为高混淆 distractors，搜索结果未打开文档作为低混淆 distractors。奖励设计使用 reasoning chain 中 gold entities 的 entity-level rubric reward，并只作用于最终答案正确的响应以降低 reward hacking。4B-30B 三个 reasoning LLM 在五个长上下文 benchmark 上稳定优于强基线。

–浏览

LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards

评论 · Comments