LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards
arxiv.org原文 ↗
LongTraceRL 用 search agent 轨迹构造更难的长上下文训练样本:读取未引用文档作为高混淆 distractors,搜索结果未打开文档作为低混淆 distractors。奖励设计使用 reasoning chain 中 gold entities 的 entity-level rubric reward,并只作用于最终答案正确的响应以降低 reward hacking。4B-30B 三个 reasoning LLM 在五个长上下文 benchmark 上稳定优于强基线。
–浏览
评论 · Comments