每日 Harness 开源 · Source
返回本期 · Back to 2026-06-02

论文 · Papers2026-06-02 · Tuesday, June 2, 2026

LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards

arxiv.org原文 ↗

LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards
LongTraceRL 用 search agent 轨迹构造更难的长上下文训练样本:读取未引用文档作为高混淆 distractors,搜索结果未打开文档作为低混淆 distractors。奖励设计使用 reasoning chain 中 gold entities 的 entity-level rubric reward,并只作用于最终答案正确的响应以降低 reward hacking。4B-30B 三个 reasoning LLM 在五个长上下文 benchmark 上稳定优于强基线。
浏览

评论 · Comments