每日 Harness 开源 · Source
主题 · All topics

2.1 Agent RL / 可验证奖励Agent RL / Verifiable Rewards

本主题共 9 条 · 最早 2026-06-01 · 最新 2026-06-04

视图 · View

2026 年 6 月9

  • InfoMem: Training Long-Context Memory Agents with Answer-Conditioned Information Gain

    提出 InfoMem,用 answer-conditioned information gain 训练 chunk-wise long-context memory agents。核心奖励衡量最终 memory 对 ground-truth answer 每 token log-likelihood 的提升,而不是只看稀疏最终答案或词面重合。论文在相同 GRPO 框架和训练预算下优于可比 RL m…

    2026-06-04arxiv.org原文 ↗
  • Policy and World Modeling Co-Training for Language Agents

    论文把 agent policy 与文本 world model 联合训练,让 RL rollout 同时学习动作选择和环境动态。

    2026-06-03arxiv.org原文 ↗
  • OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents

    OpenWebRL 研究视觉 Web agent 的在线多轮强化学习,重点是让 agent 在动态网页环境中交互试错,而不是只模仿静态监督轨迹。论文讨论浏览器环境、视觉观察、动作空间、奖励与长程 credit assignment 等系统问题。值得看的是,Web agent 训练正在从“看截图做 imitation”转向“在网页里持续探索并修正策略”。

    2026-06-03arxiv.org原文 ↗
  • Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

    Harness-1 把搜索 agent 的证据、约束、候选答案和检查状态外置到 harness,而不是要求模型在越来越长的 transcript 中自行维护所有状态。贡献是把 RL 训练对象从纯对话策略改成模型加外部状态机,使检索、引用和验证步骤能被显式记录、检查和奖励。值得看的是,搜索 agent 的瓶颈常在跨多轮证据管理和自检,而这篇把状态管理变成了可训练接口。

    2026-06-03arxiv.org原文 ↗
  • SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search

    SAAS 聚焦 agentic search 的过度检索:模型在已有内部知识足够时仍继续调用搜索,增加成本和噪声。论文用 self-aware reinforcement learning 让 agent 学会判断何时检索、何时用内部知识、何时停止。它值得看在于把检索策略从“多查更好”改成可训练的成本-可靠性决策。

    2026-06-02arxiv.org原文 ↗
  • LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards

    LongTraceRL 用 search agent 轨迹构造更难的长上下文训练样本:读取未引用文档作为高混淆 distractors,搜索结果未打开文档作为低混淆 distractors。奖励设计使用 reasoning chain 中 gold entities 的 entity-level rubric reward,并只作用于最终答案正确的响应以降低 reward hacking。4B-3…

    2026-06-02arxiv.org原文 ↗
  • GrepSeek: Training Search Agents for Direct Corpus Interaction

    GrepSeek 让 search agent 直接把语料库当环境,用 shell 命令查找、过滤和组合证据,而不是只调预建检索索引。训练采用两阶段:answer-aware Tutor 与 answer-blind Planner 生成冷启动轨迹,再用 GRPO 优化;并用 sharded-parallel 执行把 shell retrieval 加速最高 7.6 倍且保持字节等价。七个开放域…

    2026-06-02arxiv.org原文 ↗
  • DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization

    DRIFT 面向多轮交互优化,试图避开在线 RL 昂贵 rollout 与离线 SFT 分布偏移之间的两难。方法把 KL-regularized RL 等价为 importance-weighted supervised learning:从固定 reference policy 采样离线轨迹,按 return 生成权重,再做 weighted SFT。实验称可匹配或超过多轮 RL baselin…

    2026-06-02始 2026-06-01arxiv.org原文 ↗
  • It's Not Just X. It's Y

    文章讨论 AI 训练栈里 post-training 的作用,反对把能力进步简单归因于“数据”。它的核心判断是 post-training 已经成为把数据转化为可用行为的工程层,包括偏好优化、RL、合成任务、评测循环和产品约束。值得看的是它把“数据叙事”和“训练后行为塑形”拆开,避免把模型能力来源讲成单变量故事。

    2026-06-01mail.cyberneticforests.com原文 ↗