每日 Harness 开源 · Source
返回本期 · Back to 2026-06-04

论文 · Papers2026-06-04 · Thursday, June 4, 2026

What Makes Interaction Trajectories Effective for Training Terminal Agents?

arxiv.org原文 ↗

What Makes Interaction Trajectories Effective for Training Terminal Agents?
研究 terminal-agent post-training 中,强教师是否必然给出更好的训练轨迹。作者用 Terminal-Lego 把真实 multi-domain issue 转成可环境验证任务,发现 Claude Opus 4.6 虽在 Terminal-Bench 2.0 分数更高,但 DeepSeek-V3.2 轨迹微调出的学生泛化更强。关键解释是 Environment-Grounded Supervision:显式暴露 inspect-act-verify 行为的轨迹更利于学生学习。一个醒目的数字是 15.3k 条 Terminal-Lego trajectories 让 Qwen3-32B 在 Terminal-Bench 2.0 达到 24.3%,接近以 30 倍以上数据建立的旧 SOTA。
浏览

评论 · Comments