论文 · Papers2026-06-04 · Thursday, June 4, 2026

What Makes Interaction Trajectories Effective for Training Terminal Agents?

研究 terminal-agent post-training 中，强教师是否必然给出更好的训练轨迹。作者用 Terminal-Lego 把真实 multi-domain issue 转成可环境验证任务，发现 Claude Opus 4.6 虽在 Terminal-Bench 2.0 分数更高，但 DeepSeek-V3.2 轨迹微调出的学生泛化更强。关键解释是 Environment-Grounded Supervision：显式暴露 inspect-act-verify 行为的轨迹更利于学生学习。一个醒目的数字是 15.3k 条 Terminal-Lego trajectories 让 Qwen3-32B 在 Terminal-Bench 2.0 达到 24.3%，接近以 30 倍以上数据建立的旧 SOTA。

–浏览

What Makes Interaction Trajectories Effective for Training Terminal Agents?

评论 · Comments