每日 Harness 开源 · Source
主题 · All topics

2.2 蒸馏与压缩Distillation & Compression

本主题共 1 条 · 2026-06-04

视图 · View

2026 年 6 月1

  • What Makes Interaction Trajectories Effective for Training Terminal Agents?

    研究 terminal-agent post-training 中,强教师是否必然给出更好的训练轨迹。作者用 Terminal-Lego 把真实 multi-domain issue 转成可环境验证任务,发现 Claude Opus 4.6 虽在 Terminal-Bench 2.0 分数更高,但 DeepSeek-V3.2 轨迹微调出的学生泛化更强。关键解释是 Environment-Groun…

    2026-06-04arxiv.org原文 ↗