Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents
arxiv.org原文 ↗
论文把 agent 的 harness-updating 与 harness-benefit 拆开评估:前者是能否从执行证据写出有用的 prompt、skill、memory、tool 更新,后者是任务代理能否真正用上这些更新。核心发现是更新质量对模型基础能力并不单调,Qwen3.5-9B 生成的更新可接近 Claude Opus 4.6;收益则呈非单调形态,中档模型最受益。局限也很清楚:弱模型常不能激活或遵循相关 harness artifact。
–浏览
评论 · Comments