论文 · Papers2026-06-02 · Tuesday, June 2, 2026

Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

论文把 agent 的 harness-updating 与 harness-benefit 拆开评估：前者是能否从执行证据写出有用的 prompt、skill、memory、tool 更新，后者是任务代理能否真正用上这些更新。核心发现是更新质量对模型基础能力并不单调，Qwen3.5-9B 生成的更新可接近 Claude Opus 4.6；收益则呈非单调形态，中档模型最受益。局限也很清楚：弱模型常不能激活或遵循相关 harness artifact。

–浏览

Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

评论 · Comments