每日 Harness 开源 · Source
返回本期 · Back to 2026-06-02

论文 · Papers2026-06-02 · Tuesday, June 2, 2026

Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

arxiv.org原文 ↗

自进化框架与脚手架系统·基础设施
Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents
论文把 agent 的 harness-updating 与 harness-benefit 拆开评估:前者是能否从执行证据写出有用的 prompt、skill、memory、tool 更新,后者是任务代理能否真正用上这些更新。核心发现是更新质量对模型基础能力并不单调,Qwen3.5-9B 生成的更新可接近 Claude Opus 4.6;收益则呈非单调形态,中档模型最受益。局限也很清楚:弱模型常不能激活或遵循相关 harness artifact。
浏览

评论 · Comments