Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams
arxiv.org原文 ↗
提出 Adaptive Auto-Harness,用于开放任务流里的 agent harness 持续演化。它把与 oracle harness 的差距拆成 evolution loss 和 adaptation loss,并用 stateful multi-agent evolver、harness tree 的解题时路由,以及人类 steering hooks 来降低两类损失。实验覆盖 prediction-market、security-competition 和 event-forecasting 三类流式任务,报告优于五个 auto-harness baseline。值得看的是它把“自我改进”从固定 benchmark 推到长期、异质、分布漂移的部署场景。
–浏览
评论 · Comments