2026 年 6 月4
-
Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories
提出受人类睡眠启发的持续学习范式,让模型把短期 in-context 记忆蒸馏进更稳定的长期参数。论文描述了 Sleep、replay consolidation 和 Dreaming 递归改进过程,用于弥合即时预测能力与长期知识转移之间的差距。它不是单纯外部 memory 检索,而是讨论 self-modification 与参数层 consolidation。这个方向的风险和评估都还会很难,但…
原文 ↗– -
Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams
提出 Adaptive Auto-Harness,用于开放任务流里的 agent harness 持续演化。它把与 oracle harness 的差距拆成 evolution loss 和 adaptation loss,并用 stateful multi-agent evolver、harness tree 的解题时路由,以及人类 steering hooks 来降低两类损失。实验覆盖 pre…
原文 ↗– -
Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents
论文把 agent 的 harness-updating 与 harness-benefit 拆开评估:前者是能否从执行证据写出有用的 prompt、skill、memory、tool 更新,后者是任务代理能否真正用上这些更新。核心发现是更新质量对模型基础能力并不单调,Qwen3.5-9B 生成的更新可接近 Claude Opus 4.6;收益则呈非单调形态,中档模型最受益。局限也很清楚:弱模型常…
原文 ↗– -
SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks
SCOPE 针对开放式任务没有标准答案、依赖 curated prompts 或 frontier judge 的问题,设计 Challenger 生成 document-grounded tasks,Solver 多轮检索作答,冻结初始模型生成 rubric 并评分。作者在 Qwen2.5、Qwen3、OLMo-3 三个 7-8B instruction-tuned models 上报告,八个开…
原文 ↗–