2.3 自进化Self-Evolution

本主题共 14 条 · 最早 2026-06-01 · 最新 2026-07-23

视图 · View

2026 年 7 月7

Ingot
Ingot 把 agent skill 的优化过程做成带证据的版本循环：运行评测、收集 trace、提出修改、对比指标，再保留可回滚版本。项目强调优化来自实际执行数据，而不是只让另一个模型重写提示词。它为 Skill 工程补上了实验管理层，真正效果取决于评测集是否代表生产任务。
Project2026-07-23github.com原文 ↗
–
Autoretrieval
Autoretrieval 把检索调参做成可重复的闭环：代理只编辑 `experiment.py` 中的分块、嵌入和过滤逻辑，固定的 `run_eval.py` 用字符级重叠计算 F-beta，提升则保留，否则回滚继续搜索。项目还可从私有语料生成“问题—参考高亮”数据，使优化目标贴近实际文档，而非通用榜单。它的亮点是把代理自由度限制在可评分的实验面内；相应局限是字符重叠未必能覆盖语义正确性与下游答…
Project2026-07-22github.com原文 ↗
–
Agentic Synthesis against Counterexample-Supplemented Sketches
方法从 human-approved counterexample 出发，把修正后的行为和规则写回 code-shaped sketch，再让 coding agent 修订实现、prompt surface 和回归集。CatSynth 实验中，14 个 frozen candidate cases 有 8 个升级为 counterexamples；从 evolved sketch clean r…
Paper2026-07-21arxiv.org原文 ↗
–
GPT-Red: Unlocking Self-Improvement for Robustness
OpenAI 介绍 GPT-Red，一个通过 self-play reinforcement learning 训练的自动红队模型。文章给出的关键数字是：GPT-Red 在间接 prompt injection arena 上达成 84% 攻击成功率，人类红队为 13%；GPT-5.6 Sol 在最难 direct prompt injection benchmark 上比四个月前最佳生产模型的失…
News2026-07-16openai.com原文 ↗
–
Harness Engineering for Self-Improvement
Lilian Weng 讨论自改进 AI 系统中的 harness 设计，把 harness 看作生成任务、评价结果、提供反馈和限制搜索空间的系统组件。文章的关键点是自改进不只靠更强模型，还依赖评测、数据生成、反馈闭环和防 reward hacking 的工程设计。它把“让模型自己变好”拆成可以审视的实验系统。
Blog2026-07-08lilianweng.github.io原文 ↗
–
Self-Evolving Agents with Anytime-Valid Certificates
SEA 把 self-modification 限制在 frozen base model 外的小型 steering adapter 和 versioned harness 中，每次变更必须通过 anytime-valid gate，并在固定 error budget 下产生可审计 certificate。五类 verifier-in-the-loop 机制提供 grader-free sign…
Paper2026-07-03arxiv.org原文 ↗
–
Learning from Failure: Inference-Time Self-Improvement for Computer-Use Agents
这篇论文把失败轨迹从“丢弃的训练副产物”变成 inference-time agent 改进材料。流程让 LLM 诊断失败模式、提出推理时解决方案，并生成经轻量人工核验的代码补丁来升级 agent，而不走额外 fine-tuning。作者用 OpenCUA-72B 在 OSWorld 上验证，成功率从 42.3% 提升到 48.9%，增加 6.6 个百分点；这个结果适合与 success-only…
Paper2026-07-02arxiv.org原文 ↗
–

2026 年 6 月7

Ling and Ring 2.6 Technical Report: Efficient and Instant Agentic Intelligence at Trillion-Parameter Scale
Ling/Ring 2.6 报告描述一组从 Ling-2.0 升级而来的 trillion-parameter-scale agentic 模型。Ling-2.6 强调即时响应和每输出 token 能力，Ring-2.6 面向更深 reasoning 与复杂 workflow；架构上使用 Lightning Attention + MLA 的 hybrid linear attention。pos…
Paper2026-06-17arxiv.org原文 ↗
–
NousResearch/hermes-agent
Hermes Agent 是 Nous Research 的自改进 agent，README 把内建 learning loop 放在第一位。它能从经验创建 skills、使用中改进 skills、搜索过去会话、维护长期记忆，并支持 Telegram、Discord、Slack、WhatsApp、Signal 和 CLI。它还提供 cron、parallel subagents、RPC 工具调用以…
Trending2026-06-08始 2026-06-05github.com原文 ↗
–
When AI Builds Itself: Our progress toward recursive self-improvement
Anthropic Institute 的报告讨论 AI 辅助自身开发的进展，也就是 recursive self-improvement 从抽象风险议题进入工程测量阶段。结合当天多篇 meta-agent 和 AutoLab 论文，这类报告的焦点已经从“模型能否写代码”转向“能否持续改进 agent 系统、评测和研发流程”。
News2026-06-05anthropic.com原文 ↗
–
Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories
提出受人类睡眠启发的持续学习范式，让模型把短期 in-context 记忆蒸馏进更稳定的长期参数。论文描述了 Sleep、replay consolidation 和 Dreaming 递归改进过程，用于弥合即时预测能力与长期知识转移之间的差距。它不是单纯外部 memory 检索，而是讨论 self-modification 与参数层 consolidation。这个方向的风险和评估都还会很难，但…
Paper2026-06-04arxiv.org原文 ↗
–
Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams
提出 Adaptive Auto-Harness，用于开放任务流里的 agent harness 持续演化。它把与 oracle harness 的差距拆成 evolution loss 和 adaptation loss，并用 stateful multi-agent evolver、harness tree 的解题时路由，以及人类 steering hooks 来降低两类损失。实验覆盖 pre…
Paper2026-06-04arxiv.org原文 ↗
–
Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents
论文把 agent 的 harness-updating 与 harness-benefit 拆开评估：前者是能否从执行证据写出有用的 prompt、skill、memory、tool 更新，后者是任务代理能否真正用上这些更新。核心发现是更新质量对模型基础能力并不单调，Qwen3.5-9B 生成的更新可接近 Claude Opus 4.6；收益则呈非单调形态，中档模型最受益。局限也很清楚：弱模型常…
Paper2026-06-02arxiv.org原文 ↗
–
SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks
SCOPE 针对开放式任务没有标准答案、依赖 curated prompts 或 frontier judge 的问题，设计 Challenger 生成 document-grounded tasks，Solver 多轮检索作答，冻结初始模型生成 rubric 并评分。作者在 Qwen2.5、Qwen3、OLMo-3 三个 7-8B instruction-tuned models 上报告，八个开…
Paper2026-06-01arxiv.org原文 ↗
–