- 01 [Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses](https://arxiv.org/abs/2606.02373)[^1] [OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents](https://arxiv.org/abs/2606.02031)[^2] - OpenWebRL 研究视觉 Web agent 的在线多轮强化学习,重点是让 agent 在动态网页环境中交互试错,而不是只模仿静态监督轨迹。
- 02 [Leyline: KV Cache Directives for Agentic Inference](https://arxiv.org/abs/2606.01065)[^3] [DepsGuard](https://github.com/arnica/depsguard)[^4] - DepsGuard 是供应链安全 CLI,用一条命令为 npm、pnpm、yarn、bun 和 uv 写入更保守的包管理器配置。
最新一刊 · Latest issue
No.07
2026-06-04 · 周四 · Thursday
智能体边界重构
15论文 · Papers
15开源 · Projects
14行业 · Industry
10博客 · Blog
10热门 · Trending
今日重点 · Today’s Highlights
- 01 Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams 把 auto-harness 从固定离线 benchmark 推到开放任务流,并用 harness tree 与 solve-time routing 处理分布漂移。
- 02 Handoff Debt: The Rediscovery Cost When Coding Agents Take Over Interrupted Tasks 把 coding-agent 交接中的上下文重建成本量化为 events 与 prompt tokens,给协作式 agent 工作流一个可测指标。
- 03 ToolGate: Token-Efficient Pre-Call Control for Tool-Augmented Vision-Language Agents 在 VLM agent 调用 OCR/检测/分割前做 execute/skip 控制,把工具输出成本降到 ReAct baseline 的 64-69%。
- 04 NVIDIA/OpenShell 用 sandbox runtime 与 YAML policy 给 autonomous agents 加文件、网络和凭证访问边界。
- 05 chopratejas/headroom 把工具输出、日志、文件和 RAG chunks 进入模型前压缩,直接作用在 agent token 成本和上下文容量上。
近期刊期 · Recent issues
- 01 Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents 把 harness 更新能力和真实任务收益拆开,给自演化 agent 的能力边界提供了可测定义。
- 02 Learning Agent-Compatible Context Management for Long-Horizon Tasks 把上下文压缩从固定策略变成外部可训练模块,直接面向闭源 agent 可用性。
- 03 From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors 把 prompt injection 推进到跨会话持久控制,并给出本地 harness 防御基准。
- 04 GrepSeek: Training Search Agents for Direct Corpus Interaction 让 search agent 直接操作语料库和 shell 命令,挑战“检索必先建索引”的默认架构。
- 01 DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization 把多轮 RL 的 rollout 成本从在线更新中拆出来,用 return-based importance weights 做加权 SFT,是一条把 agent RL 工程化降本的清晰路线。
- 02 SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks 用 Challenger/Solver/self-judge 三方机制在无外部数据下训练开放式任务,报告了跨 7-8B 模型的系统性增益。
- 03 LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis 用 68 个 Kaggle notebook 任务和 2225 turns 把“长程数据分析状态维护”单独拎出来测,暴露出 late-turn accuracy 急剧退化。
- 04 Streambed 用 Postgres logical replication 直接落 S3/Iceberg,并通过 Postgres wire protocol 查询,是一个小而完整的 CDC-to-lakehouse 工程样本。
- 01 Formally verified polygon intersection - Opus 4.8 oneshots, prev failed Lean 4 验证的多多边形相交实现,把人类审阅面收缩到约 87 行规格,展示了“LLM 写证明、checker 给信任边界”的工程形态。
- 02 LiteParse 本地 Rust 文档解析栈,重点不是端到端理解,而是稳定输出 spatial text、bounding boxes、截图和 JSON/Text。
- 03 stable-worldmodel world model 研究的统一实验接口,把采集、训练、MPC 评估和数据格式基准放在同一平台。
- 04 ESM 蛋白 biology world model 代码库同时放出 ESMC、ESMFold2、ESM Atlas 和 SAE 可解释层。
- 01 PhoneWorld: Scaling Phone-Use Agent Environments 把移动 GUI agent 的瓶颈从单个 benchmark 转成可扩展环境生成管线。
- 02 Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents 指出检索内容的“相关性”本身会成为安全对齐退化的触发条件。
- 03 AIRGuard: Guarding Agent Actions with Runtime Authority Control 把 agent 安全边界放到工具动作执行时刻,用运行时授权约束外部副作用。
- 04 Tiny-vLLM 用 C++/CUDA 从零实现小型 vLLM,把 KV cache、continuous batching 和 PagedAttention 讲清楚。
- 01 Benchmarks are Not Enough: RAMP 把 agent 评测从单题正确率移到运行时可观察性:失败传播、恢复行为、资源浪费成为一等指标。
- 02 Harness-Bench 把"模型能力"拆成模型×执行壳的组合属性,挑战只报 base model 分数的习惯。
- 03 Agent Skill 生态威胁报告 分析近 4000 个 agent skill,样本来自真实 marketplace 的供应链威胁,而非假想攻击。
- 04 microsoft/agent-governance-toolkit 把 agent 安全从单点 guardrail 扩成身份、策略、沙箱、可靠性与 fuzzing 组合。