Benchmarks are Not Enough: RAMP - 把 agent 评测从单题正确率移到运行时可观察性:失败传播、恢复行为、资源浪费成为一等指标。
全文 ↓每日 Harness
2026-05-29 · Friday, May 29, 2026
运行时评测、harness 效应与 agent skill 供应链
分享长图 · Share今日重点 · Today's Highlights
Harness-Bench - 把"模型能力"拆成模型×执行壳的组合属性,挑战只报 base model 分数的习惯。
全文 ↓Agent Skill 生态威胁报告 - 分析近 4000 个 agent skill,样本来自真实 marketplace 的供应链威胁,而非假想攻击。
全文 ↓microsoft/agent-governance-toolkit - 把 agent 安全从单点 guardrail 扩成身份、策略、沙箱、可靠性与 fuzzing 组合。
全文 ↓论文 · Papers
12 项 · 论文本期重点Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems3arxiv.org原文 ↗
RAMP 的重点是把 agent 评测从单题正确率移到运行时可观察性:失败传播、恢复行为和资源浪费成为一等指标。它也提示静态 benchmark 高分可能掩盖 serial workflow 中的能力塌陷。
本期重点Harness-Bench: Measuring Harness Effects across Models in Realistic Agent Workflows4arxiv.org原文 ↗
这篇论文把“模型能力”拆成模型与执行壳的组合属性,直接挑战只报 base model 分数的习惯。它的贡献是诊断性:让上下文管理、工具反馈、权限、恢复和 artifact contract 进入可比较空间。
Do Agents Know What They Can't Do? Evaluating Feasibility Awareness in Tool-Using Agents5arxiv.org原文 ↗
它关注的是“提前停止”的能力,而不是更努力地调用工具。这个方向很实用:在工具缺失或权限不足时,agent 的主要失败不是答错,而是持续消耗 token、时间和副作用预算。
Periodic RoPE for Infinite Context LLMs7arxiv.org原文 ↗
这不是简单拉长插值,而是把局部位置和全局交互分层处理,因此理论上避免无限外推。摘要仍较短,实际有效性取决于任务是否需要精确全局顺序,而 NoPE 全局层可能牺牲一部分位置可辨性。
MIRAGE: Context-Aware Prompt Injection against Mobile GUI Agents via User-Generated Content10arxiv.org原文 ↗
该文的关键洞察是移动 GUI agent 看的是像素,无法稳定区分可信 UI 与用户生成内容。更麻烦的是 realism 与 attack success 不相关,说明单靠视觉质量过滤不是防线。
本期重点Technical Report: Exploring the Emerging Threats of the Agent Skill Ecosystem11arxiv.org原文 ↗
skill 正在变成 agent 的包生态,因此供应链威胁会从库代码扩展到“指令+脚本+权限”组合。报告的价值在样本来自真实 marketplace,而不是只给出假想攻击。
A Unified Framework for the Evaluation of LLM Agentic Capabilities12arxiv.org原文 ↗
它与 Harness-Bench 形成呼应:benchmark 分数混入 scaffold 和环境波动。统一框架的价值是解耦框架效应、环境效应和模型能力;风险是固定 ReAct 架构本身也会成为新的测量偏置。
开源 / 项目 · Projects
12 项 · 开源 / 项目Hallucinate - Massively Multiplayer Online Rave13hallucinate.site原文 ↗
一个多人在线音乐与视觉互动实验,HN 描述中同时给出了开源仓库。
Bttf is a command line datetime Swiss army knife14github.com原文 ↗
bttf 的设计不是 POSIX date 兼容替代,而是面向现代时区、RFC 格式和管道组合的时间处理工具。示例覆盖从当前时间到 git 文件时间表,显示它更像 composable datetime toolkit。
Creusot helps you prove your Rust code is correct15github.com原文 ↗
Creusot 的工程路线是借 Rust 类型系统和 Why3 证明生态连接实际代码与形式化验证。它对普通项目的门槛在 annotation、opam/Why3 工具链和证明维护,但对于高可靠 Rust 算法库很有现实价值。
Hermes Desktop17github.com原文 ↗
它的工程价值在 packaging 而不是重写 agent:把 Python agent、Vue/Koa UI、Electron 更新与平台安装器整合为一个下载物。风险也来自捆绑:上游 hermes-agent、web-ui、Python 版本和补丁链都要持续维护。
行业动态 · Industry News
9 项 · 行业动态Claude Opus 4.825anthropic.com原文 ↗
这条发布在技术上仍缺少可引用的详细指标。可确定的是 Anthropic 在 Opus 4.x 线上继续做企业与编码能力迭代,但缺少 system card 细节时不宜把营销说法当能力结论。
Dynamic Workflows in Claude Code26claude.com原文 ↗
这不是单纯 prompt 模板,而是把 Claude Code 的反复任务沉淀成可调用流程。关键问题会是 workflow 的可审计性、参数边界和失败恢复,而不是“能否生成一个脚本”。
Anthropic raises $65B in Series H funding at $965B post-money valuation27anthropic.com原文 ↗
融资规模把 frontier lab 的资本需求继续推高:训练、推理、企业 go-to-market 和安全合规都在变成巨额固定成本。技术层面,它会加速 Anthropic 在企业 agent、Claude Code/Cowork 和基础设施上的投入。
OpenAI’s Frontier Governance Framework28openai.com原文 ↗
这份框架的作用是把 Preparedness Framework 中与监管义务相关的部分公开治理化。它不是新模型能力声明,而是把 frontier 风险流程转成面向法规、审计和外部沟通的文件。
Catch up on 12 major I/O 2026 moments29blog.google原文 ↗
Google 的叙事是把 Gemini 从聊天产品扩展成 Search、开发工具、创作工具和企业 agent 平台的底层模型。值得注意的是 Flash 被强调为可规模化工作马,而 Omni 负责多模态创作和视频/世界模型方向。
Data Formulator 0.7: AI-powered data analytics for enterprise data30microsoft.com原文 ↗
Data Formulator 0.7 把企业数据连接、agent 引导探索和可视化 refinement 放进同一个 workspace。关键设计不是让聊天框直接答数,而是让 agent 访问数据源、loaded tables、历史 charts 和目标,并生成可复现代码与可编辑图表。
AMD pulls a bait-and-switch on Linux users with Vivado licensing changes31itsfoss.com原文 ↗
ItsFOSS 报道的核心变化是 Vivado 2026.1 起 free Basic tier 只支持 Windows,Linux 支持进入年费约 1,200-1,800 美元的 Core tier;AMD 论坛回复建议不付费用户停留在 2025.2,但该版本后续会失去官方支持。这个变化对学生、hobbyist 和 Linux-native FPGA 流程是实质性门槛。
EU fines Temu €200M for allowing sale of illegal products32bbc.co.uk原文 ↗
BBC 报道欧盟依据 Digital Services Act 对 Temu 处以 2 亿欧元罚款。
W3C Leadership Transition33w3.org原文 ↗
W3C 公告确认标准组织进入领导层交接期。对 Web 标准而言,这类变化的影响通常不是单项技术路线立即改变,而是议程优先级、会员协调和跨浏览器共识机制如何延续。
博客文章 · Blog Posts
10 项 · 博客文章sqlite AGENTS.md34simonwillison.net原文 ↗
这篇短文抓住了开源维护的新现实:项目不是拒绝 AI 辅助,而是拒绝不可审计的代理代码流入主线。SQLite 的边界很具体,bug report 可以 agentic,代码贡献仍由人类维护者重写。
I analysed 20 years of my chats35drobinin.com原文 ↗
作者把 120 万条、20 年聊天记录转成关系地图,比较消息量、平均长度、词汇重叠、session 数、conversation-days 和情绪多样性。最有意思的发现不是网络缩小本身,而是 75% 网络流失后每年 conversation-days 仍约 360,只是分配给更少的人。
Disagreement among frontier LLMs on real-world fact-checks37lenz.io原文 ↗
该研究用 1,000 个真实 fact-check claims 测五个 frontier LLM 的四档 verdict,一致性并不高:67% claims 至少有一个模型不同意多数,34% 存在相隔两个以上 bucket 的实质分歧,Krippendorff ordinal alpha 为 0.639。它的价值在于不用 benchmark gold label,而是测真实请求上的模型间不稳定性。
How long until AI automates all cognitive labor?38futuresearch.ai原文 ↗
FutureSearch 汇总 2023-2026 年多位研究者对“多数纯认知劳动可被 AI 以更高质量、速度和成本自动化”的时间线更新。作者观察到 2023-2025 多数预测提前,2025-2026 一度后移,但 2026 年 1 月到 4 月所有更新者又把时间线拉近。
Just Use Postgres for Durable Workflows39dbos.dev原文 ↗
文章主张的核心是 durable execution 可以是应用库+数据库模式,而不一定是外部编排服务。这个观点适合已有 Postgres 边界内的工作流,但跨系统副作用仍需要 idempotency key 和补偿设计。
The Sequence Opinion #868: Recursion Is the New Scaling Law42thesequence.substack.com原文 ↗
TheSequence 讨论递归式模型调用和系统组合是否正在成为 AI 扩展的新路径。
Protestware for coding agents43nesbitt.io原文 ↗
文章讨论 coding agent 时代软件依赖、自动化执行和 protestware 风险。
GitHub 热门 · GitHub Trending
12 项 · GitHub 热门Lum1104/Understand-Anything44github.com原文 ↗
它把代码理解产物显式化为图,而不是只让 agent 临时读文件。价值在可视化和可复用上下文;风险是图谱新鲜度、抽取准确性和大型仓库增量维护成本。
anthropics/knowledge-work-plugins45github.com原文 ↗
这说明 Anthropic 正把 Cowork/Claude Code 的能力生态做成插件市场,而不是只提供通用 agent。插件化降低入门成本,但也把权限、数据访问和组织流程固化进可执行包。
hardikpandya/stop-slop46github.com原文 ↗
Stop Slop 是一个写作 skill,结构包含核心 SKILL.md 和 phrases、structures、examples 三类参考文件,用于识别并移除 AI prose 中的套路短语、结构 cliché、节奏问题和 meta-commentary。它更像可移植编辑准则,而不是自动检测器。
affaan-m/ECC47github.com原文 ↗
ECC 是面向 Claude Code、Codex、Opencode、Cursor 等工具的 agent harness 优化包,仓库包含多平台配置、agents、skills、hooks、commands、rules 和安装器。README 声称插件安装可提供 63 agents、249 skills、79 legacy command shims,并强调不要重复叠加插件和手动安装。
Leonxlnx/taste-skill48github.com原文 ↗
taste-skill 是前端设计类 agent skills 集合,默认 `design-taste-frontend` v2 会读 brief、推断设计语言,并通过 VARIANCE、MOTION、DENSITY 三个 dial 约束布局、动效和信息密度;还包含 image-to-code、redesign、minimalist、brutalist、brandkit 等分支技能。
twentyhq/twenty49github.com原文 ↗
Twenty 把 CRM 做成可用代码定义和发布的业务应用平台:objects、fields、views、workflows、agents 都可扩展,并支持 cloud、CLI scaffold 与 self-hosting。技术栈是 TypeScript/Nx/NestJS/PostgreSQL/Redis/React,定位是给技术团队构建可版本化 CRM。
obra/superpowers50github.com原文 ↗
面向 coding agent 的软件开发方法论和可组合 skills 框架。
langfuse/langfuse51github.com原文 ↗
开源 LLM engineering 平台,提供观测、评估、prompt 管理、数据集和 playground。
NangoHQ/nango52github.com原文 ↗
Nango 解决的是 SaaS 产品最重复的集成层:认证、token 生命周期、同步和 API 适配。AI 文案的增量在生成/维护集成,但底层护城河仍是连接器运行时和认证可靠性。
vllm-project/vllm53github.com原文 ↗
高吞吐、内存高效的 LLM 推理与服务引擎。
本期重点microsoft/agent-governance-toolkit54github.com原文 ↗
它把 agent 安全从单点 guardrail 扩展为身份、策略、沙箱、可靠性和 fuzzing 组合。真正要看的不是 checklist 覆盖率,而是 enforcement 是否在工具调用和跨 agent 通信路径上不可绕过。
本期重点jj-vcs/jj55github.com原文 ↗
Git 兼容的版本控制系统 Jujutsu,强调简单操作模型和强大的历史编辑能力。
引用来源 · References
55 条 · 引用- 1 Tool Forge: A Validation-Carrying Toolchain for Governed Agentic Execution. arXiv:2605.28000https://arxiv.org/abs/2605.28000 ↩ 回到正文 · back to text
- 2 SynthTools: A Framework for Scaling Synthetic Tools for Agent Development. arXiv:2511.09572https://arxiv.org/abs/2511.09572 ↩ 回到正文 · back to text
- 3 Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems. arXiv:2605.27492https://arxiv.org/abs/2605.27492 ↩ 回到正文 · back to text
- 4 Harness-Bench: Measuring Harness Effects across Models in Realistic Agent Workflows. arXiv:2605.27922https://arxiv.org/abs/2605.27922 ↩ 回到正文 · back to text
- 5 Do Agents Know What They Can't Do? Evaluating Feasibility Awareness in Tool-Using Agents. arXiv:2605.28532https://arxiv.org/abs/2605.28532 ↩ 回到正文 · back to text
- 6 MGRetrieval: Memory-Guided Reflective Retrieval for Long-Term Dialogue Agents. arXiv:2605.27437https://arxiv.org/abs/2605.27437 ↩ 回到正文 · back to text
- 7 Periodic RoPE for Infinite Context LLMs. arXiv:2605.27980https://arxiv.org/abs/2605.27980 ↩ 回到正文 · back to text
- 8 Structured Belief State and the First Precision-Aware Benchmark for LLM Memory Retrieval. arXiv:2605.11325https://arxiv.org/abs/2605.11325 ↩ 回到正文 · back to text
- 9 LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?. arXiv:2605.28721https://arxiv.org/abs/2605.28721 ↩ 回到正文 · back to text
- 10 MIRAGE: Context-Aware Prompt Injection against Mobile GUI Agents via User-Generated Content. arXiv:2605.28116https://arxiv.org/abs/2605.28116 ↩ 回到正文 · back to text
- 11 Technical Report: Exploring the Emerging Threats of the Agent Skill Ecosystem. arXiv:2605.28588https://arxiv.org/abs/2605.28588 ↩ 回到正文 · back to text
- 12 A Unified Framework for the Evaluation of LLM Agentic Capabilities. arXiv:2605.27898https://arxiv.org/abs/2605.27898 ↩ 回到正文 · back to text
- 13 Hallucinate - Massively Multiplayer Online Ravehttps://hallucinate.site ↩ 回到正文 · back to text
- 14 Bttf is a command line datetime Swiss army knife. GitHub: BurntSushi/bttfhttps://github.com/BurntSushi/bttf ↩ 回到正文 · back to text
- 15 Creusot helps you prove your Rust code is correct. GitHub: creusot-rs/creusothttps://github.com/creusot-rs/creusot/tree/master ↩ 回到正文 · back to text
- 16 The Anatomy of an LLMhttps://www.royvanrijn.com/anatomy-of-an-llm/ ↩ 回到正文 · back to text
- 17 Hermes Desktop. GitHub: sir1st/hermes-desktophttps://github.com/sir1st/hermes-desktop ↩ 回到正文 · back to text
- 18 Stripeek. GitHub: progapandist/stripeekhttps://github.com/progapandist/stripeek ↩ 回到正文 · back to text
- 19 Open Agent Tools Coder. GitHub: district-solutions/open-agent-tools-coderhttps://github.com/district-solutions/open-agent-tools-coder ↩ 回到正文 · back to text
- 20 Roar. GitHub: dalemyers/Roarhttps://github.com/dalemyers/Roar ↩ 回到正文 · back to text
- 21 LiteParse. GitHub: run-llama/liteparsehttps://github.com/run-llama/liteparse/ ↩ 回到正文 · back to text
- 22 AG2Bhttps://ag2b.ai/docs ↩ 回到正文 · back to text
- 23 Ktx. GitHub: Kaelio/ktxhttps://github.com/Kaelio/ktx ↩ 回到正文 · back to text
- 24 Py-SQL-cleaner. GitHub: enumura1/py-sql-cleanerhttps://github.com/enumura1/py-sql-cleaner ↩ 回到正文 · back to text
- 25 Claude Opus 4.8https://www.anthropic.com/news/claude-opus-4-8 ↩ 回到正文 · back to text
- 26 Dynamic Workflows in Claude Codehttps://claude.com/blog/introducing-dynamic-workflows-in-claude-code ↩ 回到正文 · back to text
- 27 Anthropic raises $65B in Series H funding at $965B post-money valuationhttps://www.anthropic.com/news/series-h ↩ 回到正文 · back to text
- 28 OpenAI’s Frontier Governance Frameworkhttps://openai.com/index/openai-frontier-governance-framework ↩ 回到正文 · back to text
- 29 Catch up on 12 major I/O 2026 momentshttps://blog.google/innovation-and-ai/technology/ai/io-2026-keynote-moment-videos/ ↩ 回到正文 · back to text
- 30 Data Formulator 0.7: AI-powered data analytics for enterprise datahttps://www.microsoft.com/en-us/research/blog/data-formulator-0-7-ai-powered-data-analytics-for-enterprise-data/ ↩ 回到正文 · back to text
- 31 AMD pulls a bait-and-switch on Linux users with Vivado licensing changeshttps://itsfoss.com/news/amd-vivado-bait-and-switch-on-linux-users/ ↩ 回到正文 · back to text
- 32 EU fines Temu €200M for allowing sale of illegal productshttps://www.bbc.co.uk/news/articles/c1k2ydn1rz8o ↩ 回到正文 · back to text
- 33 W3C Leadership Transitionhttps://www.w3.org/press-releases/2026/w3c-leadership-transition/ ↩ 回到正文 · back to text
- 34 sqlite AGENTS.mdhttps://simonwillison.net/2026/May/27/sqlite-agents/#atom-everything ↩ 回到正文 · back to text
- 35 I analysed 20 years of my chatshttps://drobinin.com/posts/am-i-a-bad-friend/ ↩ 回到正文 · back to text
- 36 Can we have the day off?https://mlsu.io/posts/day-off/ ↩ 回到正文 · back to text
- 37 Disagreement among frontier LLMs on real-world fact-checkshttps://lenz.io/research/llm-disagreement ↩ 回到正文 · back to text
- 38 How long until AI automates all cognitive labor?https://futuresearch.ai/blog/agi-timeline-tracker/ ↩ 回到正文 · back to text
- 39 Just Use Postgres for Durable Workflowshttps://www.dbos.dev/blog/postgres-is-all-you-need-for-durable-execution ↩ 回到正文 · back to text
- 40 Various LLM Smellshttps://shvbsle.in/various-llm-smells/ ↩ 回到正文 · back to text
- 41 About LLMs at Zig Dayshttps://kristoff.it/blog/llms-at-zig-days/ ↩ 回到正文 · back to text
- 42 The Sequence Opinion #868: Recursion Is the New Scaling Lawhttps://thesequence.substack.com/p/the-sequence-opinion-868-recursion ↩ 回到正文 · back to text
- 43 Protestware for coding agentshttps://nesbitt.io/2026/05/28/protestware-for-coding-agents.html ↩ 回到正文 · back to text
- 44 Lum1104/Understand-Anything. GitHub: Lum1104/Understand-Anythinghttps://github.com/Lum1104/Understand-Anything ↩ 回到正文 · back to text
- 45 anthropics/knowledge-work-plugins. GitHub: anthropics/knowledge-work-pluginshttps://github.com/anthropics/knowledge-work-plugins ↩ 回到正文 · back to text
- 46 hardikpandya/stop-slop. GitHub: hardikpandya/stop-slophttps://github.com/hardikpandya/stop-slop ↩ 回到正文 · back to text
- 47 affaan-m/ECC. GitHub: affaan-m/ECChttps://github.com/affaan-m/ECC ↩ 回到正文 · back to text
- 48 Leonxlnx/taste-skill. GitHub: Leonxlnx/taste-skillhttps://github.com/Leonxlnx/taste-skill ↩ 回到正文 · back to text
- 49 twentyhq/twenty. GitHub: twentyhq/twentyhttps://github.com/twentyhq/twenty ↩ 回到正文 · back to text
- 50 obra/superpowers. GitHub: obra/superpowershttps://github.com/obra/superpowers ↩ 回到正文 · back to text
- 51 langfuse/langfuse. GitHub: langfuse/langfusehttps://github.com/langfuse/langfuse ↩ 回到正文 · back to text
- 52 NangoHQ/nango. GitHub: NangoHQ/nangohttps://github.com/NangoHQ/nango ↩ 回到正文 · back to text
- 53 vllm-project/vllm. GitHub: vllm-project/vllmhttps://github.com/vllm-project/vllm ↩ 回到正文 · back to text
- 54 microsoft/agent-governance-toolkit. GitHub: microsoft/agent-governance-toolkithttps://github.com/microsoft/agent-governance-toolkit ↩ 回到正文 · back to text
- 55 jj-vcs/jj. GitHub: jj-vcs/jjhttps://github.com/jj-vcs/jj ↩ 回到正文 · back to text