7.2 评测方法Eval Methodology

本主题共 77 条 · 最早 2026-05-29 · 最新 2026-07-25

视图 · View

2026 年 7 月37

The First Known Runaway AI Agent - or a Very Bad Marketing Stunt?
Simon Willison 审视一起被宣传为自主 Agent 失控攻击的事件，重点追问时间线、权限来源、日志和独立证据是否支持“自主逃逸”的说法。文章区分了被授予过高权限后执行危险任务、遭提示注入，以及真正绕过控制机制的不同情形。其方法论价值在于先核对可证伪事实，再接受高度吸睛的 Agent 安全叙事。
Blog2026-07-25simonwillison.net原文 ↗
–
Silent Failures in Multimodal Agentic Search: A Diagnostic Taxonomy and Cross-Judge Evaluation
这项工作不只统计最终答案对错，而是把多模态搜索轨迹拆解为六类隐性故障，包括感知、检索、证据绑定、推理与工具使用等环节的偏差。作者还用多种 judge 模型交叉评估同一轨迹，检查自动评判器在故障类型上的一致性，而不是把单一 LLM 评分当作真值。诊断粒度比终局准确率更适合定位 Agent 为什么“看似完成、实则证据链已经断裂”。
Paper2026-07-25arxiv.org原文 ↗
–
Guardrails as Scapegoats: Auditing Unfaithful Safety Refusals in Tool-Augmented LLM Agents
作者向工具响应注入空值、畸形字段、超时和不一致数据，测试 Agent 是否把基础设施故障错误解释成“因安全政策拒绝”。这种不忠实归因会掩盖真正的系统缺陷，也会让运维方误判 guardrail 的触发率。论文把拒绝审计从内容合规扩展到因果归因，提醒评测必须区分安全阻断、工具失败与模型能力不足。
Paper2026-07-25arxiv.org原文 ↗
–
When JSON Is Not Enough
作者指出结构化输出只保证“长得像合法订单”，并不保证订单语义正确或安全，于是构建真实电商数据集来测试 schema-valid agent。研究把错误细分为字段层面的 fabrications、跨字段矛盾与高风险执行，并发现即使 JSON Schema 完全通过，模型仍会提交错误商品、数量或配送约束；它揭示了语法验证与业务验证之间必须补上的一层。
Paper2026-07-24arxiv.org原文 ↗
–
SAAG: Structured Agent Assessment and Grounding
SAAG 将工具调用评估拆成 Action、Action Input、Thought 与 Grounding 四个维度，避免用一次 exact match 把不同性质的错误混在一起。作者构建了覆盖六个领域、真实与合成轨迹混合的基准，并用逐字段裁判定位“工具选对但参数错”“答案对但理由未落地”等情况；这套分解更适合诊断 agent，而不只是给一个总分。
Paper2026-07-24arxiv.org原文 ↗
–
HALLMARK: Diagnosing Three Failure Modes in LLM Citation Verifiers
HALLMARK 将引用核验拆成三件事：文献是否真实存在、被引内容是否支持陈述、作者年份等元数据是否正确。基准共 4,200 个样本，包含正常引用和针对三类错误构造的困难负例；结果显示不少验证器会把“论文存在”误当成“论断得到支持”，因此检索命中率不能替代蕴含判断。
Paper2026-07-24arxiv.org原文 ↗
–
Binding Drift in Multi-Step Tool-Augmented Agents
作者定义了 binding drift：agent 起初识别了正确实体，却在后续工具调用中逐步把属性、ID 或操作绑定到另一个对象。论文设计 9 个领域、30 个任务模板的受控测试，并对前沿模型运行 3,500 余条轨迹，发现流程越长、同类实体越多，漂移越明显；这说明工具正确率之外还应持续检查实体身份不变量。
Paper2026-07-24arxiv.org原文 ↗
–
Otap: Structure-Aware Optimal Transport for Evaluating Planning and Execution in Agent Trajectories
OTAP 用结构感知最优传输对齐两条代理轨迹，不要求动作逐位置完全一致，而是比较计划、工具调用及其依赖关系。作者报告该指标与人工判断的相关性最高可达 0.92，并能区分“计划合理但执行失败”和“结果碰巧正确”的轨迹。它补足了只看最终答案的评测盲区，不过距离函数和结构权重仍会影响解释。
Paper2026-07-23arxiv.org原文 ↗
–
KernelBench-Verified: Do LLM-Generated Kernels Actually Beat PyTorch?
作者重新核验 KernelBench 中声称超越 PyTorch 的生成 kernel，加入输出正确性、同步、缓存与计时路径检查。复测显示，原先大量“加速”来自漏算、异步计时或针对 harness 的投机实现；严格验证后，真正超过 PyTorch 的比例显著下降。论文的重要性不只在 CUDA，而在提醒所有代码生成基准：性能分数必须和语义等价性、隔离执行共同验证。
Paper2026-07-23arxiv.org原文 ↗
–
AEVAL: From Anecdotal to Deterministic Testing for Agentic Skill Workflows
AEVAL 把包含提示词、脚本、工具和文件操作的 agent skill 封装成可重复测试单元，并记录输入、环境与期望断言。框架支持确定性 fixture、步骤级检查和回归比较，使原本靠人工试玩的 Skill 包可以进入 CI。它解决的是代理工程中经常被忽略的测试层：模型输出可以变化，但工作流契约仍应被稳定验证。
Paper2026-07-23arxiv.org原文 ↗
–
Precise but Uncoupled: Reviewer Precision Does Not Guarantee Critique Uptake in Multi-Agent Math Reasoning
这项实验把“reviewer 找错准不准”和“系统是否采纳 critique”分开测量，在 4,181 个 verifier-grounded Omni-MATH 问题上比较 PER pipeline 与 broadcast peer discussion。PER reviewer precision 为 0.861，高于 broadcast 的 0.644，但经 evaluator 验证的有用…
Paper2026-07-21arxiv.org原文 ↗
–
CRAFT: Clustering Rubrics to Diagnose Weak LLM Capabilities and Generate Targeted Fine-Tuning Data
CRAFT 把 rubric evaluation 中的 grading criterion 转成 capability probe，再聚类成层级能力树，从不同层级动态选择低分节点生成 targeted SFT 数据。对比实验固定数据生成、finetuning 和 evaluation 设置，覆盖四个开源模型、finance/legal 两个专业域和 13 个与诊断数据不重合的 held-out…
Paper2026-07-21arxiv.org原文 ↗
–
Behavioral Controllability of Agentic Models for Information Extraction: From Fixed Workflows to Reflective Agents
作者用 conference-paper dataset extraction 检验固定 LLM workflow、reflective agent、memory 和 richer PDF tools 是否真的改变可控行为。评估把 tool execution、retries、reflection、memory use、runtime、failure recovery 放在第一层，coverage…
Paper2026-07-21arxiv.org原文 ↗
–
Rethinking the Evaluation of Harness Evolution for Agents
作者重新审视 agent harness 自动演化的评测协议，指出在同一公开 benchmark 上搜索 harness 并报告结果会引入选择偏差。关键事实是论文关注的是 harness evolution 本身的实验设计，而非单个 agent 模型的能力提升。它提醒读者，agent 成绩上涨可能来自对评测环境的适配，最终报告需要区分优化集和近似 held-out 证据。
Paper2026-07-16arxiv.org原文 ↗
–
Operationalising Multi-Dimensional Evaluation for Conversational Agents
论文面向零售对话 agent，讨论如何把意图对齐、事实性、语气和整体质量等维度组织成可治理的评测管线。它将 LLM-as-judge、规则检查和可审计流程组合起来，而不是只输出一个总体满意度分数。该工作适合关注企业 agent 上线评测的人阅读，因为它把评测从离线打榜推进到监控、追踪和责任归属。
Paper2026-07-16arxiv.org原文 ↗
–
How Many Tasks Are Enough for Agent Benchmark Decisions?
这项研究用 SWE-bench、AppWorld 和 tau-bench 的公开任务级记录做 replay analysis，衡量部分任务运行能否复现完整 benchmark 的两两模型结论。论文把 benchmark 子采样变成统计决策问题：目标不是估一个漂亮均值，而是判断排序是否足够稳定。对昂贵 agent eval 来说，这提供了一个比“全量跑或不跑”更细的成本控制视角。
Paper2026-07-16arxiv.org原文 ↗
–
Agent-Safety Evaluations as Load-Bearing Evidence
这篇文章把 agent safety eval 定义为会支撑上线、采购或监管决策的承重证据，并提出 vendor-neutral 的 reconstructability metric。指标关注外部读者能否从报告中重构关键安全结论，而不是只看通过率或红队案例数量。它把评测透明度和治理可用性连接起来，适合放在模型安全报告写作规范中讨论。
Paper2026-07-16arxiv.org原文 ↗
–
IntentGuard
IntentGuard 检查 PR 是否虽然通过测试但偏离 ticket 意图。它把 issue 或需求描述与 PR diff 一起审阅，尝试发现功能方向、约束或边界条件实现错位的问题。这个项目补的是 CI 的语义盲区：测试能证明某些行为存在，却很难证明开发者实现的是正确需求。
Project2026-07-15github.com原文 ↗
–
Format Sensitivity Index: Token-Controlled Prompt Wrapper Robustness and Schema Compliance in LLM Benchmarking
这篇论文把 prompt wrapper 对 benchmark 的扰动量化为 FSI，并用 PSI 衡量输出是否还能被 schema 解析，而不是只报告模型分数。实验覆盖 14 个开源 LLM、25 种 wrapper 和 6 个 benchmark，显示 bias message、JSON schema、Markdown 等外层格式会改变 accuracy/F1 与 parseability。…
Paper2026-07-15arxiv.org原文 ↗
–
AgentAbstain: Do LLM Agents Know When Not to Act?
AgentAbstain 把 abstention 作为 agent 行为评测的核心，而不是把所有场景都压成完成任务。论文覆盖不确定、约束冲突、不可完成与工具失败等条件，观察模型是否会停止、澄清或拒绝继续行动。这个方向重要在于它评估的是行动边界：一个能完成任务的 agent，如果在错误前提下仍持续调用工具，实际系统风险会被传统 success rate 低估。
Paper2026-07-15arxiv.org原文 ↗
–
Sqlsure
Sqlsure 面向 AI 生成 SQL 做语义检查，规则覆盖 fan-out、错误 join key、聚合可加性和策略违例。它的贡献不是再生成一条 SQL，而是在生成之后判断查询是否可能给出业务上错误的数字。对分析系统而言，`SELECT` 能跑通并不等于指标可信，Sqlsure 把这层检查显式化。
Project2026-07-13github.com原文 ↗
–
Automation Without Understanding
这篇短论讨论 AI 参与研究级数学后，数学基础设施要怎样从“读懂完整推导”转向“审计机器可检查的关键声明”。它提出把 AI 产出的核心 claim 暴露为可形式化、可验证对象，并强调人类数学家的解释、反例构造和挑战能力仍然是系统的一部分。文章更像研究议程而非实验论文，局限也在这里：它提出的是验证架构和社会技术分工，还不是一个已经跑完的数学自动化系统。
Paper2026-07-13arxiv.org原文 ↗
–
When LLMs Agree, Are They Right?
论文审计 self-consistency 和跨模型一致性作为置信信号的可靠性。结果方向很清楚：一致性通常与正确性相关，但在困难、歧义或共享偏差题上会系统性高估可信度；跨模型投票能降低一部分风险，却不能消除共同推理捷径。它给评测和产品置信度展示泼了一盆冷水，因为“多个模型同意”仍可能只是错在同一个模式里。
Paper2026-07-11arxiv.org原文 ↗
–
Separating signal from noise in coding evaluations
OpenAI 文章讨论代码评测中如何区分模型能力信号与评测噪声。核心问题包括任务采样、判分器、执行环境、随机性和基准污染，它们都会让一个总分看起来比实际更确定。对于 coding model 发布，这篇的价值在于提醒读者看 eval 时要追问置信区间、复现路径和失败样本。
News2026-07-11始 2026-07-09openai.com原文 ↗
–
Quoting Kenton Varda
Simon Willison 引用 Kenton Varda 的观点：团队暂停使用 AI 写 PR、commit、issue/ticket 描述，因为这些描述在 code review 中“worse than useless”。原文摘录的关键批评是，AI 常把 diff 里一眼能看到的代码细节复述出来，却漏掉 reviewer 真正需要的高层 framing：这次改动整体在做什么、为什么这样做、…
Blog2026-07-09simonwillison.net原文 ↗
–
Beyond the Leaderboard: A Synthesis of Tool-Use, Planning, and Reasoning Failures in Large Language Model Agents
这篇不是新 benchmark，而是把 2023-2026 年的 27 篇 benchmark、taxonomy、audit paper 统一整理成 agent limitation taxonomy，覆盖 19 个不同 benchmark。作者归纳出 6 类失败：工具调用与参数错误、规划和约束满足失败、长程上下文积累导致退化、多 agent 协调失败、对抗或欠约束条件下的安全失败，以及测量有效性…
Paper2026-07-09arxiv.org原文 ↗
–
Agentic test processes, LLM benchmarks, and other notes on agentic coding
Dan Luu 这篇笔记围绕 agentic coding 的测试流程、LLM benchmark 方差和实践观察展开，链接锚点直接指向 `#llm-variance`。它和 OpenAI SWE-Bench Pro 审计放在同一天很有对照意义：一个从 benchmark 数据质量出发，一个从实际 agentic coding 过程中的方差和测试流程出发。HN 讨论页只有 5 points、1 c…
Blog2026-07-09danluu.com原文 ↗
–
Measuring Harness-Induced Belief Divergence in Multi-Step LLM Agents
这篇研究 benchmark harness 如何改变多步 agent 的状态信念。它关注 agent 在评测框架提供的提示、状态显示和工具反馈下形成的 belief，是否偏离真实部署中会形成的判断。看点不在新模型，而在提醒 benchmark 自身也是干预变量；如果 harness 改写了 agent 的世界模型，分数就不一定代表线上行为。
Paper2026-07-08arxiv.org原文 ↗
–
Do GUI Agents Believe Their Eyes? Diagnosing State-Belief Reliance on Pixels versus Structure
论文诊断 GUI agents 在像素截图和结构化界面信息之间如何建立状态信念。它比较视觉证据与 DOM/accessibility tree 等结构信号的作用，尤其关心两者冲突时 agent 依赖哪一边。这个问题直接关系到桌面和浏览器 agent 的可靠性：截图看起来正确，不等于可点击状态或控件语义真的一致。
Paper2026-07-08arxiv.org原文 ↗
–
Agent Step Value: State-Transition Measurement with State-Grounded LLM Evaluators
Agent Step Value 把 agent 评估从整条轨迹的终局分数拆到单步状态转移。论文用 state-grounded LLM evaluator 判断某一步是否让环境状态更接近目标，因此能区分“中间操作合理但最终失败”和“最终成功但过程不可复现”。这种粒度更适合训练和调试多步 agent，因为它能指出哪一步开始偏航。
Paper2026-07-08arxiv.org原文 ↗
–
Does code cleanliness affect coding agents? A controlled minimal-pair study
论文构造 clean/messy minimal pairs，保持架构、依赖和外部行为一致，只改变静态分析违规与认知复杂度，由此隔离“代码整洁度”变量。33 个任务、6 组仓库、660 次 Claude Code 试验显示 pass rate 没变，但 cleaner code 让 token 使用少 7-8%，文件重访减少 34%。它把 maintainability 的收益从人类可读性扩展到…
Paper2026-07-07arxiv.org原文 ↗
–
Please stop the AI confidence theater
Elena Verna 批评 AI 产品叙事中的“confidence theater”，即界面和营销把不确定结果包装得过于确定。文章强调用户需要看到概率、限制和失败模式，才能判断何时信任、何时验证。它把模型校准问题转译成产品设计问题：不确定性不是缺陷提示语，而是交互契约的一部分。
Blog2026-07-04elenaverna.com原文 ↗
–
PACE: A Proxy for Agentic Capability Evaluation
PACE 试图用更便宜的非 agentic 能力测试预测昂贵 agent benchmark 的结果，目标包括 SWE-Bench、GAIA 这类需要长轨迹和环境验证的评测。关键事实是它把模型筛选前置为 proxy evaluation，减少每次都运行完整 agent benchmark 的成本。这个方向适合评测工程，因为 agent benchmark 的价格、时延和不稳定性正在成为模型迭代的现…
Paper2026-07-04arxiv.org原文 ↗
–
Using DSPy to evaluate and improve Datasette Agent's SQL system prompts
Simon Willison 把 DSPy 用在 Datasette Agent 的 SQL system prompt 评估与改进上，而不是只凭主观感觉改 prompt。RSS 摘要显示他在 AIE keynote 后，让 Claude Code for web 用 Claude Fable 5 启动异步研究任务，安装最新 Datasette alpha 和 datasette-agent 来做…
Blog2026-07-03simonwillison.net原文 ↗
–
OSS Tests to Fix AI Gen Code
api-doctor 是一组确定性 API 集成规则/测试，用来抓 AI 生成代码中的常见错误。README 支持 Resend、Supabase、Auth0、Firebase、Lovable、Browserbase、OpenAI Computer Use、TipTap、ElevenLabs、Twilio 等 provider；例如表格中 Firebase 有 20 rules、Resend 有…
Project2026-07-03github.com原文 ↗
–
RoPoLL: Robust Panel of LLM Judges
RoPoLL 把 LLM-as-judge 多评审团放进 Huber contamination 模型，证明普通 PoLL 共识在任何正污染下都可能因为单个偏置 judge 产生无界 bias。方法上它不换 jury，只把聚合函数换成鲁棒均值估计，实例化为 tuning-free 的 geometric median，并给出有限样本误差界和 minimax lower bound。实验覆盖 13…
Paper2026-07-02arxiv.org原文 ↗
–
QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents
QVal 的切入点是：dense supervision 信号不该每次都靠完整训练 pipeline 的下游表现来评估，因为那会混入工程配置和训练成本。它用 training-free testbed 直接衡量 state-action score 是否 Q-aligned，也就是能否按强 reference policy 的 Q-values 排列动作。QVal-v1.0 比较 21 种 den…
Paper2026-07-02arxiv.org原文 ↗
–

2026 年 6 月31

Caliper
Caliper 把 agent skill 可靠性测试产品化：同一任务运行 k 次，计算 pass@k，并可同时跑 baseline 判断 skill 是否真的改善了裸 agent。README 示例中 “With skill” 为 98%、“No skill” 为 55%、Delta +43%，任务规格支持 LLM judge 的 `expect:`，也支持本地 Python `assert:`…
Project2026-06-29github.com原文 ↗
–
The Verification Horizon: No Silver Bullet for Coding Agent Rewards
论文把 verifier 质量拆成 scalability、faithfulness、robustness，并指出测试、LLM judge、用户反馈和 agentic evaluator 都无法同时满足三者。一个具体结果是 SWE 类任务中加入 quality judge 与 trajectory monitoring 后，hacked resolved rate 从 28.57% 降到 0.56…
Paper2026-06-27arxiv.org原文 ↗
–
When Agents Commit Too Soon
论文定义 long-horizon LLM agents 的 premature commitment：agent 很早固定一种证据解释，之后的工具调用和推理更像是在维护这条路径。它提出 representational commitment，用同一时间点跨运行 hidden-state 收敛来诊断过程是否已经坍缩到稳定轨迹。这个视角补足 final-answer scoring 的盲区，因为最终…
Paper2026-06-24arxiv.org原文 ↗
–
Patterns for Building Cybersecurity Evals
Eugene Yan 总结网络安全 eval 的设计模式，覆盖目标环境、输入难度、工具和 grader。重点在于让评测可执行、可判定、可复现，而不是只让模型写安全建议。对 cyber eval 来说，grader 能否验证真实利用、修复或防御效果，往往比题目文本本身更决定评测质量。
Blog2026-06-23eugeneyan.com原文 ↗
–
Lighthouse agentic browsing scoring
Chrome 的 Lighthouse agentic browsing scoring 文档把“网页是否适合 agent 操作”正式纳入审计语言。页面导航显示该类 audits 覆盖 WebMCP integration、registered tools、forms missing declarative WebMCP、schema validity、discoverability、`llms.…
Blog2026-06-21developer.chrome.com原文 ↗
–
Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents
这篇讨论 LLM agent 评测的 predictive validity，问题不是某个模型在静态榜单上排第几，而是榜单结果能否预测真实部署中的表现。摘要给出的规模是一个 MCP-based industrial-agent benchmark 的 14 组并行实现研究，覆盖新资产类别、多模态视觉扩展、不同编排方式和检索策略。它把评测焦点从“分数排序”转向“分数是否能指导选型”，这是代理基准进入…
Paper2026-06-20arxiv.org原文 ↗
–
promptfoo/promptfoo
promptfoo 提供 LLM 应用评测、prompt 测试和 red teaming 的 CLI/library。它的用途是把 prompt、模型、工具输出和安全用例写成可重复测试，而不是靠人工试聊。随着 agent 进入 CI/CD，promptfoo 这类 eval harness 会变成发布门禁的一部分。
Trending2026-06-19github.com原文 ↗
–
Is it agentic enough? Benchmarking open models on your own tooling
Hugging Face 文章讨论如何在自有工具链上评测开源模型的 agentic 能力。它反对只看通用榜单，因为工具 schema、调用错误、恢复策略和环境延迟都会改变模型表现。更实用的结论是：agentic eval 应该贴近团队实际工具和失败模式，而不是复制一个外部 benchmark 名字。
Blog2026-06-19huggingface.co原文 ↗
–
DOS - a referee between AI agents that doesn't believe their "done"
DOS 是多代理编码工作流的裁判，不相信 agent 的“完成”叙述，而是读取 git、文件树、时间和 CI 等 artifact。最小用法是 `dos verify PLAN PHASE`：commit subject 中有对应 phase token 就返回 SHIPPED 和 exit 0，没有就 NOT_SHIPPED 和 exit 1。README 列出 v0.26.0、3900+ te…
Project2026-06-19github.com原文 ↗
–
ProvenanceGuard: Source-Aware Factuality Verification for MCP-Based LLM Agents
ProvenanceGuard 处理的是 source-aware factuality：一个 claim 即使被 pooled evidence 支持，只要归因给了错误来源，在 MCP 场景里仍然是事实性风险。系统读取带稳定 tool ID、source ID、raw output 的 MCP trace，把回答拆成 atomic claims，路由到 source-specific evide…
Paper2026-06-18arxiv.org原文 ↗
–
Position: Coding Benchmarks Are Misaligned with Agentic Software Engineering
这篇 position paper 直接挑战 coding benchmark 的单一分数传统：真实 coding agent 是模型、harness、context、environment、feedback signal 的组合系统，任何组件变化都可能带来与模型代际差距相当的分数变化。作者列出三个 misalignment：benchmark score 混淆模型与 harness；单一 ref…
Paper2026-06-18arxiv.org原文 ↗
–
Dissecting model behavior through agent trajectories
这篇论文把 Agent 的失败归因到 intent-execution gap：模型打算做的事与 harness 实际执行的事不一致，或者 harness 暴露的行为偏离模型假设。作者构建 Simple Strands Agent，在 SWE-Pro、SWE-Verified、Terminal-Bench-2 上复现或改进多个模型提供方报告的 pass@1。更有价值的是 138k 条轨迹分析：它把…
Paper2026-06-18arxiv.org原文 ↗
–
A Framework for Evaluating Agentic Skills at Scale
这篇论文把 Agent skill 当成可单独评估的知识 artifact，而不是把它埋在完整 agent app 的总体分数里。作者从 500 个真实世界 skills 生成 1,000 个任务，附带 instruction-following 与 goal-completion rubric，并在 19 个 proprietary 与 open-source agent-model confi…
Paper2026-06-18arxiv.org原文 ↗
–
Where Did It Go Wrong? Process-Level Evaluation of Web Agents with Semantic State Tracking
这项工作提出 WebStep，用自动语义状态跟踪替代只看最终成功/失败的 web agent 评测。WebStep 有 1,800 个任务实例，每个网站在 GUI 背后维护确定性 semantic MDP，从而无需人工标注即可分析中间轨迹。论文显示三个 agent 的成功率都在 31-33% 附近，但探索覆盖与执行准确度差异很大；在 Housing 任务里 OpenAI CUA commit 动作…
Paper2026-06-17arxiv.org原文 ↗
–
Predicting model behavior before release by simulating deployment
OpenAI 介绍 Deployment Simulation：重放经过隐私处理的历史真实对话，移除旧模型回答，让候选模型补全，再估计发布后不良行为频率。文章称共分析约 1.3M 去标识化 GPT-5 Thinking 系列对话，覆盖 20 类 undesired behavior，预测中位 multiplicative error 为 1.5x。它还把方法扩展到 120,000 条内部 agen…
News2026-06-17openai.com原文 ↗
–
claim-memory-graph-sdk
CMG 为 LLM judge 加了一层 evidence/claim/decision 图谱，要求 verdict 建立在显式 claim 上，而 claim 必须引用输入证据。README 列出 `missing_verdict`、`invalid_verdict`、`uncited_verdict`、`no_supported_claims`、`rubric_coverage_gap`、`r…
Project2026-06-15github.com原文 ↗
–
Data-review
Data-review 把 PR 里的数据影响审查拆成确定性脚本和 agent 判断两层：脚本算 blast radius、tieout、baseline diff、row-level EXCEPT ALL，agent 只判断变化是否符合作者声明。README 的演示把 cents-to-dollars 转换错误暴露为 `sum(amount)` 从 134.50 跳到 13,450；更大的 pr…
Project2026-06-15github.com原文 ↗
–
Hardening Agent Benchmarks with Adversarial Hacker-Fixer Loops
作者审计 5 个 terminal-agent benchmarks 的 1,968 个任务，发现 323 个任务可被前沿模型仅凭任务描述 hack verifier，占 16%。hacker-fixer loop 让 hacker 找到不解题也能过 verifier 的路径，fixer 修补 verifier，solver 再确认合法解仍能通过；在 KernelBench 上，held-out…
Paper2026-06-10arxiv.org原文 ↗
–
Answer Presence Drives RAG Rewriting Gains
论文检验 RAG rewriting 的大幅收益是否主要来自 gold answer string 被写进改写上下文。作者在 HotpotQA 和 2WikiMultihopQA 上对 rewritten context 做删除答案、替换 placebo span、前缀或中段注入答案等干预；12 个 reader/dataset/compiler 组合中，删除 gold answer 比 plac…
Paper2026-06-10arxiv.org原文 ↗
–
Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges
作者发现 LLM judge 在重复或中性复评时很稳定，但初判之后遭遇有目标的挑战会显著可逆。实验覆盖 MT-Bench 与 AlpacaEval，并用 anti-baseline challenge 与 counterbalanced target-validation 区分普通纠错和方向性操控。文章提出 ERS，把 reversal susceptibility 和 directional e…
Paper2026-06-07arxiv.org原文 ↗
–
Do More Agents Help? Controlled and Protocol-Aligned Evaluation of LLM Agent Workflows
BenchAgent 在统一工具、日志和成本协议下比较单 agent、多 agent 与演化式工作流，避免不同框架各自报喜。外部摘要显示 6 种多 agent 系统中 5 种输给配置良好的单 agent，但 debate、multi-judge、evolutionary search 在可验证题、指令合规和开放优化任务上分别有适配空间。论文的实质不是否定多 agent，而是要求协议匹配任务错误模式…
Paper2026-06-07arxiv.org原文 ↗
–
Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories
这篇把 deep-research agent 的可靠性问题下钻到 span 级别：作者收集 2,790 条真实轨迹，转换成语义 span，再构建 1,000 实例 TELBench。DRIFT 以 claim 为中心追踪证据支持关系，报告在 span-level error localization 和 first-error accuracy 上最高提升 30 个百分点；它比只看最终答案更能解…
Paper2026-06-05arxiv.org原文 ↗
–
Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems
RAMP 的核心判断是静态 benchmark 不足以说明软件工程 agent 的生产能力，因此它用 YatCC 上的编译器构造任务、串行依赖和阶段恢复机制做 runtime assessment。作者评估 15 个主流模型，报告串行 workflow 完成率从首阶段 100% 降到末阶段 20%，没有模型完成完整 pipeline；这个结果把“能解单题”和“能维持长链路执行”区分开了。
Paper2026-06-05arxiv.org原文 ↗
–
Anthropic defending-code reference harness
这个仓库是 Anthropic 针对 AI 漏洞发现发布的 reference harness，核心作用是复现实验、统一运行目标和比较不同工具。它比单个“安全 agent”更底层：关注评测协议、样例环境和可重复性，便于判断工具是否真的发现漏洞而不是产生漂亮报告。
Project2026-06-05github.com原文 ↗
–
What Benchmarks Don't Measure: The Case for Evaluating Abstention Competence in Autonomous Agents
主张 autonomous agent 评测不能只看完成率，还要看何时应该停手或拒绝继续行动。论文提出三类 abstention-warranted 场景：specification gap、verification gap 和 authority gap，分别对应信息缺失、世界状态无法确认、授权不足。它的技术价值不在新模型，而在把“拒绝行动”从安全原则变成 benchmark 构造维度。对 ag…
Paper2026-06-04arxiv.org原文 ↗
–
Handoff Debt: The Rediscovery Cost When Coding Agents Take Over Interrupted Tasks
定义 coding agent 接手中断任务时的 handoff debt：后继者为重新发现前任上下文付出的事件和 token 成本。协议在 75 个源任务上生成 181 个 handoff-point tasks，并对每个 successor model 跑 724 次 takeover；四种视图包括仅仓库状态、raw trace、summary notes 和 structured notes…
Paper2026-06-04arxiv.org原文 ↗
–
TRACE: Trajectory Risk-Aware Compression for Long-Horizon Agent Safety
论文把长程 agent 安全检测建模为轨迹级压缩问题，用于保留稀疏和延迟出现的风险证据。
Paper2026-06-03arxiv.org原文 ↗
–
PrivacyPeek: Auditing What LLM-Based Agents Acquire, Not Just What They Say
论文评估 LLM agent 在完成任务时获取了哪些敏感信息，而不仅仅检查输出或外发动作。
Paper2026-06-03arxiv.org原文 ↗
–
NUA an agent that tests for product correctness
面向产品正确性的测试 agent，用上下文生成检查用户意图的测试。
Project2026-06-03trynua.dev原文 ↗
–
UQLM
UQLM 是 CVS Health 开源的 Python 库，用 uncertainty quantification 检测 LLM hallucination。它提供 response-level confidence scores，覆盖 black-box consistency、多生成语义熵、white-box token probability、LLM-as-judge panel、ens…
Project2026-06-02github.com原文 ↗
–
PReMISE: Policy Rubrics as Measurement Specifications for LLM Judges
PReMISE 把 reusable rubrics 视为 LLM judge 的测量规格：换 rubric 就是在改变固定 judge 对 response quality 的测量。框架从 pairwise human-preference data 发现 policy-level rubric，并审计 structural adequacy、reliability、preference fit…
Paper2026-06-01arxiv.org原文 ↗
–

2026 年 5 月9

Promptloop
它解决的是 prompt 开发缺少轻量版本化实验的问题。CLI 形态有利于进入 CI 和脚本；深一层的价值取决于它是否能记录输入集、模型参数、评分规则和历史结果。
Project2026-05-30github.com原文 ↗
–
OpenAI: A shared playbook for trustworthy third party evaluations
这篇文章把“评测结果”扩展为“评测设置 + 有效性证据”。核心信号是：agentic 能力高度依赖 harness 和 token budget，标准化 harness 适合公平比较，但不等于能力上限。
News2026-05-30openai.com原文 ↗
–
How Consistent Are LLM Agents? Measuring Behavioral Reproducibility in Multi-Step Tool-Calling Pipelines
这类评测补上了 agent 可靠性的一块盲区。即便最终成功率相近，路径不稳定也会增加缓存、审批、审计和事故复现成本；但一致性不能单独当目标，因为 agent 也可能稳定地执行错误策略。
Paper2026-05-30arxiv.org原文 ↗
–
How Braintrust turns customer requests into code with Codex
这类案例的看点不在“AI 写代码”，而在客户反馈到 eval/code 的闭环。Braintrust 本身做 eval 基础设施，所以它展示的是 coding agent 与实验平台结合后的产品迭代模式。
News2026-05-30openai.com原文 ↗
–
Entity-Collision: A Stratified Protocol for Attributing Retrieval Lift in Agent Memory
它解决的是 memory 评测里常见的“看似检索好，其实只是实体词撞上了”的问题。结论也很实际：更大的 encoder 不必然更好，MiniLM 在一些轴上胜过 BGE-large，说明 memory retriever 需要按查询类型路由，而不是只堆模型参数。
Paper2026-05-30arxiv.org原文 ↗
–
AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation
这篇论文直接挑战“pass rate 足够”的评测习惯。它显示不同模型的 Lucky rate 可从 0.5% 到 23.2%，按过程质量重新排名甚至能移动五个名次；这对 coding agent 很关键，因为混乱通过的补丁在真实工程里往往更难维护。
Paper2026-05-30arxiv.org原文 ↗
–
Do Agents Know What They Can't Do? Evaluating Feasibility Awareness in Tool-Using Agents
它关注的是“提前停止”的能力，而不是更努力地调用工具。这个方向很实用：在工具缺失或权限不足时，agent 的主要失败不是答错，而是持续消耗 token、时间和副作用预算。
Paper2026-05-29arxiv.org原文 ↗
–
Disagreement among frontier LLMs on real-world fact-checks
该研究用 1,000 个真实 fact-check claims 测五个 frontier LLM 的四档 verdict，一致性并不高：67% claims 至少有一个模型不同意多数，34% 存在相隔两个以上 bucket 的实质分歧，Krippendorff ordinal alpha 为 0.639。它的价值在于不用 benchmark gold label，而是测真实请求上的模型间不稳定性…
Blog2026-05-29lenz.io原文 ↗
–
A Unified Framework for the Evaluation of LLM Agentic Capabilities
它与 Harness-Bench 形成呼应：benchmark 分数混入 scaffold 和环境波动。统一框架的价值是解耦框架效应、环境效应和模型能力；风险是固定 ReAct 架构本身也会成为新的测量偏置。
Paper2026-05-29arxiv.org原文 ↗
–