2026 年 6 月7
-
What Benchmarks Don't Measure: The Case for Evaluating Abstention Competence in Autonomous Agents
主张 autonomous agent 评测不能只看完成率,还要看何时应该停手或拒绝继续行动。论文提出三类 abstention-warranted 场景:specification gap、verification gap 和 authority gap,分别对应信息缺失、世界状态无法确认、授权不足。它的技术价值不在新模型,而在把“拒绝行动”从安全原则变成 benchmark 构造维度。对 ag…
原文 ↗– -
Handoff Debt: The Rediscovery Cost When Coding Agents Take Over Interrupted Tasks
定义 coding agent 接手中断任务时的 handoff debt:后继者为重新发现前任上下文付出的事件和 token 成本。协议在 75 个源任务上生成 181 个 handoff-point tasks,并对每个 successor model 跑 724 次 takeover;四种视图包括仅仓库状态、raw trace、summary notes 和 structured notes…
原文 ↗– -
TRACE: Trajectory Risk-Aware Compression for Long-Horizon Agent Safety
论文把长程 agent 安全检测建模为轨迹级压缩问题,用于保留稀疏和延迟出现的风险证据。
原文 ↗– -
PrivacyPeek: Auditing What LLM-Based Agents Acquire, Not Just What They Say
论文评估 LLM agent 在完成任务时获取了哪些敏感信息,而不仅仅检查输出或外发动作。
原文 ↗– -
NUA an agent that tests for product correctness
面向产品正确性的测试 agent,用上下文生成检查用户意图的测试。
原文 ↗– -
UQLM
UQLM 是 CVS Health 开源的 Python 库,用 uncertainty quantification 检测 LLM hallucination。它提供 response-level confidence scores,覆盖 black-box consistency、多生成语义熵、white-box token probability、LLM-as-judge panel、ens…
原文 ↗– -
PReMISE: Policy Rubrics as Measurement Specifications for LLM Judges
PReMISE 把 reusable rubrics 视为 LLM judge 的测量规格:换 rubric 就是在改变固定 judge 对 response quality 的测量。框架从 pairwise human-preference data 发现 policy-level rubric,并审计 structural adequacy、reliability、preference fit…
原文 ↗–
2026 年 5 月9
-
Promptloop
它解决的是 prompt 开发缺少轻量版本化实验的问题。CLI 形态有利于进入 CI 和脚本;深一层的价值取决于它是否能记录输入集、模型参数、评分规则和历史结果。
原文 ↗– -
OpenAI: A shared playbook for trustworthy third party evaluations
这篇文章把“评测结果”扩展为“评测设置 + 有效性证据”。核心信号是:agentic 能力高度依赖 harness 和 token budget,标准化 harness 适合公平比较,但不等于能力上限。
原文 ↗– -
How Consistent Are LLM Agents? Measuring Behavioral Reproducibility in Multi-Step Tool-Calling Pipelines
这类评测补上了 agent 可靠性的一块盲区。即便最终成功率相近,路径不稳定也会增加缓存、审批、审计和事故复现成本;但一致性不能单独当目标,因为 agent 也可能稳定地执行错误策略。
原文 ↗– -
How Braintrust turns customer requests into code with Codex
这类案例的看点不在“AI 写代码”,而在客户反馈到 eval/code 的闭环。Braintrust 本身做 eval 基础设施,所以它展示的是 coding agent 与实验平台结合后的产品迭代模式。
原文 ↗– -
Entity-Collision: A Stratified Protocol for Attributing Retrieval Lift in Agent Memory
它解决的是 memory 评测里常见的“看似检索好,其实只是实体词撞上了”的问题。结论也很实际:更大的 encoder 不必然更好,MiniLM 在一些轴上胜过 BGE-large,说明 memory retriever 需要按查询类型路由,而不是只堆模型参数。
原文 ↗– -
AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation
这篇论文直接挑战“pass rate 足够”的评测习惯。它显示不同模型的 Lucky rate 可从 0.5% 到 23.2%,按过程质量重新排名甚至能移动五个名次;这对 coding agent 很关键,因为混乱通过的补丁在真实工程里往往更难维护。
原文 ↗– -
Do Agents Know What They Can't Do? Evaluating Feasibility Awareness in Tool-Using Agents
它关注的是“提前停止”的能力,而不是更努力地调用工具。这个方向很实用:在工具缺失或权限不足时,agent 的主要失败不是答错,而是持续消耗 token、时间和副作用预算。
原文 ↗– -
Disagreement among frontier LLMs on real-world fact-checks
该研究用 1,000 个真实 fact-check claims 测五个 frontier LLM 的四档 verdict,一致性并不高:67% claims 至少有一个模型不同意多数,34% 存在相隔两个以上 bucket 的实质分歧,Krippendorff ordinal alpha 为 0.639。它的价值在于不用 benchmark gold label,而是测真实请求上的模型间不稳定性…
原文 ↗– -
A Unified Framework for the Evaluation of LLM Agentic Capabilities
它与 Harness-Bench 形成呼应:benchmark 分数混入 scaffold 和环境波动。统一框架的价值是解耦框架效应、环境效应和模型能力;风险是固定 ReAct 架构本身也会成为新的测量偏置。
原文 ↗–