每日 Harness 开源 · Source
返回本期 · Back to 2026-06-04

论文 · Papers2026-06-04 · Thursday, June 4, 2026

What Benchmarks Don't Measure: The Case for Evaluating Abstention Competence in Autonomous Agents

arxiv.org原文 ↗

What Benchmarks Don't Measure: The Case for Evaluating Abstention Competence in Autonomous Agents
主张 autonomous agent 评测不能只看完成率,还要看何时应该停手或拒绝继续行动。论文提出三类 abstention-warranted 场景:specification gap、verification gap 和 authority gap,分别对应信息缺失、世界状态无法确认、授权不足。它的技术价值不在新模型,而在把“拒绝行动”从安全原则变成 benchmark 构造维度。对 agent 评估来说,这能补上很多成功率指标掩盖的越权和臆测问题。
浏览

评论 · Comments