每日 Harness 开源 · Source
返回本期 · Back to 2026-05-29

论文 · Papers2026-05-29 · Friday, May 29, 2026

Do Agents Know What They Can't Do? Evaluating Feasibility Awareness in Tool-Using Agents

arxiv.org原文 ↗

评测方法工具使用系统·基础设施
Do Agents Know What They Can't Do? Evaluating Feasibility Awareness in Tool-Using Agents
它关注的是“提前停止”的能力,而不是更努力地调用工具。这个方向很实用:在工具缺失或权限不足时,agent 的主要失败不是答错,而是持续消耗 token、时间和副作用预算。
浏览

评论 · Comments