每日 Harness 开源 · Source
返回本期 · Back to 2026-06-05

论文 · Papers2026-06-05 · Friday, June 5, 2026

Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories

arxiv.org原文 ↗

Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories
这篇把 deep-research agent 的可靠性问题下钻到 span 级别:作者收集 2,790 条真实轨迹,转换成语义 span,再构建 1,000 实例 TELBench。DRIFT 以 claim 为中心追踪证据支持关系,报告在 span-level error localization 和 first-error accuracy 上最高提升 30 个百分点;它比只看最终答案更能解释研究轨迹何处开始偏航。
浏览

评论 · Comments