论文 · Papers2026-06-05 · Friday, June 5, 2026

Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories

这篇把 deep-research agent 的可靠性问题下钻到 span 级别：作者收集 2,790 条真实轨迹，转换成语义 span，再构建 1,000 实例 TELBench。DRIFT 以 claim 为中心追踪证据支持关系，报告在 span-level error localization 和 first-error accuracy 上最高提升 30 个百分点；它比只看最终答案更能解释研究轨迹何处开始偏航。

–浏览

Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories

评论 · Comments