TraceGraph: Shared Decision Landscapes for Diagnosing and Improving Agent Trajectories
arxiv.org原文 ↗
TraceGraph 把多模型 agent rollout 池化成任务级行动-观察图,再标出 productive cores、trap regions,并用 Access、Trap exposure、Repair 描述轨迹。它在五个 benchmark split 上显示单一 pass rate 隐藏了模型如何进入陷阱和如何修复。SWE-bench 上 trap-aware recovery 在 fired subset 将 resolved rate 从 40.4% 提到 43.5%,说明轨迹图可直接转化为恢复策略。
–浏览
评论 · Comments