返回本期 · Back to 2026-06-02 论文 · Papers2026-06-02 · Tuesday, June 2, 2026 LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis arxiv.org原文 ↗ 基准Agent 记忆数据·分析 LongDS 用真实 Kaggle notebooks 构造长时程多轮数据分析任务,要求 agent 维护、回滚、组合和恢复分析状态。基准包含 68 个任务、2,225 turns、六个领域,平均依赖跨度 11.3 turns;五个 SOTA 模型中最好平均准确率只有 48.45%,早晚轮性能下降近 47 个百分点。结论指向状态维护,而不是简单增加 agent step。 –浏览 –点赞 复制链接 评论 · Comments
评论 · Comments