论文 · Papers2026-06-02 · Tuesday, June 2, 2026

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

LongDS 用真实 Kaggle notebooks 构造长时程多轮数据分析任务，要求 agent 维护、回滚、组合和恢复分析状态。基准包含 68 个任务、2,225 turns、六个领域，平均依赖跨度 11.3 turns；五个 SOTA 模型中最好平均准确率只有 48.45%，早晚轮性能下降近 47 个百分点。结论指向状态维护，而不是简单增加 agent step。

–浏览

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

评论 · Comments