每日 Harness 开源 · Source
返回本期 · Back to 2026-06-02

论文 · Papers2026-06-02 · Tuesday, June 2, 2026

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

arxiv.org原文 ↗

基准Agent 记忆数据·分析
LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis
LongDS 用真实 Kaggle notebooks 构造长时程多轮数据分析任务,要求 agent 维护、回滚、组合和恢复分析状态。基准包含 68 个任务、2,225 turns、六个领域,平均依赖跨度 11.3 turns;五个 SOTA 模型中最好平均准确率只有 48.45%,早晚轮性能下降近 47 个百分点。结论指向状态维护,而不是简单增加 agent step。
浏览

评论 · Comments