2026 年 6 月5
-
DeskCraft: Benchmarking Desktop Agents on Professional Workflows and Human-in-the-Loop Collaboration
构建专业桌面 GUI agent benchmark,覆盖设计、视频、音频和 3D 创作等长流程任务,并把人机协作协议纳入评测。DeskCraft 的长任务要求超过 50 个执行步骤,同时建模 mid-turn clarification、用户打断和 post-turn feedback。作者评估 18 个闭源和开源 agent、538 个任务,GPT-5.4 在 standard tasks 上…
原文 ↗– -
MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation
论文构建模拟个人应用环境的 MCP agent benchmark,用于评估社交、日程、邮件等个人数据场景中的工具使用。
原文 ↗– -
SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones?
SoundnessBench 评估 LLM 在执行研究前判断 proposal 方法论可行性的能力。数据由 1,099 个从 ICLR submissions 重构的机器学习研究 proposal 组成,并带 reviewer soundness 子分数;12 个 frontier LLM 普遍有 optimism bias,常把低 soundness 想法评为可行。论文把 AI Scientis…
原文 ↗– -
OpenSkillEval: Automatically Auditing the Open Skill Ecosystem for LLM Agents
OpenSkillEval 自动构造真实任务实例来评估 skill-augmented agents 和 skills 本身,覆盖演示文稿、前端设计、海报、数据可视化和报告五类应用。实验使用 600 多个动态生成任务和 30 个开源 skills,发现 skill 可用不等于有效使用,效果强依赖模型与 agent framework,热门 skills 也不稳定优于无 skill 基线。它把开放…
原文 ↗– -
LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis
LongDS 用真实 Kaggle notebooks 构造长时程多轮数据分析任务,要求 agent 维护、回滚、组合和恢复分析状态。基准包含 68 个任务、2,225 turns、六个领域,平均依赖跨度 11.3 turns;五个 SOTA 模型中最好平均准确率只有 48.45%,早晚轮性能下降近 47 个百分点。结论指向状态维护,而不是简单增加 agent step。
原文 ↗–
2026 年 5 月4
-
LogDx-CI: Benchmarking Log Reduction Tools for LLM Root-Cause Diagnosis
它指出日志压缩不是“越短越好”,而是要保留根因证据。对 LLM RCA 来说,tail/grep 这类传统启发式便宜但容易漏掉跨段证据,LLM 摘要又可能压掉异常细节;benchmark 的价值在于让压缩策略和诊断成功率绑定。
原文 ↗– -
GroundAct: Can LLM Agents Ground Actions in Environmental States?
digest 标题强调 action grounding,页面摘要实际展示的是 embodied reasoning benchmark。最有价值的发现是完整环境信息反而会降低协作表现,说明模型不是缺信息,而是缺少从状态中过滤任务相关约束的机制。
原文 ↗– -
LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?
它指出搜索 benchmark 可能奖励“记忆验证”而非“证据发现”。LiveBrowseComp 的设计用新近、低显著性事实切断参数记忆,对搜索 agent 的检索链、查询生成和证据依赖更有诊断价值。
原文 ↗– -
Harness-Bench: Measuring Harness Effects across Models in Realistic Agent Workflows
这篇论文把“模型能力”拆成模型与执行壳的组合属性,直接挑战只报 base model 分数的习惯。它的贡献是诊断性:让上下文管理、工具反馈、权限、恢复和 artifact contract 进入可比较空间。
原文 ↗–