7.1 基准Benchmarks

本主题共 60 条 · 最早 2026-05-29 · 最新 2026-07-25

视图 · View

2026 年 7 月18

DocOps: A Verifiable Benchmark for Autonomous Agents in Complex Document Operations
DocOps 将复杂数字文档任务设计为可确定性验证的操作序列，覆盖读取、编辑、格式保持、跨文档搬运以及结构化内容处理。与依赖主观 LLM 打分的办公基准不同，它把结果转换为机器可检查的状态和约束，从而区分内容正确、版式正确与操作完整。这个基准真正测试的是 Agent 在长链路 GUI 或文档 API 中维持状态一致性的能力，而不只是生成一段看起来合理的文本。
Paper2026-07-25arxiv.org原文 ↗
–
Alipay-PIBench: A Realistic Payment Integration Benchmark for Coding Agents
PIBench 把支付接入拆成产品选择、服务端签名、前端调用、异步通知和交易状态一致性等真实工程环节，并在现有代码仓库中评估 Agent。任务不以“代码能编译”结束，而要处理支付产品约束、跨端协议和失败后的状态收敛。与玩具级函数补全相比，这类基准更能暴露编码 Agent 在业务语义、文档检索和端到端验证上的断点。
Paper2026-07-25arxiv.org原文 ↗
–
RECON: Benchmarking Agent Memory for Compositional Reasoning over Long Contexts
RECON 不是只测试记住某句话，而是要求智能体跨长对话组合多个分散事实完成推理。基准包含 1,000 个任务、最长 100 万 token 的交互历史，并区分检索、整合和答案生成环节。该设计能暴露“检索到了但拼不起来”的记忆失败，比单轮 needle-in-a-haystack 更接近持续运行代理的真实负载。
Paper2026-07-23arxiv.org原文 ↗
–
Memory Bench
Memory Bench 用统一 harness 比较不同代理记忆产品与“直接塞完整聊天历史”的基线，任务覆盖长期对话中的回忆和问答。项目允许通过 `.env` 切换 Mem0、Zep、Supermemory 等实现，并输出 judge 分数、耗时和运行记录。这个基准的价值在于把额外记忆层的收益与完整上下文成本放在同一张表上，而非只展示单项召回率。
Project2026-07-23github.com原文 ↗
–
Lomekwi: Resource-Bounded Tool Discovery in LLM Agents
Lomekwi 把工具发现拆成好奇心驱动的探索、工具身份识别和新工具构建三种能力，并显式施加时间与调用预算。基准包含 76 个工具、3 档资源约束，结果显示模型常会把预算耗在重复试探上，而不是形成可迁移的工具知识。它提供了一种比“给定工具集做调用”更严格的评测视角，直接考察代理面对未知能力空间时的探索效率。
Paper2026-07-23arxiv.org原文 ↗
–
PM-Bench: Evaluating Prospective Memory in LLM Agents
PM-Bench 测的是 agent 是否能先记住一个未来意图，再等到文本环境中 cue 或状态出现时执行。这个设计把 prospective memory 拆成可观察错误：过早执行、遗忘、触发后漏做，和持续任务中的上下文漂移。它值得关注的地方是评测对象不是问答知识，而是 agent 在时间展开任务中的承诺保持能力。
Paper2026-07-16arxiv.org原文 ↗
–
Who&When Pro: Can LLMs Really Attribute Failures in AI Agents?
论文提出 Who&When Pro，用来评估 LLM 是否能判断 agent 失败由谁造成、发生在哪一步。benchmark 面向多轮 agent 轨迹和多种失败原因，要求模型同时处理责任归因与时间定位；摘要强调当前 LLM 在长交互中明显不如人工标注稳定。它把“agent 出错了”拆成可操作的诊断问题，比只看最终成功/失败更适合调试复杂工作流。
Paper2026-07-15arxiv.org原文 ↗
–
Playing ZendoWorld
ZendoWorld 是交互式视觉概念归纳环境，agent 需要观察样例、提出隐藏规则假设，再设计新实验来验证。关键事实是评估闭环包含观察、假设、实验和修正，而不是一次性给出分类标签。它让视觉 agent 进入接近科学发现的流程：看见规律只是第一步，主动制造能区分假设的样例才是难点。
Paper2026-07-11arxiv.org原文 ↗
–
CausalDS
CausalDS 构建面向数据科学 agent 的因果推理 benchmark，把真实数据分析任务和可控因果生成结构组合起来。它考察 agent 是否能从数据、问题和隐含因果关系中得出合理结论，而不是只会调用统计函数或生成图表。这个基准的意义在于把 data science agent 的能力边界推进到“能否判断干预、混杂和因果方向”。
Paper2026-07-11arxiv.org原文 ↗
–
PolyWorkBench: Benchmarking Multilingual Long-Horizon LLM Agents
PolyWorkBench 把长程 workplace agent 评测从单语设定推到多语言输入、推理、工具调用和结构化输出混在一起的场景。benchmark 包含 67 个任务、5 个领域：commerce、knowledge work、legal analysis、localization 和 manufacturing；评分混合 structural grading、executable v…
Paper2026-07-09arxiv.org原文 ↗
–
ToolFailBench: Diagnosing Tool-Use Failures in LLM Agents
ToolFailBench 给工具调用失败做了更细的诊断切分，包括该调用时没有调用、选择了错误工具、参数填错、调用后不使用返回结果等。这样的 benchmark 比单一成功率更接近 agent 调试现场，因为同样失败可能来自 planner、schema grounding、参数抽取或结果整合。它的技术价值在于把“工具使用不行”拆成可修补的子问题。
Paper2026-07-08arxiv.org原文 ↗
–
AgentGym2: Benchmarking Large Language Model Agents in De-Idealized Real-World Environments
AgentGym2 将 LLM agent benchmark 推向“去理想化”环境，把真实部署里的噪声、部分可观测、工具不稳定和交互约束纳入评测。它不是再造一个干净任务集，而是考 agent 在环境不完美时能否验证、恢复并持续推进。这个方向适合检验 agent 工程成熟度，因为真实系统失败往往来自边界条件而非核心能力题。
Paper2026-07-08arxiv.org原文 ↗
–
allenai/olmocr
olmOCR 把 PDF、PNG、JPEG 等文档转换成 clean Markdown/plain text，目标是服务 LLM datasets 和 training。README 列出对 equations、tables、handwriting、complex formatting、headers/footers removal 的支持，并配套在线 demo。项目同时发布 olmOCR-Ben…
Trending2026-07-03github.com原文 ↗
–
Senior SWE-Bench: open-source benchmark that assesses agents as senior engineers
Snorkel 发布 Senior SWE-Bench，定位为评估 agents 是否具备 senior engineer 级能力的开源 benchmark。digest 描述强调“assesses agents as senior engineers”，说明它试图从简单 issue 修复扩展到更高层的软件工程判断。即使页面正文没有被抓到，标题本身也反映出 SWE benchmark 正在从 pa…
News2026-07-03senior-swe-bench.snorkel.ai原文 ↗
–
PHREEQC-MCQ-200: A Diagnostic Benchmark for Tool-Augmented Scientific Simulator Agents
PHREEQC-MCQ-200 用确定性水文地球化学模拟来测工具增强科学 agent，要求 agent 构造 PHREEQC 输入、运行 simulator、读取结构化输出并回答选择题。基准包含 21 个验证场景衍生的 200 道题，覆盖 frontier 和 mid-tier model families。实验显示 simulator access 提升总体准确率，但也会让 agent 丢掉无工…
Paper2026-07-03arxiv.org原文 ↗
–
CursorBench 3.1
CursorBench 3.1 用真实 Cursor sessions 中的 ambiguous、multi-file tasks 评估 agents，并同时公开 score、cost、tokens 和 steps。页面表格中 Fable 5 Max 得分 72.9%、每任务 18.02 美元、63842 tokens、76 steps；Composer 2.5 得分 63.2%、成本 0.55…
News2026-07-03cursor.com原文 ↗
–
ClawArena-Team: Benchmarking Subagent Orchestration and Dynamic Workflows in Language-Model Agents
ClawArena-Team 专门隔离 LLM 作为 manager 的能力：主模型只能看文本、只能直接访问部分 workspace，但可以创建子代理、分派任务、接收异步结果并合成答案。benchmark 包含 41 个多轮、多模态、多目录场景、258 个 evaluation rounds 和 72 个 staged updates，评分完全 execution-based，不用 LLM jud…
Paper2026-07-02arxiv.org原文 ↗
–
BayesBench: Evaluating LLM Belief Trajectories Under Multi-Turn Evidence Accumulation
这篇论文不是只看最终答案，而是构造多轮证据累积环境，逐步检查 LLM 的不确定性和信念是否接近贝叶斯后验。BayesBench 覆盖三类任务：Bayesian estimation、Bayesian prediction，以及带用户 persona framing 的 latent-framed prediction，并测试 3B 到 70B 的七个模型。结果细节很有意思：模型规模确实改善潜变量推…
Paper2026-07-02arxiv.org原文 ↗
–

2026 年 6 月38

GLM 5.2 beats Claude in our benchmarks
Semgrep 用 IDOR 漏洞检测 benchmark 比较 GLM 5.2、Claude Code、GPT-5.5、MiniMax、Kimi、DeepSeek 等模型和 harness。文章给出的关键结果是：Semgrep Multimodal harness 配 GPT-5.5 达到 61% F1、配 Opus 4.8 达到 53%；裸 prompt 的 GLM 5.2 达到 39%，高于…
Blog2026-06-29semgrep.dev原文 ↗
–
Agent Memory Bench
Agent Memory Bench 将 agent memory 的失败模式拆成 retraction、collision、recall、conflict 四类，并用 13 个场景离线跑榜。README 中 reference baseline 的差异很刺眼：`typed-constraint` 总分 92%，`keyword` 46%，`recency` 23%；作者指出传统检索相关性可能把三…
Project2026-06-29github.com原文 ↗
–
GUI vs. CLI: Execution Bottlenecks in Screen-Only and Skill-Mediated Computer-Use Agents
论文构建 440 个桌面任务、18 个应用、12 类 workflow 的匹配 benchmark，控制 goal、初始状态和 verifier，仅改变执行通道。最强 GUI agent full pass rate 为 59.1%，原始 skill CLI 为 48.2%，但 verifier-guided skill augmentation 把 CLI 提到 69.3%。结论不是 GUI 或…
Paper2026-06-27arxiv.org原文 ↗
–
Proctor
Proctor 为 AI coding-agent benchmark 提供 signed isolation bundles。它试图把评测环境、权限边界和可复现性封装成带签名的隔离包，让 benchmark 任务能被分发、验证和重复运行。这个工具针对的是评测基础设施本身：coding agent benchmark 若不能保证环境一致，分数很容易变成一次性脚本结果。
Project2026-06-24github.com原文 ↗
–
PlanBench-XL
PlanBench-XL 评估 LLM tool-use agents 在大工具生态里的长程规划，特别是工具可见性受检索限制时的决策。基准包含 327 个零售任务和 1,600+ 工具，要求 agent 发现相关工具、推断隐含子目标并适应动态环境。它把“会调用工具”提升为“在看不全工具目录时仍能规划”的问题。
Paper2026-06-24arxiv.org原文 ↗
–
EnterpriseClawBench
EnterpriseClawBench 从真实企业 agent session 构造 workplace benchmark，覆盖读取异构文件、调用工具和交付业务产物等任务。核心数字是 852 个可复现任务，每个任务配有恢复出的 fixtures，用来把原本专有、状态复杂的工作流转成可重复评测。它把 enterprise agent 的评测重心放在真实办公痕迹，而不是人工编写的玩具任务。
Paper2026-06-24arxiv.org原文 ↗
–
Capable but Careless
论文引入 AgentCIBench，评估 computer-use agents 在跨邮件、日历、待办等个人应用工作时是否遵守 contextual integrity。问题不是 agent 会不会调用工具，而是当它在一个上下文执行任务时，是否会把另一个上下文中不该出现的信息带进来。这个 benchmark 把隐私风险从“泄露敏感字段”细化为“上下文不适当的信息流动”。
Paper2026-06-24arxiv.org原文 ↗
–
WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents
WorldLines 构建长期家庭助理轨迹，记录对话、动作、执行反馈、物体和设备状态变化，并转成 Memory QA 与 Embodied Task Planning 样本。作者提出 ObsMem，用 visibility-aware memories 和 action-native state trails 维护状态；论文指出 partial observability、被覆盖的世界状态和长期记…
Paper2026-06-23arxiv.org原文 ↗
–
GateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents
GateMem 针对医院、办公室、校园和家庭等多主体共享助手，评估合法长期请求 utility、上下文授权边界访问控制，以及删除后的主动遗忘。论文用长篇多方 episode、增量 memory injection、hidden checkpoints、structured judging 和 leak-target annotations 组织测试；结论是当前方法没有同时做到高 utility、强…
Paper2026-06-23arxiv.org原文 ↗
–
StaminaBench: Stress-Testing Coding Agents over 100 Interaction Turns
StaminaBench 把编码代理评测从单次任务推进到 100 轮连续变更请求，观察模型在长会话里是否还能保持需求、代码状态和测试反馈的一致性。这个设置抓住了真实软件协作中的一个盲点：代理前几轮写得通，后面仍可能在局部修改中破坏早先约束。它适合用来比较不同代理在持续维护、上下文压缩和回归控制上的耐力，而不是只看一次性 pass rate。
Paper2026-06-20arxiv.org原文 ↗
–
Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages
Multi-LCB 把 LiveCodeBench 扩展到多种编程语言，用来观察代码模型是否只在主流语言上表现稳定。摘要先强调 LCB 通过持续加入新题并按发布时间过滤来做 contamination-aware evaluation，再指出它仍局限在 Python。对于编码代理，跨语言能力不仅是语法迁移，还涉及测试框架、标准库习惯和错误修复策略的变化。
Paper2026-06-20arxiv.org原文 ↗
–
iOSWorld: A Benchmark for Personally Intelligent Phone Agents
iOSWorld 构建 26 个原生 iOS app，覆盖交易、消息、旅行、社交关系和财务活动等互联个人数据。它有 133 个任务，其中 60 个多应用任务跨 2 到 8 个 app，46 个任务要求从个人数据里推断偏好或历史模式。最佳配置总体 52%，多应用任务只有 37%；vision+XML 对 frontier models 最多提升 26 个百分点，显示 accessibility tr…
Paper2026-06-19arxiv.org原文 ↗
–
MyPCBench: A Benchmark for Personally Intelligent Computer-Use Agents
MyPCBench 在 Linux 桌面中放入 17 个模拟真实 Web 应用，并用 Michael Scott 这一 persona 的登录态、历史数据和个人上下文构造 184 个任务。6 个模型在统一 computer+bash 工具面上测试，最佳的 Claude Opus 4.6 只完整解决 55.4%。它强调个人助理的难点在跨应用长轨迹和隐含个人信息，而不是单网页操作。
Paper2026-06-19arxiv.org原文 ↗
–
CEO-Bench: Can Agents Play the Long Game?
这篇论文构造了一个 500 天创业公司经营环境，代理通过 Python 接口管理定价、营销、预算等决策，并从噪声业务数据库里推断策略。关键结果很克制：只有 Claude Opus 4.8 和 GPT-5.5 最终高于 100 万美元起始余额，但二者也不能稳定盈利。它把 agent benchmark 从“会不会调用工具”推进到长期资源配置、信息获取和策略调整。
Paper2026-06-19arxiv.org原文 ↗
–
SEAGym: An Evaluation Environment for Self-Evolving LLM Agents
SEAGym 不是只给自演化 Agent 一个最终 task score，而是记录 harness 更新过程本身：prompt、memory、tools、middleware、runtime state 和 model-tool loop 如何变化。它把 Harbor-compatible benchmark 变成带 train batches、frozen update-validation、h…
Paper2026-06-18arxiv.org原文 ↗
–
Introducing LifeSciBench
OpenAI 的 LifeSciBench 不是生物知识问答集，而是把应用生命科学研究拆成 evidence handling、analysis、design and optimization、scientific reasoning、validation and operations、translation、scientific communication 等 workflow。数据集规模是 7…
News2026-06-18openai.com原文 ↗
–
Fara
Fara 发布的是 Fara-7B computer-use agent 及其评测 harness，而不是只给一个模型权重链接。README 更新记录显示 Fara1.5 agent harness 将推出，并且 WebTailBench V2 已刷新：V1 中 calendar-bound dates 过期的问题被前滚处理，609-task suite 的预计算 rubrics 也被修订。这个项…
Trending2026-06-18github.com原文 ↗
–
ToolMenuBench: Benchmarking Tool-Menu Filtering Strategies for Reliable and Efficient LLM Agents
ToolMenuBench 把可见工具菜单本身作为 agent 评测对象。它系统改变菜单大小、干扰工具、状态依赖和风险暴露，并同时记录 visible-tool count、risky-tool exposure、wrong-tool calls、premature actions 与 token usage。七个模型后端、三种菜单大小、六种过滤方法和七个评测设置中，CMTF 把 all-tool…
Paper2026-06-17arxiv.org原文 ↗
–
Kitchen Rush
Kitchen Rush 把 tool-calling benchmark 做成实时厨房任务，延迟会直接消耗游戏时间。模型用 `collect`、`chop`、`cook`、`plate`、`serve` 等 native function calls 处理订单；思考越慢，食物越可能烧焦或订单越可能过期。每局输出 KR 0-100 分，0 是 do-nothing baseline，100 是零延…
Project2026-06-17github.com原文 ↗
–
CODA-BENCH: Can Code Agents Handle Data-Intensive Tasks?
CODA-BENCH 构建了同时要求代码能力和数据探索能力的 Linux sandbox。它基于 Kaggle 生态包含 1,009 个任务、31 个社区，每个任务环境平均 980 个文件，agent 必须先在噪声文件层级中找到相关资源，再生成分析代码。顶级系统成功率只有 61.1%，说明当前 code agent 在“找对数据”与“写对程序”的衔接上仍有明显短板。
Paper2026-06-17arxiv.org原文 ↗
–
τ-Rec: A Verifiable Benchmark for Agentic Recommender Systems
τ-Rec 为多轮推荐 agent 建了一个可验证 benchmark，用 structured catalog predicates 和 reveal-tagged elicitation 取代主观 LLM-as-judge。RTE 机制控制约束在对话中何时显现，pass^k 则测量 agent 多次尝试时能否稳定满足条件。作者评测 9 个配置、5 个模型家族，最佳模型也只有约 57% pass…
Paper2026-06-12arxiv.org原文 ↗
–
Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks
Claw-SWE-Bench 解决一个评测接口问题：通用 agent harness 不天然满足 SWE-bench 的 Docker workspace、patch 和 prediction contract。作者提供 adapter protocol，把 fixed prompt、runtime budget、workspace contract、patch extraction、evalua…
Paper2026-06-12arxiv.org原文 ↗
–
WeaveBench
WeaveBench 提供 114 个长程真实任务，覆盖 8 个工作域，每个任务都要求 agent 在同一轨迹中混合 GUI、CLI、代码操作、浏览器和外部工具。评测跑在真实 Ubuntu 桌面和已部署 CLI-agent runtimes 中，并用 trajectory-aware judge 检查 deliverables、files、screenshots、logs 与 action tra…
Paper2026-06-10arxiv.org原文 ↗
–
TheoremBench
TheoremBench 用 Lean4 中近百个经典定理评估 theorem prover 在长依赖链上的表现。它有 plain main 与 premised 两种版本，后者把一个主定理展开成相关 supporting subtheorems，用来衡量内部证明结构上的部分进展；实验显示 explicit premises 明显改善 Lean4-capable prover。它比竞赛题更接近真实…
Paper2026-06-10arxiv.org原文 ↗
–
SWE-Explore
SWE-Explore 把 coding agent 的仓库探索从最终修 bug 成功率中拆出来，要求 explorer 在固定 line budget 内返回相关代码区域的排序列表。benchmark 覆盖 10 种语言、203 个开源仓库、848 个 issues，line-level ground truth 来自成功解题 agent 轨迹中实际参考过的代码区域。它显示现代方法 file-l…
Paper2026-06-10arxiv.org原文 ↗
–
Agents' Last Exam
Agents’ Last Exam 试图把 agent 评测从短任务和玩具环境推向真实专业工作流。它由 250 多名行业专家协作构建，按 ONET/SOC 2018 覆盖 13 个 industry clusters、55 个 subfields 和 1,000 多个任务；当前主流 harness 与 backbone 在最难 tier 的平均 full pass rate 只有 2.6%。这条的…
Paper2026-06-10始 2026-06-07arxiv.org原文 ↗
–
When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents
ToolMaze 把工具使用任务按复杂度 C1-C4 和扰动 P0-P4 组织起来，在 sandboxed tool runtime 中拦截调用并注入故障。数据集卡显示其评分使用 complexity-aware judge；相关摘要还指出 agentic fault-tolerance 随模型规模提升的速度比 basic task execution 慢 3.66 倍。这个结果把“工具调用失败后…
Paper2026-06-07arxiv.org原文 ↗
–
SubtleMemory: A Benchmark for Fine-Grained Relational Memory Discrimination in Long-Horizon AI Agents
SubtleMemory 考察长期记忆之间的互补、细微差异和矛盾关系，而不是单条事实命中率。基准包含 1,522 个 evaluation instances、10 条长历史和 1,090 组 relation-controlled memory variants，并覆盖用户相关与非用户相关查询。现有独立记忆系统、Claw-style 原生记忆和插件式记忆在关系辨析上都偏弱，说明“记住了相似内容”…
Paper2026-06-07arxiv.org原文 ↗
–
SentinelBench: A Benchmark for Long-Running Monitoring Agents
SentinelBench 评估 agent 在分钟、小时级任务中等待外部事件并及时响应的能力，而不是一直刷新页面。基准包含 10 个合成 Web 环境和 100 个任务，覆盖邮件、日历、金融、职业社交和娱乐等状态会变化的页面。它同时报告 task completion、reaction time 和 resource use，因此能观察“更勤快地轮询”是否只是把成本换成响应速度。
Paper2026-06-07arxiv.org原文 ↗
–
SABER: Benchmarking Operational Safety of LLM Coding Agents in Stateful Project Workspaces
SABER 把模型放进真实 agent-style project，而不是只看单轮安全拒答；评估对象是连续动作后最终环境状态是否被破坏。论文还把 safety violation 按原因归类，以分析不同模型的操作安全画像。最佳模型仍有超过 54% harmful safety-violation rate，这个数字说明“会说安全话”的 coding agent 在有状态工作区里仍可能做出高风险变更…
Paper2026-06-06arxiv.org原文 ↗
–
The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development?
Meta-Agent Challenge 测的是 frontier models 能否自主开发 agent 系统，而不是能否在单题上写代码。摘要将 MAC 定位为开放 benchmark，并把它作为评估 recursive self-improvement 的经验代理；这个设置把系统搭建、工具组合和自我迭代纳入同一个任务面。
Paper2026-06-05arxiv.org原文 ↗
–
EVA-Bench Data 2.0
EVA-Bench Data 2.0 面向 voice agents，包含 3 个企业领域、121 个工具和 213 个场景。相关论文摘要给出一个强信号：评估的 12 个系统中，没有系统同时在 EVA-A pass@1 和 EVA-X pass@1 超过 0.5，且 median pass@k - pass^k gap 为 0.44；这说明语音 agent 的峰值能力和可靠能力差距很大。
Blog2026-06-05huggingface.co原文 ↗
–
AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?
AutoLab 把 frontier model 放进 36 个现实长周期任务中，四个领域分别是系统优化、puzzle & challenge、模型开发和 CUDA kernel optimization。这样的设计把“会写第一版代码”与“能根据实验反馈持续推进”分离出来，适合作为自动研究/工程 agent 的耐力测试。
Paper2026-06-05arxiv.org原文 ↗
–
DeskCraft: Benchmarking Desktop Agents on Professional Workflows and Human-in-the-Loop Collaboration
构建专业桌面 GUI agent benchmark，覆盖设计、视频、音频和 3D 创作等长流程任务，并把人机协作协议纳入评测。DeskCraft 的长任务要求超过 50 个执行步骤，同时建模 mid-turn clarification、用户打断和 post-turn feedback。作者评估 18 个闭源和开源 agent、538 个任务，GPT-5.4 在 standard tasks 上…
Paper2026-06-04arxiv.org原文 ↗
–
MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation
论文构建模拟个人应用环境的 MCP agent benchmark，用于评估社交、日程、邮件等个人数据场景中的工具使用。
Paper2026-06-03arxiv.org原文 ↗
–
SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones?
SoundnessBench 评估 LLM 在执行研究前判断 proposal 方法论可行性的能力。数据由 1,099 个从 ICLR submissions 重构的机器学习研究 proposal 组成，并带 reviewer soundness 子分数；12 个 frontier LLM 普遍有 optimism bias，常把低 soundness 想法评为可行。论文把 AI Scientis…
Paper2026-06-02arxiv.org原文 ↗
–
OpenSkillEval: Automatically Auditing the Open Skill Ecosystem for LLM Agents
OpenSkillEval 自动构造真实任务实例来评估 skill-augmented agents 和 skills 本身，覆盖演示文稿、前端设计、海报、数据可视化和报告五类应用。实验使用 600 多个动态生成任务和 30 个开源 skills，发现 skill 可用不等于有效使用，效果强依赖模型与 agent framework，热门 skills 也不稳定优于无 skill 基线。它把开放…
Paper2026-06-02始 2026-06-01arxiv.org原文 ↗
–
LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis
LongDS 用真实 Kaggle notebooks 构造长时程多轮数据分析任务，要求 agent 维护、回滚、组合和恢复分析状态。基准包含 68 个任务、2,225 turns、六个领域，平均依赖跨度 11.3 turns；五个 SOTA 模型中最好平均准确率只有 48.45%，早晚轮性能下降近 47 个百分点。结论指向状态维护，而不是简单增加 agent step。
Paper2026-06-02始 2026-06-01arxiv.org原文 ↗
–

2026 年 5 月4

LogDx-CI: Benchmarking Log Reduction Tools for LLM Root-Cause Diagnosis
它指出日志压缩不是“越短越好”，而是要保留根因证据。对 LLM RCA 来说，tail/grep 这类传统启发式便宜但容易漏掉跨段证据，LLM 摘要又可能压掉异常细节；benchmark 的价值在于让压缩策略和诊断成功率绑定。
Paper2026-05-30arxiv.org原文 ↗
–
GroundAct: Can LLM Agents Ground Actions in Environmental States?
digest 标题强调 action grounding，页面摘要实际展示的是 embodied reasoning benchmark。最有价值的发现是完整环境信息反而会降低协作表现，说明模型不是缺信息，而是缺少从状态中过滤任务相关约束的机制。
Paper2026-05-30arxiv.org原文 ↗
–
LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?
它指出搜索 benchmark 可能奖励“记忆验证”而非“证据发现”。LiveBrowseComp 的设计用新近、低显著性事实切断参数记忆，对搜索 agent 的检索链、查询生成和证据依赖更有诊断价值。
Paper2026-05-29arxiv.org原文 ↗
–
Harness-Bench: Measuring Harness Effects across Models in Realistic Agent Workflows
这篇论文把“模型能力”拆成模型与执行壳的组合属性，直接挑战只报 base model 分数的习惯。它的贡献是诊断性：让上下文管理、工具反馈、权限、恢复和 artifact contract 进入可比较空间。
Paper2026-05-29arxiv.org原文 ↗
–