论文 · Papers2026-05-29 · Friday, May 29, 2026

Harness-Bench: Measuring Harness Effects across Models in Realistic Agent Workflows

这篇论文把“模型能力”拆成模型与执行壳的组合属性，直接挑战只报 base model 分数的习惯。它的贡献是诊断性：让上下文管理、工具反馈、权限、恢复和 artifact contract 进入可比较空间。

–浏览

评论 · Comments