Harness-Bench: Measuring Harness Effects across Models in Realistic Agent Workflows
arxiv.org原文 ↗
这篇论文把“模型能力”拆成模型与执行壳的组合属性,直接挑战只报 base model 分数的习惯。它的贡献是诊断性:让上下文管理、工具反馈、权限、恢复和 artifact contract 进入可比较空间。
–浏览
arxiv.org原文 ↗
评论 · Comments