每日 Harness 开源 · Source
返回本期 · Back to 2026-05-29

论文 · Papers2026-05-29 · Friday, May 29, 2026

Harness-Bench: Measuring Harness Effects across Models in Realistic Agent Workflows

arxiv.org原文 ↗

基准框架与脚手架系统·基础设施
Harness-Bench: Measuring Harness Effects across Models in Realistic Agent Workflows
这篇论文把“模型能力”拆成模型与执行壳的组合属性,直接挑战只报 base model 分数的习惯。它的贡献是诊断性:让上下文管理、工具反馈、权限、恢复和 artifact contract 进入可比较空间。
浏览

评论 · Comments