每日 Harness 开源 · Source
返回本期 · Back to 2026-05-30

行业动态 · Industry News2026-05-30 · Saturday, May 30, 2026

OpenAI: A shared playbook for trustworthy third party evaluations

openai.com原文 ↗

这篇文章把“评测结果”扩展为“评测设置 + 有效性证据”。核心信号是:agentic 能力高度依赖 harness 和 token budget,标准化 harness 适合公平比较,但不等于能力上限。
浏览

评论 · Comments