返回本期 · Back to 2026-05-30
行业动态 · Industry News2026-05-30 · Saturday, May 30, 2026
OpenAI: A shared playbook for trustworthy third party evaluations
openai.com原文 ↗
这篇文章把“评测结果”扩展为“评测设置 + 有效性证据”。核心信号是:agentic 能力高度依赖 harness 和 token budget,标准化 harness 适合公平比较,但不等于能力上限。
评论 · Comments