每日 Harness 开源 · Source
返回本期 · Back to 2026-05-29

论文 · Papers2026-05-29 · Friday, May 29, 2026

Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

arxiv.org原文 ↗

Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems
RAMP 的重点是把 agent 评测从单题正确率移到运行时可观察性:失败传播、恢复行为和资源浪费成为一等指标。它也提示静态 benchmark 高分可能掩盖 serial workflow 中的能力塌陷。
浏览

评论 · Comments