Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems
arxiv.org原文 ↗
RAMP 的重点是把 agent 评测从单题正确率移到运行时可观察性:失败传播、恢复行为和资源浪费成为一等指标。它也提示静态 benchmark 高分可能掩盖 serial workflow 中的能力塌陷。
–浏览
arxiv.org原文 ↗
评论 · Comments