How Consistent Are LLM Agents? Measuring Behavioral Reproducibility in Multi-Step Tool-Calling Pipelines
arxiv.org原文 ↗
这类评测补上了 agent 可靠性的一块盲区。即便最终成功率相近,路径不稳定也会增加缓存、审批、审计和事故复现成本;但一致性不能单独当目标,因为 agent 也可能稳定地执行错误策略。
–浏览
arxiv.org原文 ↗
评论 · Comments