论文 · Papers2026-05-30 · Saturday, May 30, 2026

How Consistent Are LLM Agents? Measuring Behavioral Reproducibility in Multi-Step Tool-Calling Pipelines

这类评测补上了 agent 可靠性的一块盲区。即便最终成功率相近，路径不稳定也会增加缓存、审批、审计和事故复现成本；但一致性不能单独当目标，因为 agent 也可能稳定地执行错误策略。

–浏览

评论 · Comments