每日 Harness 开源 · Source
返回本期 · Back to 2026-05-30

论文 · Papers2026-05-30 · Saturday, May 30, 2026

How Consistent Are LLM Agents? Measuring Behavioral Reproducibility in Multi-Step Tool-Calling Pipelines

arxiv.org原文 ↗

评测方法工具使用系统·基础设施
How Consistent Are LLM Agents? Measuring Behavioral Reproducibility in Multi-Step Tool-Calling Pipelines
这类评测补上了 agent 可靠性的一块盲区。即便最终成功率相近,路径不稳定也会增加缓存、审批、审计和事故复现成本;但一致性不能单独当目标,因为 agent 也可能稳定地执行错误策略。
浏览

评论 · Comments