论文 · Papers2026-05-30 · Saturday, May 30, 2026

AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation

这篇论文直接挑战“pass rate 足够”的评测习惯。它显示不同模型的 Lucky rate 可从 0.5% 到 23.2%，按过程质量重新排名甚至能移动五个名次；这对 coding agent 很关键，因为混乱通过的补丁在真实工程里往往更难维护。

–浏览

评论 · Comments