返回本期 · Back to 2026-05-30 论文 · Papers2026-05-30 · Saturday, May 30, 2026 AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation arxiv.org原文 ↗ 评测方法基准编码 这篇论文直接挑战“pass rate 足够”的评测习惯。它显示不同模型的 Lucky rate 可从 0.5% 到 23.2%,按过程质量重新排名甚至能移动五个名次;这对 coding agent 很关键,因为混乱通过的补丁在真实工程里往往更难维护。 –浏览 –点赞 复制链接 评论 · Comments
评论 · Comments