每日 Harness 开源 · Source
返回本期 · Back to 2026-06-05

论文 · Papers2026-06-05 · Friday, June 5, 2026

AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?

arxiv.org原文 ↗

基准自进化研究·科学
AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?
AutoLab 把 frontier model 放进 36 个现实长周期任务中,四个领域分别是系统优化、puzzle & challenge、模型开发和 CUDA kernel optimization。这样的设计把“会写第一版代码”与“能根据实验反馈持续推进”分离出来,适合作为自动研究/工程 agent 的耐力测试。
浏览

评论 · Comments