AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?
arxiv.org原文 ↗
AutoLab 把 frontier model 放进 36 个现实长周期任务中,四个领域分别是系统优化、puzzle & challenge、模型开发和 CUDA kernel optimization。这样的设计把“会写第一版代码”与“能根据实验反馈持续推进”分离出来,适合作为自动研究/工程 agent 的耐力测试。
–浏览
评论 · Comments