The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development?
arxiv.org原文 ↗
Meta-Agent Challenge 测的是 frontier models 能否自主开发 agent 系统,而不是能否在单题上写代码。摘要将 MAC 定位为开放 benchmark,并把它作为评估 recursive self-improvement 的经验代理;这个设置把系统搭建、工具组合和自我迭代纳入同一个任务面。
–浏览
评论 · Comments