每日 Harness 开源 · Source
返回本期 · Back to 2026-05-30

论文 · Papers2026-05-30 · Saturday, May 30, 2026

PhoneWorld: Scaling Phone-Use Agent Environments

arxiv.org原文 ↗

PhoneWorld: Scaling Phone-Use Agent Environments
这篇工作的重点不是再做一个移动端 benchmark,而是把“环境供给”工程化:从真实轨迹恢复关键屏幕、状态变化和可验证目标,再生成可运行任务。它的局限也在这里:mock 应用和规则验证器能放大规模,但真实系统中的异步状态、账号权限和后端副作用仍可能被简化。
浏览

评论 · Comments