主题 · All topics
主题 · Topic
2.4 合成数据与训练环境Synthetic Data & Environments
本主题共 3 条 · 最早 2026-05-29 · 最新 2026-05-31
2026 年 5 月3
-
I built an Android OS in the browser
MobileGym 在浏览器中重建移动 OS 与日常 app,用于移动 GUI agent 的可验证、可并行训练和评测。项目页给出关键数字:28 个 app、416 个参数化任务模板,programmatic state judge 在发布检查中 0 false accept/reject,而 VLM judge 在同一类轨迹上有 10.2% 误判。它值得看是因为它把 GUI agent 的难点从…
原文 ↗– -
PhoneWorld: Scaling Phone-Use Agent Environments
这篇工作的重点不是再做一个移动端 benchmark,而是把“环境供给”工程化:从真实轨迹恢复关键屏幕、状态变化和可验证目标,再生成可运行任务。它的局限也在这里:mock 应用和规则验证器能放大规模,但真实系统中的异步状态、账号权限和后端副作用仍可能被简化。
原文 ↗– -
SynthTools: A Framework for Scaling Synthetic Tools for Agent Development
SynthTools 把“工具环境”从稀缺外部资源变成可控合成对象,适合训练和回归评测;但合成 API 是否覆盖真实接口的权限、速率、异常和业务语义,是它从 benchmark 走向生产前必须继续证明的点。
原文 ↗–