每日 Harness 开源 · Source
主题 · All topics

2.4 合成数据与训练环境Synthetic Data & Environments

本主题共 3 条 · 最早 2026-05-29 · 最新 2026-05-31

视图 · View

2026 年 5 月3

  • I built an Android OS in the browser

    MobileGym 在浏览器中重建移动 OS 与日常 app,用于移动 GUI agent 的可验证、可并行训练和评测。项目页给出关键数字:28 个 app、416 个参数化任务模板,programmatic state judge 在发布检查中 0 false accept/reject,而 VLM judge 在同一类轨迹上有 10.2% 误判。它值得看是因为它把 GUI agent 的难点从…

    2026-05-31mobilegym.dev原文 ↗
  • PhoneWorld: Scaling Phone-Use Agent Environments

    这篇工作的重点不是再做一个移动端 benchmark,而是把“环境供给”工程化:从真实轨迹恢复关键屏幕、状态变化和可验证目标,再生成可运行任务。它的局限也在这里:mock 应用和规则验证器能放大规模,但真实系统中的异步状态、账号权限和后端副作用仍可能被简化。

    2026-05-30arxiv.org原文 ↗
  • SynthTools: A Framework for Scaling Synthetic Tools for Agent Development

    SynthTools 把“工具环境”从稀缺外部资源变成可控合成对象,适合训练和回归评测;但合成 API 是否覆盖真实接口的权限、速率、异常和业务语义,是它从 benchmark 走向生产前必须继续证明的点。

    2026-05-29arxiv.org原文 ↗