MobileGym 在浏览器中重建移动 OS 与日常 app,用于移动 GUI agent 的可验证、可并行训练和评测。项目页给出关键数字:28 个 app、416 个参数化任务模板,programmatic state judge 在发布检查中 0 false accept/reject,而 VLM judge 在同一类轨迹上有 10.2% 误判。它值得看是因为它把 GUI agent 的难点从“截图看起来像不像成功”改成结构化状态可读、可写、可 reset 的仿真问题。
–浏览
评论 · Comments