2.4 合成数据与训练环境Synthetic Data & Environments

本主题共 15 条 · 最早 2026-05-29 · 最新 2026-07-25

视图 · View

2026 年 7 月5

Environment-free Synthetic Data Generation for API-Calling Agents
论文提出无需完整可执行 API 环境和预填充数据库即可生成工具调用训练轨迹，通过接口规范、约束与模拟状态构造调用—响应链。这样可以在真实后端昂贵、敏感或尚未部署时扩充训练数据，并覆盖罕见错误路径。方法降低数据生产门槛，但合成状态与真实服务行为之间的偏差仍决定了训练收益能否迁移。
Paper2026-07-25始 2026-07-23arxiv.org原文 ↗
–
Masked Diffusion Language Models are Strong and Steerable Text-Based World Models for Agentic RL
这项工作把 masked diffusion language model 用作文本交互环境的世界模型，并引入面向轨迹属性的 steering 机制。实验覆盖 12 个任务，扩散模型在模拟真实性上优于自回归基线，且可生成更高奖励或特定行为分布的训练环境。其价值在于把“环境生成”和“环境控制”放进同一生成过程，适合缺少真实交互预算的 agentic RL。
Paper2026-07-23arxiv.org原文 ↗
–
PrimeIntellect-ai/verifiers
verifiers 是 Prime Intellect 的 LLM RL environments 与 evals 库。项目提供环境、验证器和评测接口，帮助模型在任务反馈中学习或被系统化衡量。它反映出开放 LLM 训练正在从静态 SFT 数据集转向可执行环境和奖励信号工程。
Trending2026-07-16github.com原文 ↗
–
Function-Aware Fill-in-the-Middle as Mid-Training for Coding Agent Foundation Models
作者把 coding agent 的 action-observation-continuation 循环映射成函数调用形态，并用 function-aware FIM 作为中训练目标。关键机制是让模型在工具返回之后补全合理后续，而不是只学习静态代码空洞填充。它的技术含量在于训练目标贴近 agent 开发工作流，尤其是 shell、编辑器或测试反馈改变下一步操作的场景。
Paper2026-07-16arxiv.org原文 ↗
–
Beyond Static Evaluation: Building Simulation Environments for Scalable Agentic Reinforcement Learning
AgenticAI-Supervisor 把 API/UI 驱动的任务环境包装成类似 RL Gym 的执行环境，核心是用可验证执行结果替代静态题目打分。平台生成 high-fidelity traces，并用 multi-dimensional reward shaping 训练/优化 agent；为了抑制 reward hacking，它强调内部状态验证和测试。论文目前展示的是 Customer…
Paper2026-07-09arxiv.org原文 ↗
–

2026 年 6 月7

Training Open Models for Agentic Phone Use
论文提出 PhoneBuddy，用真实手机设备和 mock 环境结合训练开放模型完成手机操作任务。真实设备运行真实应用，慢、带状态、有副作用且难重置；mock 环境更容易扩展，却只能近似真实行为。这个 recipe 的看点在于承认部署环境不可被完全模拟，并把真实交互成本纳入训练设计。
Paper2026-06-24arxiv.org原文 ↗
–
CLI-Universe
CLI-Universe 提出用于 terminal agents 的可验证任务合成引擎，目标是缓解高质量、可执行训练数据不足。论文批评旧式合成 pipeline 常把表层 artifact 改造成任务，产生模糊指令、浅执行路径和脆弱测试。它强调任务需要可执行、可测试，并产生足够强的学习信号，这对训练命令行 agent 比堆更多自然语言任务更关键。
Paper2026-06-24arxiv.org原文 ↗
–
RODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents
RODS 观察到 GRPO 的梯度信号集中在 rollout reward 方差最高的任务上，也就是模型刚好会一半、错一半的能力边界。方法从 400 个人类种子出发，维护约 800 个活跃样本，通过 skill-aligned resampling 持续合成多轮工具任务。它用约少 20 倍轨迹达到接近 17K 离线样本管线的表现，适合关注 RL 数据效率的人读。
Paper2026-06-19arxiv.org原文 ↗
–
huggingface/OpenEnv
OpenEnv 是 Hugging Face 的 RL post-training environment interface library，digest 提到它采用 Gymnasium 风格 API 构建 agentic RL 执行环境。它的核心是把 agent 执行任务的环境抽象成统一接口，便于训练、评测和复现实验。它值得关注是因为 post-training 正在从静态偏好数据扩展到可交互…
Trending2026-06-15github.com原文 ↗
–
DeNovoSWE: Scaling Long-Horizon Environments for Generating Entire Repositories from Scratch
DeNovoSWE 把软件工程 agent 的目标从修 bug 扩展到从文档生成完整仓库。数据集包含 4,818 个 whole-repository generation 实例，通过沙箱化 agentic workflow 自动构建，流程采用 divide-and-conquer、critic-repair，并用 difficulty-aware trajectory filtering 平衡质…
Paper2026-06-12arxiv.org原文 ↗
–
Agentic Environment Engineering for Large Language Models: A Survey of Environment Modeling, Synthesis, Evaluation, and Application
这篇 survey 把 agentic environments 当成一条工程生命周期来综述，覆盖 modeling、synthesis、evaluation 和 application。它从 8 个属性和 8 个领域整理代表性环境，再把自动环境合成分成 symbolic synthesis 与 neural synthesis，并讨论各自评估方式。在 agent-environment co-e…
Paper2026-06-12arxiv.org原文 ↗
–
NVIDIA-NeMo/Gym
NeMo Gym 用“environment”统一评估和训练 agent：一个环境包含 dataset、agent harness、verifier 和 per-task state。README 强调可扩展到数千并发环境，并能在评估、agent optimization 和训练之间切换；它对应的是 agent benchmark 从静态问答向可执行环境迁移。
Trending2026-06-05github.com原文 ↗
–

2026 年 5 月3

I built an Android OS in the browser
MobileGym 在浏览器中重建移动 OS 与日常 app，用于移动 GUI agent 的可验证、可并行训练和评测。项目页给出关键数字：28 个 app、416 个参数化任务模板，programmatic state judge 在发布检查中 0 false accept/reject，而 VLM judge 在同一类轨迹上有 10.2% 误判。它值得看是因为它把 GUI agent 的难点从…
Project2026-05-31mobilegym.dev原文 ↗
–
PhoneWorld: Scaling Phone-Use Agent Environments
这篇工作的重点不是再做一个移动端 benchmark，而是把“环境供给”工程化：从真实轨迹恢复关键屏幕、状态变化和可验证目标，再生成可运行任务。它的局限也在这里：mock 应用和规则验证器能放大规模，但真实系统中的异步状态、账号权限和后端副作用仍可能被简化。
Paper2026-05-30arxiv.org原文 ↗
–
SynthTools: A Framework for Scaling Synthetic Tools for Agent Development
SynthTools 把“工具环境”从稀缺外部资源变成可控合成对象，适合训练和回归评测；但合成 API 是否覆盖真实接口的权限、速率、异常和业务语义，是它从 benchmark 走向生产前必须继续证明的点。
Paper2026-05-29arxiv.org原文 ↗
–