跳到正文 · Skip to content

返回本期 · Back to 2026-06-03

论文 · Papers2026-06-03 · Wednesday, June 3, 2026

Policy and World Modeling Co-Training for Language Agents

arxiv.org原文 ↗

Agent RL / 可验证奖励合成数据与训练环境其他垂直

Policy and World Modeling Co-Training for Language Agents

论文把 agent policy 与文本 world model 联合训练，让 RL rollout 同时学习动作选择和环境动态。

–浏览

评论 · Comments