论文 · Papers2026-06-02 · Tuesday, June 2, 2026

DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization

DRIFT 面向多轮交互优化，试图避开在线 RL 昂贵 rollout 与离线 SFT 分布偏移之间的两难。方法把 KL-regularized RL 等价为 importance-weighted supervised learning：从固定 reference policy 采样离线轨迹，按 return 生成权重，再做 weighted SFT。实验称可匹配或超过多轮 RL baseline，同时保留标准 SFT 的训练效率和实现简洁性。

–浏览

DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization

评论 · Comments