DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization
arxiv.org原文 ↗
DRIFT 面向多轮交互优化,试图避开在线 RL 昂贵 rollout 与离线 SFT 分布偏移之间的两难。方法把 KL-regularized RL 等价为 importance-weighted supervised learning:从固定 reference policy 采样离线轨迹,按 return 生成权重,再做 weighted SFT。实验称可匹配或超过多轮 RL baseline,同时保留标准 SFT 的训练效率和实现简洁性。
–浏览
评论 · Comments