每日 Harness 开源 · Source
返回本期 · Back to 2026-06-02

论文 · Papers2026-06-02 · Tuesday, June 2, 2026

DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization

arxiv.org原文 ↗

DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization
DRIFT 面向多轮交互优化,试图避开在线 RL 昂贵 rollout 与离线 SFT 分布偏移之间的两难。方法把 KL-regularized RL 等价为 importance-weighted supervised learning:从固定 reference policy 采样离线轨迹,按 return 生成权重,再做 weighted SFT。实验称可匹配或超过多轮 RL baseline,同时保留标准 SFT 的训练效率和实现简洁性。
浏览

评论 · Comments