SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks
arxiv.org原文 ↗
SCOPE 针对开放式任务没有标准答案、依赖 curated prompts 或 frontier judge 的问题,设计 Challenger 生成 document-grounded tasks,Solver 多轮检索作答,冻结初始模型生成 rubric 并评分。作者在 Qwen2.5、Qwen3、OLMo-3 三个 7-8B instruction-tuned models 上报告,八个开放式 benchmark 最高提升 10.4 分,并能匹配或超过用约 9K curated prompts 训练的 GRPO_data。技术看点在于 co-evolving Challenger 被证明是让任务贴近 Solver 能力边界的必要部件,而 rubric quality 成为 self-judging 的瓶颈。
–浏览
评论 · Comments