论文 · Papers2026-06-01 · Monday, June 1, 2026

SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks

SCOPE 针对开放式任务没有标准答案、依赖 curated prompts 或 frontier judge 的问题，设计 Challenger 生成 document-grounded tasks，Solver 多轮检索作答，冻结初始模型生成 rubric 并评分。作者在 Qwen2.5、Qwen3、OLMo-3 三个 7-8B instruction-tuned models 上报告，八个开放式 benchmark 最高提升 10.4 分，并能匹配或超过用约 9K curated prompts 训练的 GRPO_data。技术看点在于 co-evolving Challenger 被证明是让任务贴近 Solver 能力边界的必要部件，而 rubric quality 成为 self-judging 的瓶颈。

–浏览

SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks

评论 · Comments