每日 Harness 开源 · Source
返回本期 · Back to 2026-06-01

论文 · Papers2026-06-01 · Monday, June 1, 2026

SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks

arxiv.org原文 ↗

SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks
SCOPE 针对开放式任务没有标准答案、依赖 curated prompts 或 frontier judge 的问题,设计 Challenger 生成 document-grounded tasks,Solver 多轮检索作答,冻结初始模型生成 rubric 并评分。作者在 Qwen2.5、Qwen3、OLMo-3 三个 7-8B instruction-tuned models 上报告,八个开放式 benchmark 最高提升 10.4 分,并能匹配或超过用约 9K curated prompts 训练的 GRPO_data。技术看点在于 co-evolving Challenger 被证明是让任务贴近 Solver 能力边界的必要部件,而 rubric quality 成为 self-judging 的瓶颈。
浏览

评论 · Comments