GrepSeek: Training Search Agents for Direct Corpus Interaction
arxiv.org原文 ↗
GrepSeek 让 search agent 直接把语料库当环境,用 shell 命令查找、过滤和组合证据,而不是只调预建检索索引。训练采用两阶段:answer-aware Tutor 与 answer-blind Planner 生成冷启动轨迹,再用 GRPO 优化;并用 sharded-parallel 执行把 shell retrieval 加速最高 7.6 倍且保持字节等价。七个开放域 QA benchmark 上 token F1 和 Exact Match 总体最强。
–浏览
评论 · Comments