LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?
arxiv.org原文 ↗
它指出搜索 benchmark 可能奖励“记忆验证”而非“证据发现”。LiveBrowseComp 的设计用新近、低显著性事实切断参数记忆,对搜索 agent 的检索链、查询生成和证据依赖更有诊断价值。
–浏览
arxiv.org原文 ↗
评论 · Comments