COMPASS: Cognitive MCTS-Guided Process Alignment for Safe Search Agents
arxiv.org原文 ↗
COMPASS 处理搜索 agent 的 retrieval-induced safety degradation:有害意图在多步检索里可被拆成无害子查询,最终仍导向不安全结果。它用 cognitive tree exploration 合成 stealthy attack trajectories,再用 introspective step-wise alignment 定位风险中间动作并做过程监督。值得看的是它把安全监督从最终回答前移到 query planning 和 tool-use trajectory 的中间步骤。
–浏览
评论 · Comments