论文 · Papers2026-05-30 · Saturday, May 30, 2026

Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents

论文把 RAG 安全问题从“恶意网页注入”推进到更麻烦的层面：相关性本身就是触发条件。它说明安全来源并不自动等于安全上下文，尤其当 agent 把检索材料当作完成任务的证据时，拒答策略会被任务相关信号稀释。

–浏览

评论 · Comments