Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents
arxiv.org原文 ↗
论文把 RAG 安全问题从“恶意网页注入”推进到更麻烦的层面:相关性本身就是触发条件。它说明安全来源并不自动等于安全上下文,尤其当 agent 把检索材料当作完成任务的证据时,拒答策略会被任务相关信号稀释。
–浏览
arxiv.org原文 ↗
评论 · Comments