每日 Harness 开源 · Source
返回本期 · Back to 2026-05-30

论文 · Papers2026-05-30 · Saturday, May 30, 2026

Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents

arxiv.org原文 ↗

Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents
论文把 RAG 安全问题从“恶意网页注入”推进到更麻烦的层面:相关性本身就是触发条件。它说明安全来源并不自动等于安全上下文,尤其当 agent 把检索材料当作完成任务的证据时,拒答策略会被任务相关信号稀释。
浏览

评论 · Comments