2026 年 6 月9
-
Agent-browser-shield
Agent-browser-shield 是面向 web-browsing AI agents 的浏览器扩展,目标是降低页面误导、prompt injection 和错误操作风险。digest 信息显示它属于浏览器侧安全护栏,不是通用 agent runtime。它的技术价值在于把网页内容、DOM 操作和 agent 决策之间的风险点放到扩展层处理。随着 agent 直接读网页和点击页面变多,这类…
原文 ↗– -
AI Agents Enable Adaptive Computer Worms
展示 AI agent 可能把传统蠕虫从固定漏洞利用推向针对每个目标生成定制攻击策略的形态。论文以 WannaCry 这类预设漏洞路径为对照,强调 patch 单一漏洞无法覆盖 agent 自动枚举环境、推理弱点和生成利用方案的风险。它属于安全威胁建模类工作,不是普通 malware 工程复现。值得读的是它把 agent autonomy 带来的攻击面变化讲得很直接。
原文 ↗– -
1-Click GitHub Token Stealing via a VSCode Bug
Ammar Askar 披露一个可导致 GitHub token 被窃取的 VS Code bug。标题中的 1-click 表明交互门槛很低,风险集中在 IDE、扩展或链接处理链路如何暴露开发者凭证。它对 coding-agent 时代尤其重要,因为 agent、IDE 和 GitHub token 的权限常常叠在同一个工作站里。
原文 ↗– -
When Safe Skills Collide: Measuring Compositional Risk in Agent Skill Ecosystems
论文研究多个单独安全的 agent skills 组合后是否形成不安全能力集合。
原文 ↗– -
From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors
论文提出 ClawTrojan,研究本地 agent harness 中由文件或工具输出触发、写入并跨会话生效的多步 trojan backdoor。OpenClaw-style workspace 中 GPT-5.4 的攻击成功率达到 95.5%,而传统单轮 prompt injection 在同一模型上几乎为零。DASGuard 通过扫描敏感文件中的 control-like text、追踪来…
原文 ↗– -
AgentThreatBench
OWASP Agent Memory Guard 是 OWASP Incubator 项目,也是 ASI06 Memory Poisoning 的 reference implementation。它作为 agent 与 memory store 之间的 runtime defense layer,筛查每次 read/write,阻断 prompt injection、secret leakage…
原文 ↗– -
mcpguard
mcpguard 是 MCP server 的扫描器和运行时 firewall,映射 OWASP MCP Top 10 2026。它能扫描 config,输出 JSON/SARIF,并通过 proxy 对 tool call 依据 YAML policy 执行 allow、deny 或 audit;检查项包括 tool poisoning、excessive permissions、command…
原文 ↗– -
ChatGPT for Google Sheets exfiltrates workbooks
PromptArmor 披露 Google Sheets 中 ChatGPT 集成可导致 workbook 数据外传。问题不是传统意义上的文件权限越权,而是表格内容、AI 插件、外部请求和模型工具调用形成了新数据流。它值得看,因为办公套件里的 AI integration 会把单元格文本也变成可执行影响源。
原文 ↗– -
COMPASS: Cognitive MCTS-Guided Process Alignment for Safe Search Agents
COMPASS 处理搜索 agent 的 retrieval-induced safety degradation:有害意图在多步检索里可被拆成无害子查询,最终仍导向不安全结果。它用 cognitive tree exploration 合成 stealthy attack trajectories,再用 introspective step-wise alignment 定位风险中间动作并做过程…
原文 ↗–
2026 年 5 月10
-
microsoft/RAMPART
它把 AI red teaming 拉进常规测试栈,这是正确方向。pytest-native 形态降低了团队采用成本;难点在于如何把自然语言攻击、工具副作用和 harm 评分变成稳定、可维护的断言。
原文 ↗– -
Undisclosed addition in jqwik instructed AI coding agents to delete app output
这条新闻把“源码注释/文档里的文字”变成 agent 控制面风险。即使人类 maintainer 认为是表达抗议,coding agent 会把仓库文本当上下文执行,供应链信任边界因此被重画。
原文 ↗– -
Robinhood now lets your AI agents trade stocks
这条新闻的关键不是 API 新增,而是把 agent 权限推进到高风险金融动作。交易场景需要身份、授权、限额、审计、撤销和异常检测;否则“让 agent 操作账户”会把 prompt 风险直接转成资金风险。
原文 ↗– -
Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents
论文把 RAG 安全问题从“恶意网页注入”推进到更麻烦的层面:相关性本身就是触发条件。它说明安全来源并不自动等于安全上下文,尤其当 agent 把检索材料当作完成任务的证据时,拒答策略会被任务相关信号稀释。
原文 ↗– -
AIRGuard: Guarding Agent Actions with Runtime Authority Control
这篇论文的判断很正确:agent 风险真正落地在“动作执行”时刻。把权限检查放在 action boundary,比在自然语言层面要求模型自律更稳;挑战是权限策略必须足够细粒度,否则会在可用性和安全性之间来回摆动。
原文 ↗– -
sqlite AGENTS.md
这篇短文抓住了开源维护的新现实:项目不是拒绝 AI 辅助,而是拒绝不可审计的代理代码流入主线。SQLite 的边界很具体,bug report 可以 agentic,代码贡献仍由人类维护者重写。
原文 ↗– -
microsoft/agent-governance-toolkit
它把 agent 安全从单点 guardrail 扩展为身份、策略、沙箱、可靠性和 fuzzing 组合。真正要看的不是 checklist 覆盖率,而是 enforcement 是否在工具调用和跨 agent 通信路径上不可绕过。
原文 ↗– -
Technical Report: Exploring the Emerging Threats of the Agent Skill Ecosystem
skill 正在变成 agent 的包生态,因此供应链威胁会从库代码扩展到“指令+脚本+权限”组合。报告的价值在样本来自真实 marketplace,而不是只给出假想攻击。
原文 ↗– -
Protestware for coding agents
文章讨论 coding agent 时代软件依赖、自动化执行和 protestware 风险。
原文 ↗– -
MIRAGE: Context-Aware Prompt Injection against Mobile GUI Agents via User-Generated Content
该文的关键洞察是移动 GUI agent 看的是像素,无法稳定区分可信 UI 与用户生成内容。更麻烦的是 realism 与 attack success 不相关,说明单靠视觉质量过滤不是防线。
原文 ↗–