PhoneWorld: Scaling Phone-Use Agent Environments1 - 把移动 GUI agent 的瓶颈从单个 benchmark 转成可扩展环境生成管线。
全文 ↓今日重点 · Today's Highlights
Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents2 - 指出检索内容的“相关性”本身会成为安全对齐退化的触发条件。
全文 ↓AIRGuard: Guarding Agent Actions with Runtime Authority Control3 - 把 agent 安全边界放到工具动作执行时刻,用运行时授权约束外部副作用。
全文 ↓论文 · Papers
12 项 · 论文本期重点PhoneWorld: Scaling Phone-Use Agent Environments1arxiv.org原文 ↗
这篇工作的重点不是再做一个移动端 benchmark,而是把“环境供给”工程化:从真实轨迹恢复关键屏幕、状态变化和可验证目标,再生成可运行任务。它的局限也在这里:mock 应用和规则验证器能放大规模,但真实系统中的异步状态、账号权限和后端副作用仍可能被简化。
本期重点Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents2arxiv.org原文 ↗
论文把 RAG 安全问题从“恶意网页注入”推进到更麻烦的层面:相关性本身就是触发条件。它说明安全来源并不自动等于安全上下文,尤其当 agent 把检索材料当作完成任务的证据时,拒答策略会被任务相关信号稀释。
VikingMem: A Memory Base Management System for Stateful LLM-based Applications6arxiv.org原文 ↗
这篇论文把 agent memory 当作数据管理系统,而不是提示词附属品。event/entity 分层的好处是能承载纠错、时间衰减和实体演化;风险是评估主要落在检索有效性,记忆写入错误、隐私边界和跨应用 schema 演进还需要更硬的治理机制。
SkillsInjector: Dynamic Skill Context Construction for LLM Agents8arxiv.org原文 ↗
这篇工作抓住了 skills 机制的核心矛盾:技能库越丰富,静态塞进上下文越容易把模型带偏。动态规划器把 skill 选择变成执行相关的检索和改写问题,但效果会依赖 skill 描述质量以及训练时的任务分布。
Notation Matters: A Benchmark Study of Token-Optimized Formats in Agentic AI Systems9arxiv.org原文 ↗
它把“格式选择”从工程品味拉回到可测量变量:agent 系统中每一步都复制状态、工具结果和结构化参数,冗余 notation 会被循环放大。真正的价值在于提醒评测应同时报告任务质量与 token/latency,而不是只看成功率。
AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation11arxiv.org原文 ↗
这篇论文直接挑战“pass rate 足够”的评测习惯。它显示不同模型的 Lucky rate 可从 0.5% 到 23.2%,按过程质量重新排名甚至能移动五个名次;这对 coding agent 很关键,因为混乱通过的补丁在真实工程里往往更难维护。
GroundAct: Can LLM Agents Ground Actions in Environmental States?12arxiv.org原文 ↗
digest 标题强调 action grounding,页面摘要实际展示的是 embodied reasoning benchmark。最有价值的发现是完整环境信息反而会降低协作表现,说明模型不是缺信息,而是缺少从状态中过滤任务相关约束的机制。
How Consistent Are LLM Agents? Measuring Behavioral Reproducibility in Multi-Step Tool-Calling Pipelines13arxiv.org原文 ↗
这类评测补上了 agent 可靠性的一块盲区。即便最终成功率相近,路径不稳定也会增加缓存、审批、审计和事故复现成本;但一致性不能单独当目标,因为 agent 也可能稳定地执行错误策略。
Governing Technical Debt in Agentic AI Systems14arxiv.org原文 ↗
这是一篇偏治理框架的论文,价值在于把 agent 问题从单次 prompt 质量提升到生命周期管理。它提醒团队:记忆、工具权限、评测 harness 和监控策略都是债务来源,越晚标准化,越难解释系统为什么做出某个动作。
开源 / 项目 · Projects
12 项 · 开源 / 项目P2P proof of concept for ACP decentralized agent communication18github.com原文 ↗
这类项目的技术问题不在“能发消息”,而在身份、路由、权限和失败恢复。作为 POC,它适合验证 agent 通信协议形态;距离生产系统还需要认证、审计和流控设计。
Agent Memory Guard21github.com原文 ↗
它把防线放在 memory read/write 边界,这是比只过滤用户输入更贴近威胁模型的做法。公开 benchmark 报告 55 个 payload 上 92.5% recall、100% precision、59微秒 median latency;但生产中策略质量仍取决于哪些 key 被定义为 protected。
Claude-code-replay22github.com原文 ↗
这个项目关注的是 agent 开发中的可追溯性:当代码变化来自多轮工具调用时,日志比最终 diff 更能解释意图。它的有效性取决于 Claude Code 日志是否完整记录写入内容和路径。
Promptloop23github.com原文 ↗
它解决的是 prompt 开发缺少轻量版本化实验的问题。CLI 形态有利于进入 CI 和脚本;深一层的价值取决于它是否能记录输入集、模型参数、评分规则和历史结果。
行业动态 · Industry News
10 项 · 行业动态OpenAI: A shared playbook for trustworthy third party evaluations25openai.com原文 ↗
这篇文章把“评测结果”扩展为“评测设置 + 有效性证据”。核心信号是:agentic 能力高度依赖 harness 和 token budget,标准化 harness 适合公平比较,但不等于能力上限。
OpenAI: Strengthening societal resilience with Rosalind Biodefense26openai.com原文 ↗
这条新闻的重要性在应用治理:生物安全领域需要能力释放与访问控制同时设计。它不是普通模型发布,而是把高敏场景中的授权对象、评估和使用边界推到台前。
How Braintrust turns customer requests into code with Codex27openai.com原文 ↗
这类案例的看点不在“AI 写代码”,而在客户反馈到 eval/code 的闭环。Braintrust 本身做 eval 基础设施,所以它展示的是 coding agent 与实验平台结合后的产品迭代模式。
Liquid AI reveals 8B-A1B MoE trained on 38T28liquid.ai原文 ↗
这条发布继续强化一个趋势:端侧模型不只靠小 dense model,MoE 也在尝试把容量和激活成本拆开。真正要观察的是部署栈、内存占用和长上下文/工具场景,而不只是 benchmark 表。
9 demos of Gemini Omni and Gemini 3.5 in action29blog.google原文 ↗
demo 的价值是暴露产品方向:Google 正把模型能力包装成端到端交互体验,而非单点 benchmark。需要保留判断的是 demo 场景通常经过选择,不能直接推断稳定性和失败率。
Blue Origin's New Glenn rocket exploded during a static fire test30arstechnica.com原文 ↗
这类事故的技术含义取决于损坏范围和根因:静态点火本来就是为了在不发射时暴露推进、结构或地面系统问题。对 New Glenn 而言,影响会落在调查周期、硬件替换和发射排期。
Undisclosed addition in jqwik instructed AI coding agents to delete app output31arstechnica.com原文 ↗
这条新闻把“源码注释/文档里的文字”变成 agent 控制面风险。即使人类 maintainer 认为是表达抗议,coding agent 会把仓库文本当上下文执行,供应链信任边界因此被重画。
Robinhood now lets your AI agents trade stocks32techcrunch.com原文 ↗
这条新闻的关键不是 API 新增,而是把 agent 权限推进到高风险金融动作。交易场景需要身份、授权、限额、审计、撤销和异常检测;否则“让 agent 操作账户”会把 prompt 风险直接转成资金风险。
GTA 6 Developers Unionize33rockstarintel.com原文 ↗
这条新闻属于游戏产业结构信号:顶级项目团队 unionize 会影响外包、加班、署名、远程政策和发布周期谈判。技术上不改变 GTA 6,但会改变大型 AAA 开发的组织约束。
The California state assembly has passed the “Protect Our Games Act”34invenglobal.com原文 ↗
这条监管信号把 live-service 游戏的“运营结束”变成消费者权益问题。若后续成法,开发商需要在架构上考虑离线模式、服务器释放、数据迁移或明确授权边界。
博客文章 · Blog Posts
10 项 · 博客文章Claude Opus 4.8: “a modest but tangible improvement”35simonwillison.net原文 ↗
这篇记录的价值在措辞:Anthropic 没有把 4.8 包装成断代升级,而是强调可感知但有限的质量提升。对技术读者来说,真正要看的是诚实性和 effort control 是否在实际任务中减少假进展。
llm-anthropic 0.25.136simonwillison.net原文 ↗
这是小版本更新,但对 CLI 用户很实用:模型发布后的真正可用性常取决于周边工具多快跟上。fast mode 暗示模型调用不只是“选哪个模型”,还包括推理努力和延迟成本的配置。
datasette 1.0a3137simonwillison.net原文 ↗
Datasette 的方向从“发布 SQLite 数据”走向更完整的数据应用运行时。写查询和 stored query 权限很敏感,因为它们把数据展示工具变成可变系统,权限边界和审计就必须更清楚。
Real-time LLM Inference on Standard GPUs: 3k tokens/s per request39blog.kog.ai原文 ↗
这篇文章的技术看点是把低延迟解码推到 kernel 调度层:减少 kernel launch 和框架开销,尽量让生成过程常驻 GPU。需要谨慎比较的是模型大小、batch、量化、speculative decoding 与硬件配置,否则 tokens/s 数字不可横向复用。
Is AI causing a repeat of frontend’s lost decade?40mastrojs.github.io原文 ↗
这篇文章不是简单反 AI,而是把技术抽象和劳动分工放在一起看。它提醒我们:抽象层提高产能的同时,也会改变谁被认为有技能、谁能定价、谁承担质量后果。
We should be more tired than the model41vickiboykis.com原文 ↗
这篇文章的观点适合对抗“模型很勤奋所以人可以松手”的错觉。AI 协作的瓶颈往往转移到人类判断:检查边界条件、识别不合逻辑的自信回答、决定何时停止自动化。
Where are the economies of scale in homebuilding?42construction-physics.com原文 ↗
这篇文章提供了一个反技术决定论案例:不是所有行业都能靠规模把成本压平。住宅建设的“产品”绑定地点、许可和本地劳动力,很多成本随项目重复仍不会像工厂零件一样快速下降。
SQLite is all you need for durable workflows43obeli.sk原文 ↗
这类设计的好处是把 durable execution 的最小闭环落在一个本地 ACID 数据库上。它适合单节点或边缘部署;一旦需要多写节点、跨区域协调或高并发队列,就要明确何时迁移到更重的系统。
On Rendering Diffs44pierre.computer原文 ↗
diff UI 看似成熟,但细节很多:行内高亮、语法着色、折叠、冲突块、宽行、移动端和可访问性都会影响 review 质量。文章的价值在于把 diff 当成产品基础设施,而不是纯文本展示。
GitHub 热门 · GitHub Trending
10 项 · GitHub 热门microsoft/markitdown45github.com原文 ↗
它适合 agent/RAG 前处理:把多格式文件统一成 markdown 这种 LLM 友好文本。优势是格式覆盖和 API 简洁;要注意复杂布局、扫描件和表格仍会依赖具体解析后端。
OpenMOSS/MOSS-TTS46github.com原文 ↗
它不是单一 TTS 模型,而是把音频 tokenizer、长文本、对话、音效和实时生成拆成组合式家族。工程亮点是提供轻量部署路径,8B 模型可走 llama.cpp/GGUF 与 ONNX audio codec。
anthropics/claude-code47github.com原文 ↗
这个仓库代表 coding agent 正在从封闭产品走向可观察的工具链。值得注意的是安装、插件和数据收集说明都在 README 中直接呈现,说明生态扩展已成为核心能力。
microsoft/RAMPART48github.com原文 ↗
它把 AI red teaming 拉进常规测试栈,这是正确方向。pytest-native 形态降低了团队采用成本;难点在于如何把自然语言攻击、工具副作用和 harm 评分变成稳定、可维护的断言。
mastra-ai/mastra49github.com原文 ↗
Mastra 的定位是把 agent 应用开发从 demo 推向工程框架:不仅有 agent 和工具调用,还把 eval、观测和迭代纳入一等功能。TypeScript 生态让它更贴近 Web 产品团队。
firecrawl/firecrawl50github.com原文 ↗
Firecrawl 把“网页上下文”做成 agent 基础设施。它的价值在于把抓取、清洗、结构化和主内容抽取统一;风险在于动态网页覆盖率、反爬限制和内容版权/robots 策略需要持续处理。
run-llama/liteparse51github.com原文 ↗
它瞄准的是 RAG 管线中最容易被低估的环节:PDF/文档解析。Rust core 加多语言 binding 的架构适合做性能与嵌入式分发;最终质量仍取决于 layout、表格、扫描件 OCR 和 bbox 保真。
git-ai-project/git-ai52github.com原文 ↗
这个项目的关键是不用“检测”AI 代码,而是在生成时记录来源。它把 AI attribution 变成 Git 原生元数据,适合审计、合规和评估工具效果;需要 agent 集成足够可靠。
ryoppippi/ccusage53github.com原文 ↗
当 agent 使用进入日常开发,token 成本会变成团队运营指标。ccusage 的实用点是统一读取本地日志,不需要登录服务;它也让不同 agent、模型和项目的成本差异可见。
anthropics/skills54github.com原文 ↗
这个仓库把 skills 从产品功能变成可共享工件。其重要性在于技能不只是 prompt 片段,还能携带脚本和资源;长期看,skill 版本化、权限和依赖声明会成为 agent 生态的基础设施。
引用来源 · References
54 条 · 引用- 1 PhoneWorld: Scaling Phone-Use Agent Environments. arXiv:2605.29486https://arxiv.org/abs/2605.29486 ↩ 回到正文 · back to text
- 2 Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents. arXiv:2605.29224https://arxiv.org/abs/2605.29224 ↩ 回到正文 · back to text
- 3 AIRGuard: Guarding Agent Actions with Runtime Authority Control. arXiv:2605.28914https://arxiv.org/abs/2605.28914 ↩ 回到正文 · back to text
- 4 Tiny-vLLMhttps://github.com/jmaczan/tiny-vllm ↩ 回到正文 · back to text
- 5 AISlophttps://github.com/scanaislop/aislop ↩ 回到正文 · back to text
- 6 VikingMem: A Memory Base Management System for Stateful LLM-based Applications. arXiv:2605.29640https://arxiv.org/abs/2605.29640 ↩ 回到正文 · back to text
- 7 Entity-Collision: A Stratified Protocol for Attributing Retrieval Lift in Agent Memory. arXiv:2605.29630https://arxiv.org/abs/2605.29630 ↩ 回到正文 · back to text
- 8 SkillsInjector: Dynamic Skill Context Construction for LLM Agents. arXiv:2605.29794https://arxiv.org/abs/2605.29794 ↩ 回到正文 · back to text
- 9 Notation Matters: A Benchmark Study of Token-Optimized Formats in Agentic AI Systems. arXiv:2605.29676https://arxiv.org/abs/2605.29676 ↩ 回到正文 · back to text
- 10 LogDx-CI: Benchmarking Log Reduction Tools for LLM Root-Cause Diagnosis. arXiv:2605.28876https://arxiv.org/abs/2605.28876 ↩ 回到正文 · back to text
- 11 AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation. arXiv:2605.12925https://arxiv.org/abs/2605.12925 ↩ 回到正文 · back to text
- 12 GroundAct: Can LLM Agents Ground Actions in Environmental States?. arXiv:2508.05614https://arxiv.org/abs/2508.05614 ↩ 回到正文 · back to text
- 13 How Consistent Are LLM Agents? Measuring Behavioral Reproducibility in Multi-Step Tool-Calling Pipelines. arXiv:2605.28840https://arxiv.org/abs/2605.28840 ↩ 回到正文 · back to text
- 14 Governing Technical Debt in Agentic AI Systems. arXiv:2605.29129https://arxiv.org/abs/2605.29129 ↩ 回到正文 · back to text
- 15 Mirahttps://github.com/Heidar-An/Mira ↩ 回到正文 · back to text
- 16 airtophttps://github.com/yeet-src/airtop ↩ 回到正文 · back to text
- 17 MLPicohttps://github.com/GiorgosXou/MLPico ↩ 回到正文 · back to text
- 18 P2P proof of concept for ACP decentralized agent communicationhttps://github.com/skorotkiewicz/acp-p2p ↩ 回到正文 · back to text
- 19 theta-spechttps://github.com/tamarillo-ai/theta-spec ↩ 回到正文 · back to text
- 20 textsnaphttps://github.com/kouhxp/textsnap ↩ 回到正文 · back to text
- 21 Agent Memory Guardhttps://github.com/OWASP/www-project-agent-memory-guard ↩ 回到正文 · back to text
- 22 Claude-code-replayhttps://github.com/glebmish/claude-code-replay ↩ 回到正文 · back to text
- 23 Promptloophttps://github.com/Bella3202019/promptloop ↩ 回到正文 · back to text
- 24 Elementalhttps://github.com/fynyky/elemental ↩ 回到正文 · back to text
- 25 OpenAI: A shared playbook for trustworthy third party evaluationshttps://openai.com/index/trustworthy-third-party-evaluations-foundations ↩ 回到正文 · back to text
- 26 OpenAI: Strengthening societal resilience with Rosalind Biodefensehttps://openai.com/index/strengthening-societal-resilience-with-rosalind-biodefense ↩ 回到正文 · back to text
- 27 How Braintrust turns customer requests into code with Codexhttps://openai.com/index/braintrust ↩ 回到正文 · back to text
- 28 Liquid AI reveals 8B-A1B MoE trained on 38Thttps://www.liquid.ai/blog/lfm2-5-8b-a1b ↩ 回到正文 · back to text
- 29 9 demos of Gemini Omni and Gemini 3.5 in actionhttps://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-3-5-videos/ ↩ 回到正文 · back to text
- 30 Blue Origin's New Glenn rocket exploded during a static fire testhttps://arstechnica.com/space/2026/05/blue-origins-new-glenn-rocket-just-exploded-during-a-static-fire-test/ ↩ 回到正文 · back to text
- 31 Undisclosed addition in jqwik instructed AI coding agents to delete app outputhttps://arstechnica.com/security/2026/05/fed-up-with-vibe-coders-dev-sneaks-data-nuking-prompt-injection-into-their-code/ ↩ 回到正文 · back to text
- 32 Robinhood now lets your AI agents trade stockshttps://techcrunch.com/2026/05/27/robinhood-now-lets-your-ai-agents-trade-stocks/ ↩ 回到正文 · back to text
- 33 GTA 6 Developers Unionizehttps://rockstarintel.com/gta-6-developers-announce-rockstar-games-union/ ↩ 回到正文 · back to text
- 34 The California state assembly has passed the “Protect Our Games Act”https://www.invenglobal.com/articles/22330/stop-killing-games-movement-gains-momentum-california-assembly-passes-game-protection-bill ↩ 回到正文 · back to text
- 35 Claude Opus 4.8: “a modest but tangible improvement”https://simonwillison.net/2026/May/28/claude-opus-4-8/#atom-everything ↩ 回到正文 · back to text
- 36 llm-anthropic 0.25.1https://simonwillison.net/2026/May/28/llm-anthropic/#atom-everything ↩ 回到正文 · back to text
- 37 datasette 1.0a31https://simonwillison.net/2026/May/29/datasette/#atom-everything ↩ 回到正文 · back to text
- 38 Claude Code: Everything you can configure that the docs don’t tell youhttps://buildingbetter.tech/p/i-read-the-claude-code-source-code ↩ 回到正文 · back to text
- 39 Real-time LLM Inference on Standard GPUs: 3k tokens/s per requesthttps://blog.kog.ai/real-time-llm-inference-on-standard-gpus-3-000-tokens-s-per-request/ ↩ 回到正文 · back to text
- 40 Is AI causing a repeat of frontend’s lost decade?https://mastrojs.github.io/blog/2026-05-23-is-AI-causing-a-repeat-of-frontends-lost-decade/ ↩ 回到正文 · back to text
- 41 We should be more tired than the modelhttps://vickiboykis.com/2026/05/28/we-should-be-more-tired-than-the-model/ ↩ 回到正文 · back to text
- 42 Where are the economies of scale in homebuilding?https://www.construction-physics.com/p/where-are-the-economies-of-scale ↩ 回到正文 · back to text
- 43 SQLite is all you need for durable workflowshttps://obeli.sk/blog/sqlite-is-all-you-need-for-durable-workflows/ ↩ 回到正文 · back to text
- 44 On Rendering Diffshttps://pierre.computer/writing/on-rendering-diffs ↩ 回到正文 · back to text
- 45 microsoft/markitdownhttps://github.com/microsoft/markitdown ↩ 回到正文 · back to text
- 46 OpenMOSS/MOSS-TTShttps://github.com/OpenMOSS/MOSS-TTS ↩ 回到正文 · back to text
- 47 anthropics/claude-codehttps://github.com/anthropics/claude-code ↩ 回到正文 · back to text
- 48 microsoft/RAMPARThttps://github.com/microsoft/RAMPART ↩ 回到正文 · back to text
- 49 mastra-ai/mastrahttps://github.com/mastra-ai/mastra ↩ 回到正文 · back to text
- 50 firecrawl/firecrawlhttps://github.com/firecrawl/firecrawl ↩ 回到正文 · back to text
- 51 run-llama/liteparsehttps://github.com/run-llama/liteparse ↩ 回到正文 · back to text
- 52 git-ai-project/git-aihttps://github.com/git-ai-project/git-ai ↩ 回到正文 · back to text
- 53 ryoppippi/ccusagehttps://github.com/ryoppippi/ccusage ↩ 回到正文 · back to text
- 54 anthropics/skillshttps://github.com/anthropics/skills ↩ 回到正文 · back to text