每日 Harness 开源 · Source
全部刊期 · All issues

每日 Harness

2026-05-30 · Saturday, May 30, 2026

智能体安全工程化

视图 · View

今日重点 · Today's Highlights

Tiny-vLLM4 - 用 C++/CUDA 从零实现小型 vLLM,把 KV cache、continuous batching 和 PagedAttention 讲清楚。

全文 ↓

AISlop5 - 用确定性规则扫描 AI 代码异味,为 coding agent 输出提供快速质量门。

全文 ↓

论文 · Papers

12 项 · 论文

本期重点PhoneWorld: Scaling Phone-Use Agent Environments1arxiv.org原文 ↗

这篇工作的重点不是再做一个移动端 benchmark,而是把“环境供给”工程化:从真实轨迹恢复关键屏幕、状态变化和可验证目标,再生成可运行任务。它的局限也在这里:mock 应用和规则验证器能放大规模,但真实系统中的异步状态、账号权限和后端副作用仍可能被简化。

开源 / 项目 · Projects

12 项 · 开源 / 项目

Mira15github.com原文 ↗

github.com

Mira 做的是“文件名记不住也能找文件”的本地搜索。它把 metadata、全文和语义匹配合并排序,实用点在于 live indexing 与本地处理;但语义索引的质量会受文档解析和 embedding provider 影响。

airtop16github.com原文 ↗

github.com

它的工程看点是把无线观察从抓包工具转成实时 TUI,而且避免 monitor mode 的连接中断。局限也清楚:它看到的是内核已经流经的 Wi-Fi 视角,不是专业频谱仪,适合运维观察而非完整 RF 测量。

MLPico17github.com原文 ↗

github.com

这个项目的价值在资源约束场景:不引入动态分配,用双槽 buffer 复用层间激活,降低 RAM 占用。它不是通用训练框架,而是把小型 MLP 推理压到嵌入式可控边界内。

theta-spec19github.com原文 ↗

它试图解决 agent 配置被各家 CLI/harness 锁死的问题。统一规格的价值在团队可迁移和可审计;真正难点会在语义差异,例如不同工具权限、hook 生命周期和 skill 调度并不总能无损映射。

textsnap20github.com原文 ↗

github.com

项目定位非常清楚:一条命令把视觉文本转成可复制文本,不依赖云端或 GPU。适合 receipts、截图、网页主图 OCR;但网页模式会先抽主内容和 prominent image,对复杂网页和多图文档未必完整。

本期重点AISlop5github.com原文 ↗

AISlop 的取舍是明确不用 LLM 做判断,因此可重复、快、适合 CI。它检测的是模式化腐烂,不是语义 bug;最好作为 agent 编辑后的第一层卫生检查,再把剩余问题交给人或更强的 review agent。

Agent Memory Guard21github.com原文 ↗

安全与攻防Agent 记忆系统·基础设施

它把防线放在 memory read/write 边界,这是比只过滤用户输入更贴近威胁模型的做法。公开 benchmark 报告 55 个 payload 上 92.5% recall、100% precision、59微秒 median latency;但生产中策略质量仍取决于哪些 key 被定义为 protected。

本期重点Tiny-vLLM4github.com原文 ↗

框架与脚手架系统·基础设施

它不是又一个包装库,而是把推理服务器关键机制拆成可读课程和源码。适合理解 vLLM 背后的内存与 kernel 工程;若要生产部署,还需要补齐模型覆盖、调度鲁棒性和运维能力。

Claude-code-replay22github.com原文 ↗

这个项目关注的是 agent 开发中的可追溯性:当代码变化来自多轮工具调用时,日志比最终 diff 更能解释意图。它的有效性取决于 Claude Code 日志是否完整记录写入内容和路径。

Promptloop23github.com原文 ↗

评测方法系统·基础设施

它解决的是 prompt 开发缺少轻量版本化实验的问题。CLI 形态有利于进入 CI 和脚本;深一层的价值取决于它是否能记录输入集、模型参数、评分规则和历史结果。

Elemental24github.com原文 ↗

github.com

它的思路接近“少框架、直接 DOM”:不用 JSX 或编译步骤,用嵌套函数表达结构和响应式依赖。优点是透明、低魔法;代价是大型应用里的状态组织、组件边界和生态需要自己把握。

行业动态 · Industry News

10 项 · 行业动态

Liquid AI reveals 8B-A1B MoE trained on 38T28liquid.ai原文 ↗

liquid.ai

这条发布继续强化一个趋势:端侧模型不只靠小 dense model,MoE 也在尝试把容量和激活成本拆开。真正要观察的是部署栈、内存占用和长上下文/工具场景,而不只是 benchmark 表。

9 demos of Gemini Omni and Gemini 3.5 in action29blog.google原文 ↗

blog.google

demo 的价值是暴露产品方向:Google 正把模型能力包装成端到端交互体验,而非单点 benchmark。需要保留判断的是 demo 场景通常经过选择,不能直接推断稳定性和失败率。

GTA 6 Developers Unionize33rockstarintel.com原文 ↗

rockstarintel.com

这条新闻属于游戏产业结构信号:顶级项目团队 unionize 会影响外包、加班、署名、远程政策和发布周期谈判。技术上不改变 GTA 6,但会改变大型 AAA 开发的组织约束。

博客文章 · Blog Posts

10 项 · 博客文章

Claude Opus 4.8: “a modest but tangible improvement”35simonwillison.net原文 ↗

simonwillison.net

这篇记录的价值在措辞:Anthropic 没有把 4.8 包装成断代升级,而是强调可感知但有限的质量提升。对技术读者来说,真正要看的是诚实性和 effort control 是否在实际任务中减少假进展。

llm-anthropic 0.25.136simonwillison.net原文 ↗

simonwillison.net

这是小版本更新,但对 CLI 用户很实用:模型发布后的真正可用性常取决于周边工具多快跟上。fast mode 暗示模型调用不只是“选哪个模型”,还包括推理努力和延迟成本的配置。

datasette 1.0a3137simonwillison.net原文 ↗

simonwillison.net

Datasette 的方向从“发布 SQLite 数据”走向更完整的数据应用运行时。写查询和 stored query 权限很敏感,因为它们把数据展示工具变成可变系统,权限边界和审计就必须更清楚。

Real-time LLM Inference on Standard GPUs: 3k tokens/s per request39blog.kog.ai原文 ↗

blog.kog.ai

这篇文章的技术看点是把低延迟解码推到 kernel 调度层:减少 kernel launch 和框架开销,尽量让生成过程常驻 GPU。需要谨慎比较的是模型大小、batch、量化、speculative decoding 与硬件配置,否则 tokens/s 数字不可横向复用。

Is AI causing a repeat of frontend’s lost decade?40mastrojs.github.io原文 ↗

mastrojs.github.io

这篇文章不是简单反 AI,而是把技术抽象和劳动分工放在一起看。它提醒我们:抽象层提高产能的同时,也会改变谁被认为有技能、谁能定价、谁承担质量后果。

We should be more tired than the model41vickiboykis.com原文 ↗

vickiboykis.com

这篇文章的观点适合对抗“模型很勤奋所以人可以松手”的错觉。AI 协作的瓶颈往往转移到人类判断:检查边界条件、识别不合逻辑的自信回答、决定何时停止自动化。

Where are the economies of scale in homebuilding?42construction-physics.com原文 ↗

construction-physics.com

这篇文章提供了一个反技术决定论案例:不是所有行业都能靠规模把成本压平。住宅建设的“产品”绑定地点、许可和本地劳动力,很多成本随项目重复仍不会像工厂零件一样快速下降。

On Rendering Diffs44pierre.computer原文 ↗

pierre.computer

diff UI 看似成熟,但细节很多:行内高亮、语法着色、折叠、冲突块、宽行、移动端和可访问性都会影响 review 质量。文章的价值在于把 diff 当成产品基础设施,而不是纯文本展示。

引用来源 · References

54 条 · 引用
  1. 1 PhoneWorld: Scaling Phone-Use Agent Environments. arXiv:2605.29486https://arxiv.org/abs/2605.29486 ↩ 回到正文 · back to text
  2. 2 Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents. arXiv:2605.29224https://arxiv.org/abs/2605.29224 ↩ 回到正文 · back to text
  3. 3 AIRGuard: Guarding Agent Actions with Runtime Authority Control. arXiv:2605.28914https://arxiv.org/abs/2605.28914 ↩ 回到正文 · back to text
  4. 4 Tiny-vLLMhttps://github.com/jmaczan/tiny-vllm ↩ 回到正文 · back to text
  5. 5 AISlophttps://github.com/scanaislop/aislop ↩ 回到正文 · back to text
  6. 6 VikingMem: A Memory Base Management System for Stateful LLM-based Applications. arXiv:2605.29640https://arxiv.org/abs/2605.29640 ↩ 回到正文 · back to text
  7. 7 Entity-Collision: A Stratified Protocol for Attributing Retrieval Lift in Agent Memory. arXiv:2605.29630https://arxiv.org/abs/2605.29630 ↩ 回到正文 · back to text
  8. 8 SkillsInjector: Dynamic Skill Context Construction for LLM Agents. arXiv:2605.29794https://arxiv.org/abs/2605.29794 ↩ 回到正文 · back to text
  9. 9 Notation Matters: A Benchmark Study of Token-Optimized Formats in Agentic AI Systems. arXiv:2605.29676https://arxiv.org/abs/2605.29676 ↩ 回到正文 · back to text
  10. 10 LogDx-CI: Benchmarking Log Reduction Tools for LLM Root-Cause Diagnosis. arXiv:2605.28876https://arxiv.org/abs/2605.28876 ↩ 回到正文 · back to text
  11. 11 AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation. arXiv:2605.12925https://arxiv.org/abs/2605.12925 ↩ 回到正文 · back to text
  12. 12 GroundAct: Can LLM Agents Ground Actions in Environmental States?. arXiv:2508.05614https://arxiv.org/abs/2508.05614 ↩ 回到正文 · back to text
  13. 13 How Consistent Are LLM Agents? Measuring Behavioral Reproducibility in Multi-Step Tool-Calling Pipelines. arXiv:2605.28840https://arxiv.org/abs/2605.28840 ↩ 回到正文 · back to text
  14. 14 Governing Technical Debt in Agentic AI Systems. arXiv:2605.29129https://arxiv.org/abs/2605.29129 ↩ 回到正文 · back to text
  15. 15 Mirahttps://github.com/Heidar-An/Mira ↩ 回到正文 · back to text
  16. 16 airtophttps://github.com/yeet-src/airtop ↩ 回到正文 · back to text
  17. 17 MLPicohttps://github.com/GiorgosXou/MLPico ↩ 回到正文 · back to text
  18. 18 P2P proof of concept for ACP decentralized agent communicationhttps://github.com/skorotkiewicz/acp-p2p ↩ 回到正文 · back to text
  19. 19 theta-spechttps://github.com/tamarillo-ai/theta-spec ↩ 回到正文 · back to text
  20. 20 textsnaphttps://github.com/kouhxp/textsnap ↩ 回到正文 · back to text
  21. 21 Agent Memory Guardhttps://github.com/OWASP/www-project-agent-memory-guard ↩ 回到正文 · back to text
  22. 22 Claude-code-replayhttps://github.com/glebmish/claude-code-replay ↩ 回到正文 · back to text
  23. 23 Promptloophttps://github.com/Bella3202019/promptloop ↩ 回到正文 · back to text
  24. 24 Elementalhttps://github.com/fynyky/elemental ↩ 回到正文 · back to text
  25. 25 OpenAI: A shared playbook for trustworthy third party evaluationshttps://openai.com/index/trustworthy-third-party-evaluations-foundations ↩ 回到正文 · back to text
  26. 26 OpenAI: Strengthening societal resilience with Rosalind Biodefensehttps://openai.com/index/strengthening-societal-resilience-with-rosalind-biodefense ↩ 回到正文 · back to text
  27. 27 How Braintrust turns customer requests into code with Codexhttps://openai.com/index/braintrust ↩ 回到正文 · back to text
  28. 28 Liquid AI reveals 8B-A1B MoE trained on 38Thttps://www.liquid.ai/blog/lfm2-5-8b-a1b ↩ 回到正文 · back to text
  29. 29 9 demos of Gemini Omni and Gemini 3.5 in actionhttps://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-3-5-videos/ ↩ 回到正文 · back to text
  30. 30 Blue Origin's New Glenn rocket exploded during a static fire testhttps://arstechnica.com/space/2026/05/blue-origins-new-glenn-rocket-just-exploded-during-a-static-fire-test/ ↩ 回到正文 · back to text
  31. 31 Undisclosed addition in jqwik instructed AI coding agents to delete app outputhttps://arstechnica.com/security/2026/05/fed-up-with-vibe-coders-dev-sneaks-data-nuking-prompt-injection-into-their-code/ ↩ 回到正文 · back to text
  32. 32 Robinhood now lets your AI agents trade stockshttps://techcrunch.com/2026/05/27/robinhood-now-lets-your-ai-agents-trade-stocks/ ↩ 回到正文 · back to text
  33. 33 GTA 6 Developers Unionizehttps://rockstarintel.com/gta-6-developers-announce-rockstar-games-union/ ↩ 回到正文 · back to text
  34. 34 The California state assembly has passed the “Protect Our Games Act”https://www.invenglobal.com/articles/22330/stop-killing-games-movement-gains-momentum-california-assembly-passes-game-protection-bill ↩ 回到正文 · back to text
  35. 35 Claude Opus 4.8: “a modest but tangible improvement”https://simonwillison.net/2026/May/28/claude-opus-4-8/#atom-everything ↩ 回到正文 · back to text
  36. 36 llm-anthropic 0.25.1https://simonwillison.net/2026/May/28/llm-anthropic/#atom-everything ↩ 回到正文 · back to text
  37. 37 datasette 1.0a31https://simonwillison.net/2026/May/29/datasette/#atom-everything ↩ 回到正文 · back to text
  38. 38 Claude Code: Everything you can configure that the docs don’t tell youhttps://buildingbetter.tech/p/i-read-the-claude-code-source-code ↩ 回到正文 · back to text
  39. 39 Real-time LLM Inference on Standard GPUs: 3k tokens/s per requesthttps://blog.kog.ai/real-time-llm-inference-on-standard-gpus-3-000-tokens-s-per-request/ ↩ 回到正文 · back to text
  40. 40 Is AI causing a repeat of frontend’s lost decade?https://mastrojs.github.io/blog/2026-05-23-is-AI-causing-a-repeat-of-frontends-lost-decade/ ↩ 回到正文 · back to text
  41. 41 We should be more tired than the modelhttps://vickiboykis.com/2026/05/28/we-should-be-more-tired-than-the-model/ ↩ 回到正文 · back to text
  42. 42 Where are the economies of scale in homebuilding?https://www.construction-physics.com/p/where-are-the-economies-of-scale ↩ 回到正文 · back to text
  43. 43 SQLite is all you need for durable workflowshttps://obeli.sk/blog/sqlite-is-all-you-need-for-durable-workflows/ ↩ 回到正文 · back to text
  44. 44 On Rendering Diffshttps://pierre.computer/writing/on-rendering-diffs ↩ 回到正文 · back to text
  45. 45 microsoft/markitdownhttps://github.com/microsoft/markitdown ↩ 回到正文 · back to text
  46. 46 OpenMOSS/MOSS-TTShttps://github.com/OpenMOSS/MOSS-TTS ↩ 回到正文 · back to text
  47. 47 anthropics/claude-codehttps://github.com/anthropics/claude-code ↩ 回到正文 · back to text
  48. 48 microsoft/RAMPARThttps://github.com/microsoft/RAMPART ↩ 回到正文 · back to text
  49. 49 mastra-ai/mastrahttps://github.com/mastra-ai/mastra ↩ 回到正文 · back to text
  50. 50 firecrawl/firecrawlhttps://github.com/firecrawl/firecrawl ↩ 回到正文 · back to text
  51. 51 run-llama/liteparsehttps://github.com/run-llama/liteparse ↩ 回到正文 · back to text
  52. 52 git-ai-project/git-aihttps://github.com/git-ai-project/git-ai ↩ 回到正文 · back to text
  53. 53 ryoppippi/ccusagehttps://github.com/ryoppippi/ccusage ↩ 回到正文 · back to text
  54. 54 anthropics/skillshttps://github.com/anthropics/skills ↩ 回到正文 · back to text