每日 Harness 开源 · Source
全部刊期 · All issues

每日 Harness

2026-05-31 · Sunday, May 31, 2026

智能体工程化加速

视图 · View

今日重点 · Today's Highlights

LiteParse2 - 本地 Rust 文档解析栈,重点不是端到端理解,而是稳定输出 spatial text、bounding boxes、截图和 JSON/Text。

全文 ↓

stable-worldmodel3 - world model 研究的统一实验接口,把采集、训练、MPC 评估和数据格式基准放在同一平台。

全文 ↓

ESM4 - 蛋白 biology world model 代码库同时放出 ESMC、ESMFold2、ESM Atlas 和 SAE 可解释层。

全文 ↓

Openrsync5 - OpenBSD base 中的 rsync 兼容实现,价值在于 BSD/ISC 许可、协议文档化和便携 C 代码。

全文 ↓

论文 · Papers

0 项 · 论文

开源 / 项目 · Projects

15 项 · 开源 / 项目

本期重点Formally verified polygon intersection - Opus 4.8 oneshots, prev failed1github.com原文 ↗

github.com

这个项目用 Lean 4 形式化描述 multipolygon intersection 的规格,并验证算法输出的内部点集确实等于两个输入内部点集的交集。README 里最有信息量的地方不是“AI 写了代码”,而是信任边界:人类只需审阅 DataStructures、Defs 和 precondition-check algorithm 相关的 3 个规格文件,约 87 行 Lean,再运行 checker。局限也写得清楚:为便于证明,AI 生成实现可能牺牲性能和实际工程考量,下一步是优化性能和简化证明。

A Claude Code skill that scopes problems like Peter Naur6github.com原文 ↗

Cartographer skill 把 coding request 前置成 problem-theory 产物,而不是直接进入方案设计。它要求 agent 先写 World、Actors、Program correspondence、Known、Assumed、Thin spots 等字段,并把每个需求追溯到现实世界中的对应关系。值得看的是它把“需求澄清”变成可检查 artifact,适合领域模型薄、误解成本高的任务。

VT Code - open-source terminal coding agent in Rust7github.com原文 ↗

VT Code 是 Rust 写的终端 coding agent,定位是带 robust shell safety、代码理解和多 provider failover 的本地开发工具。README 列出 GitHub Copilot、OpenAI、Anthropic、Gemini、DeepSeek、OpenRouter、Ollama、LM Studio 等 provider,并支持 skills、foreground subagents、opt-in background subprocess、ripgrep/ast-grep 搜索和 Ghostty VT 快照。它值得看在于把 agent CLI 的“终端状态、工具搜索、provider 切换、子代理”都当作一等工程问题处理。

NoTime - a Firefox extension for one-sentence summaries8addons.mozilla.org原文 ↗

addons.mozilla.org

NoTime 是一个 Firefox 扩展,用一句话概括当前网页内容。它不是复杂研究项目,更像浏览器阅读流里的低摩擦摘要按钮。信息量主要在产品取舍:把摘要压到单句,牺牲细节换取快速页面判断。

I built an Android OS in the browser9mobilegym.dev原文 ↗

MobileGym 在浏览器中重建移动 OS 与日常 app,用于移动 GUI agent 的可验证、可并行训练和评测。项目页给出关键数字:28 个 app、416 个参数化任务模板,programmatic state judge 在发布检查中 0 false accept/reject,而 VLM judge 在同一类轨迹上有 10.2% 误判。它值得看是因为它把 GUI agent 的难点从“截图看起来像不像成功”改成结构化状态可读、可写、可 reset 的仿真问题。

Clinglang - A shorthand language for doctors to write structured cases10github.com原文 ↗

github.com

Clinlang 是面向临床病例记录的 shorthand DSL、解析器和编辑器。项目目标是让医生用更短的记法写病例,再把文本转成结构化 case,而不是事后从自由文本抽取。值得看的是它把医疗输入端的结构化问题前移到 DSL 设计,而不是完全依赖 NLP 后处理。

Totpgate - Single-packet authorization via TOTP11github.com原文 ↗

github.com

Totpgate 用 TOTP 做 single-packet authorization,属于独立 port knocking 工具。它的核心思路是用时间一次性口令控制服务暴露前的授权窗口,而不是让服务长期对外开放。值得看的是它把常见 TOTP 机制放进网络边界访问控制,适合讨论轻量防护和运维复杂度之间的权衡。

AI-org - org-mode powered by AI12ai-org.net原文 ↗

AI-org 是基于 opencode fork 的 org-mode 风格任务管理和 agenda 工具。它把 org-mode 的层级任务、agenda 和文本化工作流引入 agent 任务管理,而不是做一个聊天式待办列表。值得看的是它沿用了成熟个人信息管理模型,试图给 AI agent 更稳定的任务组织界面。

Pandoc Templates13pandoc-templates.org原文 ↗

pandoc-templates.org

pandoc-templates.org 是 Pandoc 模板目录站,提供按输出格式和文档类型过滤的索引。首页可筛选 LaTeX、PDF、HTML、DOCX、EPUB、PPTX、ODT、reveal.js 等格式,也列出 article、book、thesis、letter、CV、presentation 等文档类型,并展示 stars 与 last update。它值得看是因为 Pandoc 生态长期分散,这类目录能把“能不能直接拿来生成目标格式”变成可浏览的选择过程。

本期重点Openrsync: An implementation of rsync, by the OpenBSD team5github.com原文 ↗

github.com

openrsync 是 OpenBSD 团队维护的 rsync 兼容实现,仓库版本是 OpenBSD base 加便携性 glue。README 写明它测试对齐 rsync 3.1.3、支持 protocol 27,但只实现命令行参数子集,并把 canonical documentation 放在 openrsync(1)、rsync(5)、rsyncd(5) 手册页。它值得看是因为 rsync 协议实现难点不在 UI,而在兼容性、协议细节和许可边界。

Helios - what plug-in solar could generate for any address in Britain14helios.southlondonscientific.com原文 ↗

helios.southlondonscientific.com

Helios 用英国政府 LIDAR 数据估算地址级 plug-in solar 发电潜力。它把一个通常需要专业评估的屋顶/日照问题转成面向公众的地址查询。值得看的是数据产品形态:高分辨率地理数据、能源估算和消费者级决策界面结合在一起。

Tokentoll, a CI gate for LLM API cost regressions15github.com原文 ↗

可观测性与调试系统·基础设施

tokentoll 是 LLM API 调用成本的 CI gate,静态扫描 Python、JavaScript 和 TypeScript 中的模型调用并在 PR 上给 PASS/WARN/FAIL。README 示例规则包括月度成本增量 250 美元、单 callsite 月成本 100 美元、相对增长 5x,并支持 OpenAI、Anthropic、Google GenAI、LiteLLM、LangChain、Vercel AI SDK 等模式。它值得看是因为 LLM 成本从运维账单问题变成代码 review 问题,适合进入工程治理链路。

Ego lite - why our browser agent writes JavaScript not CLI commands16github.com原文 ↗

ego-lite 是面向人和 agent 并行工作的浏览器,agent 在独立 Space 中通过 `ego-browser` 操作页面。README 的核心设计是暴露 snapshot、fill、click、wait、navigate、capture 等 in-page JavaScript 工具,让 agent 组合 JS 任务,而不是多轮 CLI 调用;项目称复杂任务最多快 2.5 倍。值得看的是它把 browser automation 从“外部驱动浏览器”改成“共享浏览器内的可编程 workspace”。

DropLock - E2EE secret sharing web app with no backend17droplock.apitman.com原文 ↗

droplock.apitman.com

DropLock 是无后端的端到端加密 secret sharing Web 应用。它的价值在于把 secret 处理留在浏览器侧,不让后端成为秘密存储或中转可信方。信息较少,但这个形态适合临时凭据分享、一次性密文传递和轻量安全工具讨论。

React-Rewrite - A visual editor for React that writes code, no LLM18github.com原文 ↗

github.com

react-rewrite 在本地 React dev server 前开启 proxy 并注入 overlay,让开发者可视化编辑正在运行的 UI,再把确认后的改动写回源码。README 列出元素选择、组件名/文件路径/行号检查、Tailwind 布局/间距/尺寸/字体/颜色编辑、双击改文案、复制粘贴、删除、兄弟节点重排等能力,要求 Node 20+、React 18+。它值得看是因为“不用 LLM 写代码”反而让变更路径更可控:可视编辑器直接对应源文件 transform。

行业动态 · Industry News

12 项 · 行业动态

Ember.js 7.019blog.emberjs.com原文 ↗

blog.emberjs.com

Ember 7.0 是一个主版本清理点,但发布说明明确说没有新增 public API,也没有新增 deprecation。它移除了 6.x 周期中 6.10 前引入并计划在 7.0 删除的 deprecated API,包括 `import Ember from 'ember'`、`ember-source` AMD bundles 发布、以及从 `@ember/service` 导入 `inject`。值得看的是 Ember 的大版本策略:用 major release 承接历史破坏性清理,而不是把新功能和迁移压力绑在一起。

WH proposes rules giving political appointees final approval on research grants20scientificamerican.com原文 ↗

scientificamerican.com

Scientific American 报道 OMB 的 412 页联邦支出规则提案会让政治任命官员对科研 grant 做最终审批。文中写到 peer review 将保持 advisory,不能替代 agency discretion;规则还会逐案限制国际合作、会议费用和出版费用,公众评论期为 45 天。值得看的是它改变的不是单个 grant,而是美国联邦科研资助的决策栈:专家评审被降级为建议层。

Proposed new US funding rules: We can cancel any grant at any time21arstechnica.com原文 ↗

arstechnica.com

Ars Technica 报道同一类 OMB 科研资助规则,重点是政府可更广泛地取消 grant。该条与 Scientific American 报道互相补足:一个强调最终审批权,一个强调终止权和自由裁量。值得看的是 grant 生命周期的两端都被政治化后,研究机构面对的不确定性会从申请阶段延伸到执行阶段。

Danish pension fund excludes SpaceX citing governance and valuation22reuters.com原文 ↗

reuters.com

Reuters 报道丹麦养老基金因治理和估值问题将 SpaceX 排除在投资组合外。该条不是技术产品新闻,而是机构资本对高估值私营科技公司的治理折价。值得看的是 SpaceX 这样的战略资产也会被 ESG、估值纪律和受托责任框架过滤。

Anthropic surpasses OpenAI to become most valuable AI startup23qazinform.com原文 ↗

qazinform.com

该报道称 Anthropic 估值超过 OpenAI,成为估值最高的 AI 创业公司。信息点主要在市场叙事:基础模型公司估值排序仍在快速变化,资本市场对收入质量、企业采用和安全定位的权重可能在重新分配。正文保持在市场估值叙事层面,不扩展具体融资条款。

OpenRouter raises $113M Series B24openrouter.ai原文 ↗

openrouter.ai

OpenRouter 宣布完成 1.13 亿美元 B 轮,由 CapitalG 领投,NVentures、ServiceNow Ventures、MongoDB Ventures、Snowflake Ventures、Databricks Ventures 等参投。公告给出的运营数字很具体:过去 6 个月周 token 量从 5 万亿增至 25 万亿,全年节奏超过 1 quadrillion tokens,并服务 800 万+开发者、400+模型。值得看的是它把多模型路由、可靠性、成本优化和合规包装成生产 AI 的中间层。

Corporate America Is Starting to Ration AI as Cost Skyrockets25wsj.com原文 ↗

wsj.com

WSJ 报道企业因 AI 使用成本上升开始限制内部 AI 工具调用。该条说明企业 AI 正从“鼓励试用”进入“预算、配额、审批、成本中心”阶段。值得看的是当 token 消耗变成真实边际成本,企业内部的 agent 和 copilot adoption 会受到 FinOps 式治理约束。

Downdetector and Speedtest sold to Accenture for $1.2B26theverge.com原文 ↗

theverge.com

The Verge 报道 Accenture 以 12 亿美元从 Ziff Davis 收购 Ookla,包含 Speedtest 和 Downdetector。文中称 Accenture 将利用 Ookla 的网络数据帮助企业和政府客户安全扩展 AI,交易仍需监管批准;Ziff Davis 在 2014 年收购 Ookla,后者还包括 Ekahau 和 RootMetrics。值得看的是网络测量数据正在从消费者工具资产变成 AI/cloud 基础设施咨询资产。

Canonical takes over Flutter desktop maintenance & roadmap27omgubuntu.co.uk原文 ↗

omgubuntu.co.uk

Google 在 I/O 2026 确认 Canonical 成为 Flutter desktop 在 Windows、macOS、Linux 上的 lead maintainer 和 strategic steward。报道还提到 Flutter desktop 新增 tooltips、content-sized views、多窗口和 dialog 支持,Material 与 Cupertino 设计库从 core SDK 移到独立包。值得看的是 Google 把桌面平台维护交给对 Linux desktop 有直接投入的 Canonical,同时让 Flutter core 更瘦。

EU fines Temu €200M for allowing sale of illegal products28news.ycombinator.com原文 ↗

news.ycombinator.com

HN 热帖讨论欧盟因非法商品销售问题对 Temu 开出 2 亿欧元罚款。该条的实质是平台责任从“下架响应”进一步转向“主动防止非法商品流通”。值得看的是跨境电商规模化后,推荐、商家准入、商品审核和处罚都被纳入监管对象。

GTA 6 Developers Unionize29news.ycombinator.com原文 ↗

news.ycombinator.com

HN 热帖讨论 GTA 6 开发者成立工会的消息。它反映 AAA 游戏开发中长期存在的 crunch、项目不确定性和劳动议价问题正在制度化。值得看的是工会化发生在顶级商业项目周边,会给大型游戏工作室的人力组织和发布节奏带来可观察影响。

Ernst & Young published cybersecurity report full of hallucinations30gptzero.me原文 ↗

gptzero.me

GPTZero 调查 EY Canada 一份 2025 年忠诚度项目网络安全报告,称其引用、统计和来源存在大量 hallucination。文章给出具体问题:资源表在第 41-43 页,几乎所有 URL 失效或伪造,超过半数标题找不到真实来源;同一个 $200B 数字在文中一会儿指全球忠诚积分市场,一会儿指未兑换积分。值得看的是“AI 幻觉”不再只是聊天答案质量问题,而会通过咨询报告污染搜索、媒体和后续 deep research 工具。

博客文章 · Blog Posts

9 项 · 博客文章

What Is a Dickover?31daringfireball.net原文 ↗

daringfireball.net

John Gruber 讨论 “Dickover” 一词及其在 Apple 相关讨论中的语境。该条更像语言和社区话语观察,而不是产品新闻。值得看的是技术社区如何通过半玩笑式词汇沉淀立场、讽刺和群体边界。

Various LLM Smells32news.ycombinator.com原文 ↗

news.ycombinator.com

这篇文章讨论 LLM 使用中的常见反模式和风险信号。核心价值在于给“哪里不该信 LLM”提供可命名的 smell,而不是停留在泛泛的谨慎建议。值得看的是 smell 语言能把团队审查从主观不安转成可讨论的工程清单。

Building durable workflows on Postgres33news.ycombinator.com原文 ↗

这篇工程文章讨论用 Postgres 构建 durable workflow。相关讨论集中在 checkpoint、agent 任务恢复、Postgres transaction 内 exactly-once 边界,以及与 Temporal/DBOS 等工作流系统的取舍。值得看的是它把 durable execution 从专用基础设施问题拉回到团队已经运维的数据库能力上。

Notes from the Mistral AI Now Summit35news.ycombinator.com原文 ↗

news.ycombinator.com

这篇笔记整理 Mistral AI Now Summit 的现场内容和发布信息。它的价值是把模型公司发布、产品方向、现场观察放在一篇连续记录中。值得看的是会议笔记常能捕捉正式公告之外的优先级:哪些能力被反复强调,哪些生态入口被推到台前。

Is AI causing a repeat of frontend’s lost decade?36news.ycombinator.com原文 ↗

news.ycombinator.com

文章把当前 AI 工具链变化与前端工程历史阶段作比较,讨论抽象层、构建链复杂度和开发者体验是否会重复走弯路。它不是反 AI,而是在提醒生态可能把短期生产力收益转换成长期维护复杂度。值得看的是它把 AI coding 的工具热潮放进前端工程曾经经历过的复杂性循环中审视。

How we contain Claude across products38simonwillison.net原文 ↗

Simon Willison 摘要 Anthropic 关于 Claude.ai、Claude Code 和 Cowork 沙箱隔离机制的说明。核心看点是同一模型在不同产品里对应不同执行风险,因此需要不同隔离边界、权限模型和环境控制。值得看的是 agent 产品安全不只是模型安全,还包括运行时、文件系统、网络和用户数据边界。

I Am Retiring from Tech to Live Offline39simonwillison.net原文 ↗

simonwillison.net

Simon Willison 转引并评论 Chad Whitacre 退出技术行业、转向离线生活的公开信。它不是技术教程,而是关于在线工作、注意力、职业身份和退出选择的个人文本。值得看的是它把“长期留在技术行业”这件事从默认路径变成可被重新评估的生活设计问题。

引用来源 · References

50 条 · 引用
  1. 1 Formally verified polygon intersection - Opus 4.8 oneshots, prev failedhttps://github.com/schildep/verified-polygon-intersection ↩ 回到正文 · back to text
  2. 2 LiteParse / run-llama/liteparsehttps://github.com/run-llama/liteparse ↩ 回到正文 · back to text
  3. 3 stable-worldmodel / galilai-group/stable-worldmodelhttps://github.com/galilai-group/stable-worldmodel ↩ 回到正文 · back to text
  4. 4 ESM / Biohub/esmhttps://github.com/Biohub/esm ↩ 回到正文 · back to text
  5. 5 Openrsync / kristapsdz/openrsynchttps://github.com/kristapsdz/openrsync ↩ 回到正文 · back to text
  6. 6 A Claude Code skill that scopes problems like Peter Naurhttps://github.com/spinchange/cartographer-skill/blob/main/skills/cartographer/SKILL.md ↩ 回到正文 · back to text
  7. 7 VT Code - open-source terminal coding agent in Rusthttps://github.com/vinhnx/VTCode ↩ 回到正文 · back to text
  8. 8 NoTime - a Firefox extension for one-sentence summarieshttps://addons.mozilla.org/en-US/firefox/addon/no-time/ ↩ 回到正文 · back to text
  9. 9 I built an Android OS in the browser / MobileGymhttps://mobilegym.dev/ ↩ 回到正文 · back to text
  10. 10 Clinglang - A shorthand language for doctors to write structured caseshttps://github.com/ppnpm/clinlang ↩ 回到正文 · back to text
  11. 11 Totpgate - Single-packet authorization via TOTPhttps://github.com/PepperDev/totpgate ↩ 回到正文 · back to text
  12. 12 AI-org - org-mode powered by AIhttps://ai-org.net/ ↩ 回到正文 · back to text
  13. 13 Pandoc Templateshttps://pandoc-templates.org/ ↩ 回到正文 · back to text
  14. 14 Helios - what plug-in solar could generate for any address in Britainhttps://helios.southlondonscientific.com/ ↩ 回到正文 · back to text
  15. 15 Tokentoll, a CI gate for LLM API cost regressionshttps://github.com/Jwrede/tokentoll ↩ 回到正文 · back to text
  16. 16 Ego lite - why our browser agent writes JavaScript not CLI commandshttps://github.com/CitroLabs/ego-lite ↩ 回到正文 · back to text
  17. 17 DropLock - E2EE secret sharing web app with no backendhttps://droplock.apitman.com/ ↩ 回到正文 · back to text
  18. 18 React-Rewrite - A visual editor for React that writes code, no LLMhttps://github.com/donghaxkim/react-rewrite ↩ 回到正文 · back to text
  19. 19 Ember.js 7.0https://blog.emberjs.com/ember-released-7-0/ ↩ 回到正文 · back to text
  20. 20 WH proposes rules giving political appointees final approval on research grantshttps://www.scientificamerican.com/article/white-house-proposes-new-rules-giving-political-appointees-final-say-on-research-grants/ ↩ 回到正文 · back to text
  21. 21 Proposed new US funding rules: We can cancel any grant at any timehttps://arstechnica.com/science/2026/05/the-office-of-management-and-budget-tries-again-to-cripple-us-science/ ↩ 回到正文 · back to text
  22. 22 Danish pension fund excludes SpaceX citing governance and valuationhttps://www.reuters.com/legal/transactional/danish-pension-fund-excludes-spacex-citing-governance-valuation-2026-05-29/ ↩ 回到正文 · back to text
  23. 23 Anthropic surpasses OpenAI to become most valuable AI startuphttps://qazinform.com/news/anthropic-surpasses-openai-to-become-worlds-most-valuable-ai-startup ↩ 回到正文 · back to text
  24. 24 OpenRouter raises $113M Series Bhttps://openrouter.ai/announcements/series-b ↩ 回到正文 · back to text
  25. 25 Corporate America Is Starting to Ration AI as Cost Skyrocketshttps://www.wsj.com/tech/ai/corporate-america-is-starting-to-ration-ai-as-cost-skyrockets-1eb99d7a ↩ 回到正文 · back to text
  26. 26 Downdetector and Speedtest sold to Accenture for $1.2Bhttps://www.theverge.com/tech/889234/downdetector-ookla-speedtest-sold-accenture ↩ 回到正文 · back to text
  27. 27 Canonical takes over Flutter desktop maintenance & roadmaphttps://www.omgubuntu.co.uk/2026/05/flutter-desktop-canonical-maintained ↩ 回到正文 · back to text
  28. 28 EU fines Temu €200M for allowing sale of illegal productshttps://news.ycombinator.com/item?id=48309302 ↩ 回到正文 · back to text
  29. 29 GTA 6 Developers Unionizehttps://news.ycombinator.com/item?id=48324499 ↩ 回到正文 · back to text
  30. 30 Ernst & Young published cybersecurity report full of hallucinationshttps://gptzero.me/investigations/ey ↩ 回到正文 · back to text
  31. 31 What Is a Dickover?https://daringfireball.net/2026/05/what_is_a_dickover ↩ 回到正文 · back to text
  32. 32 Various LLM Smellshttps://news.ycombinator.com/item?id=48313810 ↩ 回到正文 · back to text
  33. 33 Building durable workflows on Postgreshttps://news.ycombinator.com/item?id=48313530 ↩ 回到正文 · back to text
  34. 34 SQLite is all you need for durable workflowshttps://news.ycombinator.com/item?id=48326802 ↩ 回到正文 · back to text
  35. 35 Notes from the Mistral AI Now Summithttps://news.ycombinator.com/item?id=48325340 ↩ 回到正文 · back to text
  36. 36 Is AI causing a repeat of frontend’s lost decade?https://news.ycombinator.com/item?id=48321631 ↩ 回到正文 · back to text
  37. 37 Running Python ASGI apps in the browser via Pyodide + a service workerhttps://simonwillison.net/2026/May/30/pyodide-asgi-browser/#atom-everything ↩ 回到正文 · back to text
  38. 38 How we contain Claude across productshttps://simonwillison.net/2026/May/30/how-we-contain-claude/#atom-everything ↩ 回到正文 · back to text
  39. 39 I Am Retiring from Tech to Live Offlinehttps://simonwillison.net/2026/May/30/retiring-from-tech-to-live-offline/#atom-everything ↩ 回到正文 · back to text
  40. 40 anthropics/claude-codehttps://github.com/anthropics/claude-code ↩ 回到正文 · back to text
  41. 41 cursor/pluginshttps://github.com/cursor/plugins ↩ 回到正文 · back to text
  42. 42 Crosstalk-Solutions/project-nomadhttps://github.com/Crosstalk-Solutions/project-nomad ↩ 回到正文 · back to text
  43. 43 millionco/react-doctorhttps://github.com/millionco/react-doctor ↩ 回到正文 · back to text
  44. 44 OpenBMB/VoxCPMhttps://github.com/OpenBMB/VoxCPM ↩ 回到正文 · back to text
  45. 45 PaddlePaddle/PaddleOCRhttps://github.com/PaddlePaddle/PaddleOCR ↩ 回到正文 · back to text
  46. 46 opendatalab/MinerUhttps://github.com/opendatalab/MinerU ↩ 回到正文 · back to text
  47. 47 ai-boost/awesome-harness-engineeringhttps://github.com/ai-boost/awesome-harness-engineering ↩ 回到正文 · back to text
  48. 48 GH05TCREW/pentestagenthttps://github.com/GH05TCREW/pentestagent ↩ 回到正文 · back to text
  49. 49 ogulcancelik/herdrhttps://github.com/ogulcancelik/herdr ↩ 回到正文 · back to text
  50. 50 SaladDay/cc-switch-clihttps://github.com/SaladDay/cc-switch-cli ↩ 回到正文 · back to text