4.1 工具使用Tool Use

本主题共 79 条 · 最早 2026-05-29 · 最新 2026-07-25

视图 · View

2026 年 7 月33

oraios/serena
Serena 通过语言服务器与符号级代码分析，为编码 Agent 提供查找定义、引用关系、结构化编辑和重构能力，并可作为 MCP Server 接入多种客户端。它避免让模型反复读取整文件，转而围绕类、函数和符号关系操作代码。仓库同时支持多语言与项目记忆，定位更接近“Agent 的 IDE 后端”而非又一个聊天界面。
Trending2026-07-25github.com原文 ↗
–
CockroachCrawler
CockroachCrawler 将普通 HTTP 抓取、浏览器自动化、PDF 解析、正文抽取和 MCP 接口打包到一套工具链中。调用方可以按页面复杂度在轻量请求与完整浏览器之间切换，并把结果交给 Agent 继续处理。统一接口减少了多种爬取组件的胶水代码，但部署时仍需处理站点条款、限速与不受信任页面内容。
Project2026-07-25github.com原文 ↗
–
Browser Bridge
Browser Bridge 通过 Chrome DevTools Protocol 和 MCP，把用户已经登录的浏览器会话暴露给 Claude Code、Codex 等 Agent。工具支持页面导航、DOM/可访问性快照、点击、输入、截图、标签页和网络请求检查，并可选择仅允许本地连接。与启动隔离浏览器不同，它能复用真实 cookie 与登录状态，因此便利性很高，权限边界也必须按本机高信任工具处理…
Project2026-07-25github.com原文 ↗
–
Decode-Time Grammars
Decode-Time Grammars 让调用方在生成过程中逐步提供语法片段，把语法约束从固定编译产物变成可组合的解码接口。模型无需针对每门 DSL 重新训练，就能在 token 级屏蔽非法续写；实验覆盖低资源语言、专用 API 和多种模型，显示严格语法能显著提升可解析率，但语义正确性仍取决于模型本身。
Paper2026-07-24arxiv.org原文 ↗
–
Browser Tools SDK
Browser Tools SDK 为智能体提供真实浏览器会话中的导航、DOM 读取、点击、输入、截图与网络观察能力，并以 TypeScript 工具接口暴露。它强调让 agent 操作实际网页而非简化模拟环境，适合端到端测试和网页任务执行。真实浏览器提高了行为保真度，也意味着权限隔离、凭据保护和页面注入必须纳入部署设计。
Project2026-07-23libretto.sh原文 ↗
–
moonshine-ai/moonshine
Moonshine 把 ASR、意图识别和 TTS 组合成低延迟语音接口工具包，目标是支持持续对话式代理，而非只生成一份音频转写。集成式设计有利于共同优化首字延迟、打断处理和端点检测，也方便在本地设备上避免多服务往返。项目的实际竞争力需要用端到端延迟、噪声鲁棒性、语言覆盖和长时间流式稳定性衡量，而不能只看单个识别模型分数。
Trending2026-07-22github.com原文 ↗
–
Glass
Glass 不是把截图能力简单包装成 MCP，而是提供应用启动、视觉捕获、输入注入、日志读取和画面变化检测的一整套闭环。由于从外部驱动 GUI，它不要求项目采用特定框架，并已覆盖 X11、Wayland、Windows、Android AVD、iOS Simulator 与 macOS。跨平台抽象很有吸引力，但黑盒视觉检查天然比 DOM 或可访问性树更脆弱，实际可靠性取决于后端能否提供稳定的结构化…
Project2026-07-22github.com原文 ↗
–
Reverse-engineering is cheap now
Simon Willison 记录 coding agents 如何降低家用设备逆向工程和自动化脚本编写成本。核心变化是，抓包、读协议、试错脚本和控制自动化不再全部依赖人工长时间摸索，agent 可以快速生成候选解释与工具代码。这个变化会扩大逆向工程的参与人群，同时也会让设备厂商更难依赖“接口不公开所以没人会用”这一隐性壁垒。
Blog2026-07-21simonwillison.net原文 ↗
–
Hail.so - Open-source phone, SMS and email for agents and humans, v0.15
Hail 把电话、SMS、email 包成 agent 可调用通信平台，当前定位是 outbound first、inbound next、自托管 AGPLv3。自托管 quickstart 需要 Twilio、LiveKit Cloud、Deepgram、Cartesia，以及 OpenAI/Gemini/Anthropic 之一；agent 可以通过 HTTP API 或 MCP endpoi…
Project2026-07-21github.com原文 ↗
–
KnockOutEZ/wigolo
wigolo 是面向 AI coding agent 的本地优先搜索、抓取、爬取和研究 MCP 工具。digest 强调它把 research 能力做成 agent 可调用的 MCP server/tool，而不是依赖远端浏览器服务。组合点包括本地搜索、网页抓取、爬取上下文，并把结果返回给 coding agent 使用。它适合补上 agent 在“查资料”环节的工具缺口，尤其是在希望浏览过程留在…
Trending2026-07-20github.com原文 ↗
–
A schema you change by talking to it, without the model writing SQL
mutable-crm 做的是一个可通过自然语言修改 schema 和 UI 的 CRM 原型，但它把 LLM 的权限限制在 typed tools 上，而不是让模型直接生成 SQL。README 明确列出四个 schema 工具：`createTables`、`addColumn`、`renameColumn`、`changeColumnType`；没有 drop 工具，模型也只看表名、列名和类…
Project2026-07-20github.com原文 ↗
–
stripe/ai
stripe/ai 提供把 Stripe billing 接入 LLM 和 agent 框架的 SDK 与示例。它将支付、订阅、计费和工具调用连接起来，使 AI 应用可以查询账单、执行商业流程或接入用量计费。项目看点在于 Stripe 把自己放进 agent 工具生态，而不只是提供传统 REST API 文档。
Trending2026-07-16github.com原文 ↗
–
StyleSeed
StyleSeed 是给 AI agent 使用的设计规则引擎，用规则约束 UI 生成结果。它不是组件库，而是把品牌、布局、色彩和交互偏好编码成 agent 可执行约束。项目的核心在于减少生成式 UI 的随机漂移，让同一产品的多个界面保持一致视觉语言。
Project2026-07-16github.com原文 ↗
–
Nable
Nable 是本地优先的 cloud/AI cost intelligence MCP 工具，聚合账单并暴露成本分析能力。它把成本查询接入 agent 工作流，使开发者可以在同一个对话或 IDE 环境里追问云资源、AI 用量和费用异常。这个方向反映出 FinOps 正在从仪表盘向可操作工具接口迁移。
Project2026-07-16github.com原文 ↗
–
Designing Agent-Ready Websites for AI Web Agents
这篇论文把问题从“训练更聪明的 Web agent”转向“网页是否适合 agent 操作”，提出 agent-ready website 框架。作者用机器可读性、可执行性和决策可靠性三个维度描述站点应暴露的结构与语义。它的看点在于把 Web agent 出错的一部分原因放回网站设计，给未来的页面标注、交互状态和任务接口提出了工程化要求。
Paper2026-07-16arxiv.org原文 ↗
–
Aict
Aict 提供一组面向 AI agent 的 Unix coreutils 风格命令，并输出 XML/JSON 结构化数据。它保留 shell 小工具可组合的优势，但把表格、错误和字段变成模型更容易解析的格式。这个思路非常工程化：与其让 agent 猜普通 CLI 输出，不如给它稳定的机器接口。
Project2026-07-16github.com原文 ↗
–
OpenCut-app/OpenCut
OpenCut 是开源视频编辑器，目标覆盖 Web、desktop 和 mobile。digest 还提到 headless 与 MCP server 模式规划，说明项目希望把剪辑能力开放给自动化和 agent，而不只是提供人工界面。它位于多端创作工具与可编排媒体引擎的交界处。
Trending2026-07-15github.com原文 ↗
–
Skyvern-AI/skyvern
Skyvern 用 LLM 和 computer vision 自动化浏览器工作流，并提供 Playwright-compatible SDK。它区别于固定选择器脚本的地方，是让模型根据页面视觉和状态决定下一步动作。浏览器自动化一旦进入真实后台系统，验证、回滚和人类审批会成为与识别能力同等重要的部分。
Trending2026-07-13github.com原文 ↗
–
ChatGPT Work
OpenAI 介绍 ChatGPT Work，面向企业工作流提供云端与桌面端能力。条目强调它服务于实际工作任务、工具连接和跨应用操作，而不是只作为网页版问答入口。值得注意的是产品叙事从“聊天”继续转向“工作代理层”，这会影响企业权限、数据边界和审计需求。
News2026-07-11openai.com原文 ↗
–
iOfficeAI/OfficeCLI
OfficeCLI 是面向 AI agents 的 Office 文件读写与自动化 CLI，覆盖 Word、Excel 和 PowerPoint。README 强调它是 open-source、single binary、no Office installation、no dependencies，并内置 HTML rendering engine，可把 `.docx`、`.xlsx`、`.ppt…
Trending2026-07-09始 2026-07-07github.com原文 ↗
–
GPT‑Live
OpenAI 发布 GPT-Live，把 ChatGPT Voice 的语音交互从 turn-based 模式推进到 full-duplex continuous interaction：模型可以同时听和说，并在每秒多次决定继续听、暂停、插话或调用工具。它还把连续对话层和深度工作层解耦，遇到搜索、推理或更 agentic 的任务时委托给 GPT-5.5，同时保持语音流不断。公告称 GPT-Live…
News2026-07-09openai.com原文 ↗
–
The Remarkable Effectiveness of Providing AI Agents with Natural Language Tools
论文比较自然语言工具和结构化工具调用在多模型上的表现，核心发现是工具接口形式本身会显著影响 agent 能力。自然语言工具把能力描述成模型熟悉的文本语境，在一些任务上可接近甚至优于严格 schema。它挑战了“结构化调用一定更可靠”的默认假设，尤其适合重新审视工具 API 设计。
Paper2026-07-08arxiv.org原文 ↗
–
Docx-CLI
Docx-CLI 提供命令行方式读取和编辑 Word `.docx` 文档，目标用户明确包括 agent。它让模型或脚本能检查文档结构、正文和段落并执行修改，而不用依赖 Word GUI 或脆弱的手工复制。这个项目的实用点在办公自动化：很多 agent 能处理纯文本，却卡在真实文档格式上。
Project2026-07-08github.com原文 ↗
–
Open-source phone calling infra for AI agents
AgentLine 是给 AI agents 使用的开源电话呼叫基础设施，目标是让 agent 能发起、接听和管理真实电话交互。它把电话号码接入、实时音频、转写和 agent 状态管理纳入同一条链路，而不是只做离线语音识别 demo。这个项目说明 LLM 工具调用正在进入传统通信网络，工程难点会从 prompt 转向延迟、失败恢复、通话状态和合规记录。
Project2026-07-06github.com原文 ↗
–
Better Models: Worse Tools
Armin Ronacher 描述更强模型在结构化工具调用中生成 schema 之外参数的问题。这个现象说明模型对任务理解更强时，可能更主动推断隐含字段或补充参数，反而破坏工具协议的严格契约。文章把注意力放在接口边界上：工具层需要校验、拒绝和反馈机制，而不是默认相信模型会因为能力提升就更守规矩。
Blog2026-07-06lucumr.pocoo.org原文 ↗
–
Scopewalker
Scopewalker 是本地只读 MCP server，为 agent 提供代码行数、复杂度、嵌套深度和参数数量等指标。它通过工具调用把代码库形状暴露给模型，帮助 agent 在重构或审查前判断风险区域。这个项目的亮点是克制：只读指标不会替模型做决定，却能减少模型对代码规模和复杂度的主观猜测。
Project2026-07-04github.com原文 ↗
–
vas3k/TaxHacker
TaxHacker 是自托管 AI accounting 应用，面向 freelancer、indie hacker 和小企业的收据、发票、交易分析。README 描述上传照片、PDF 或 invoice 后，系统会抽取 product names、amounts、items、dates、merchants、taxes，并写入类似 Excel 的结构化数据库。可自定义字段和 prompt 的设计让…
Trending2026-07-03github.com原文 ↗
–
t8y2/dbx
DBX 是 15MB 级跨平台数据库客户端，支持桌面和 Docker 自托管，并带 built-in AI assistant。README 标称支持 60+ databases，包括 MySQL、PostgreSQL、SQLite、Redis、MongoDB、DuckDB、ClickHouse、SQL Server 等。它的卖点不是单个数据库能力，而是以小体积把多数据库管理、跨平台打包和 AI…
Trending2026-07-03github.com原文 ↗
–
getmaxun/maxun
Maxun 是开源 no-code 平台，用于 web scraping、crawling、search 和 AI data extraction，口号是把任意网站转成 structured API。README 指向 Web app、文档和教程，适合不想手写爬虫但需要结构化数据抽取的团队。页面还出现 residential proxy 赞助信息，提到 9000 万以上真实 IP 和 200 多个…
Trending2026-07-03github.com原文 ↗
–
Claude-real-video － any LLM can watch a video
这个工具把视频变成任何 LLM 都能消费的本地文件夹：关键帧、transcript 和 MANIFEST.txt，而不是只把视频链接交给模型。它用 scene-change detection 加 density floor 取代固定 1fps 抽帧，再用 sliding-window dedup 去掉重复镜头；默认 `--max-frames` 是 150，并可通过 Whisper 转写音频。工…
Project2026-07-03github.com原文 ↗
–
Can Agents Generalize to the Open World? Unveiling the Fragility of Static Training in Tool Use
OpenAgent 将 tool-use agent 的泛化问题形式化为 query、action、observation、domain 四个维度上的 distribution shift，而不是在固定工具集上看 leaderboard。作者构造受控 sandbox，并把扰动组织为 Perception、Interaction、Reasoning、Internalization 四层 hierar…
Paper2026-07-03arxiv.org原文 ↗
–
ttsc graph
`@ttsc/graph` 把 TypeScript compiler 看到的真实程序图暴露给 MCP agent：什么调用什么、什么依赖什么、每个符号在哪个文件和行。它的 MCP surface 是单工具 `inspect_typescript_graph`，返回 names、edges、signatures 和 spans，不返回源码正文，所以 graph 查询的 token cost 随仓库…
Project2026-07-02github.com原文 ↗
–
LUMOS: A Semantic Operating-System Layer for Accessibility-Grounded AI Agents
LUMOS 把操作系统与浏览器已有的 accessibility metadata 转换为 machine-readable semantic blueprints，包含 stable identifiers、roles、names、values、bounds 和 action affordances。agent 通过 constrained visible-UI primitives 做 obs…
Paper2026-07-02arxiv.org原文 ↗
–

2026 年 6 月42

browser-use/video-use
video-use 的目标是让 coding agents 编辑视频，把视频剪辑流程暴露给 agent，而不是让模型只生成脚本或建议。这个方向难点在可观察状态：agent 需要理解时间线、素材、剪切点、导出结果和视觉反馈，不能只依赖文本 diff。它出现在 Trending 里说明 agent 工具正在从代码库扩展到媒体生产工作流。
Trending2026-06-29github.com原文 ↗
–
alibaba/page-agent
page-agent 是阿里开源的 JavaScript in-page GUI agent，用自然语言控制网页界面。它可嵌入网页内部，而不是从外部驱动浏览器。这个位置差异很重要：页面内 agent 可以直接接触 DOM、组件状态和应用上下文，也更容易和产品权限、埋点、UI 状态机集成。它适合那些希望给已有 Web 应用加自然语言操作层的团队，而不是只做测试自动化。
Trending2026-06-29始 2026-06-27github.com原文 ↗
–
Peek-CLI
Peek-CLI 让 coding agents 能捕捉浏览器打开 tab 的截图，填补本地前端调试中“agent 看不到页面”的缺口。README 说明它通过浏览器扩展经 WebSocket 传输截图，本地 `peeked start` 启动 daemon，`peeked list` 列出 URL，`peeked at http://localhost:3000` 会保存截图文件。项目还提供 C…
Project2026-06-29github.com原文 ↗
–
Moumantai
Moumantai 是自托管 personal app runtime：服务器保存状态和业务逻辑，再根据浏览器、手机、手表或 ESP32 面板投射不同 face。README 的核心抽象是 “Schema. Tools. Faces.”：schema 管状态，tools 做变更，faces 只读展示；agent backend 不能直接改状态，只能请求服务器验证并执行工具。quick start…
Project2026-06-29github.com原文 ↗
–
Open Tag
Open Tag 是 CopilotKit 做的 Claude Tag 类开源实现，目标是把特定产品里的 tag 式交互抽成可复用项目。公开描述没有展开太多实现细节，但它处在一个明确趋势里：agent 应用开始需要更细粒度地标注上下文、目标对象和可操作区域。它可作为观察 CopilotKit 如何把 agent UI 交互组件化的入口。
Project2026-06-28github.com原文 ↗
–
every-app/open-seo
OpenSEO 是开源 Semrush/Ahrefs 替代，定位为可自托管、按 API 成本付费、可被 agent 调用的 SEO 工具。README 列出 keyword research、rank tracking、competitor insights、backlinks、site audits 和 AI visibility，并提供 MCP server 与 Claude Code/Ope…
Trending2026-06-27github.com原文 ↗
–
Computer use in Gemini 3.5 Flash
Google 介绍 Gemini 3.5 Flash 的 computer-use 能力，说明其产品线继续向可操作界面的 agent 执行层延伸。这条的重点是能力类别：模型不只是生成文本，还承担屏幕/应用操作。它与 GUI/CLI agent 论文形成呼应，行业正在把 computer use 从研究 demo 推进到主力模型功能。
News2026-06-27blog.google原文 ↗
–
corsairdev/corsair
Corsair 是面向 agents 的 unified integration layer，用来集中连接外部服务并控制权限。README 描述的模式是 agent 连接到 Corsair 实例后获得 integrations，但不直接看到 credentials，用户仍能控制它能做什么。它把 agent 集成问题拆成两层：外部服务连接由平台管理，动作权限由用户和策略收口。
Trending2026-06-24github.com原文 ↗
–
Caplets
Caplets 把 agent 能力拆成更小的 capability 单元，而不是把一整面工具墙交给模型。它的设计目标是按任务分发最小可用能力，使 agent 只拿到当前动作需要的权限。这个项目和 MCP/tool registry 生态相邻，但关注点更偏 capability packaging 与细粒度授权。
Project2026-06-24caplets.dev原文 ↗
–
Selector Forge
Selector Forge 是一个浏览器扩展，用 AI 生成 CSS/XPath selector，但最终正确性由 live DOM 验证。流程是用户选中页面元素，扩展发送目标、DOM 上下文和 seed candidates，后端生成和排序候选，浏览器逐个验证并回传结果；列表模式还会检查完整目标集合，拒绝 over-match 和 under-match。项目的核心设计是把 AI 限定为 pr…
Project2026-06-23github.com原文 ↗
–
GLM-5.2 is the step change for open agents
Nathan Lambert 评述 GLM-5.2 在开放 agent 能力上的表现和生态位置。文章的判断背景是开放模型能否在工具使用、长任务和 coding agent 工作流里承担真实负载，而不只是聊天和基准测试。它把 GLM-5.2 放进“开放模型是否开始具备可用 agent 栈”的讨论中。
Blog2026-06-23interconnects.ai原文 ↗
–
voicebox
Voicebox 把 voice cloning、TTS、dictation 和 agent voice output 放进一个本地优先应用。README 的功能密度很高：7 个 TTS engines、23 种语言、从几秒参考音频 zero-shot clone、50+ preset voices、全局 push-to-talk/toggle dictation、Whisper STT、REST…
Trending2026-06-22github.com原文 ↗
–
Rocannon
Rocannon 把 Ansible 资产直接反射成 MCP 工具：启动时读 `ansible-doc`，把安装的 module 和带 argument spec 的 role 变成带类型、默认值、choices 和安全提示的 LLM-callable tool。它不是只做自然语言 wrapper，README 还强调 session 可以录制成 `.rocannon/playbooks/` 下的…
Project2026-06-22github.com原文 ↗
–
Project Fetch: Phase Two
Anthropic 复盘 Project Fetch 时把机器人任务拆成连接视频、连接 lidar、程序控制、路径监控、检测 beach ball 等阶段，让 Claude Opus 4.7 在 Claude Code 中跑三次，研究员只负责插线、输入初始 prompt、批准命令和任务切换。结果最醒目的数字是：四个所有团队都完成的任务里，Opus 4.7 平均 9 分 35 秒完成，而原先 Tea…
News2026-06-22anthropic.com原文 ↗
–
Nori Browser
Nori Browser 把“人看的浏览器”和“agent 脚本化的浏览器”合成同一个 Electron 应用：侧栏运行 Claude Code 或 shell，页面本身是可通过 CDP 暴露的 Chromium。README 写明默认 CDP port 是 `19222`，agent 用 Playwright `connectOverCDP` 控制用户正在看的同一组页面，而不是走 MCP 工具或…
Project2026-06-22github.com原文 ↗
–
palmier-io/palmier-pro
Palmier Pro 是面向 macOS 的开源 AI 视频编辑器，要求 macOS 26 Tahoe 和 Apple Silicon。README 说它从 Swift 原生实现，north star 是 Premiere Pro，但把生成式 AI 放进 timeline：可用 Seedance、Kling、Nano Banana Pro 等模型生成视频和图片，并通过 MCP 连接 Claude…
Trending2026-06-21github.com原文 ↗
–
Quikdown
Quikdown 针对的不是完整 CommonMark 或 ProseMirror 替代，而是“Markdown 仍是 source of truth，但用户能编辑源文本或渲染侧”的轻量文档面。README 给出的核心 parser 大约 15-17KB、零运行时依赖，双向模块约 20KB，editor 约 98KB；rich fence 覆盖 Mermaid、MathJax、GeoJSON、ST…
Project2026-06-21github.com原文 ↗
–
Namecom-CLI
Namecom-CLI 是把 Name.com DNS/domain 管理做成 agent-friendly CLI：`--json` 覆盖所有命令，`commands` introspection 让 agent 能发现可用 surface，`records set` 采用 create-or-update 语义避免自动化重复记录。README 还把安全细节写得比较实用：凭据优先走 macOS…
Project2026-06-21github.com原文 ↗
–
OpenTunnel - Run Remote Commands as Local Agent Tool Calls
OpenTunnel 把远程命令包装成本地代理工具调用，让代理可以在本地接口下触发远端执行。这个设计适合处理本地模型或本地代理需要操作远端环境的场景，同时保留工具调用的统一形态。它的技术边界在权限和审计：远程命令一旦进入代理工具层，就需要清楚定义可执行范围。
Project2026-06-20github.com原文 ↗
–
Let agents send/receive SMS using your old Android phone
这个项目把一台旧 Android 手机变成代理可调用的 SMS 通道，通过手机端应用和 relay server 完成读取、发送短信。作者在 HN 描述里给出的动机很具体：让代理访问 OTP codes，同时避开 Twilio 的成本和配置负担；relay server 充当 agents 的 MCP 入口。技术上看，它把物理设备能力包装成代理工具，比纯云端 API 更贴近个人自动化场景。
Project2026-06-20simlink.snaz.cz原文 ↗
–
BuilderIO/agent-native
agent-native 面向的是让代理成为应用一等交互者，而不是在既有 UI 外面再套一个聊天框。项目的核心做法是把用户界面操作、代理动作和状态更新放进同一套状态与动作系统，使人类点击和模型执行能共享可追踪的应用语义。这个方向的技术看点在于，应用不只把代理当“文本生成器”，而是为代理暴露结构化、可回放、可约束的操作面。
Project2026-06-20github.com原文 ↗
–
Beyond Static Endpoints: Tool Programs as an Interface for Flexible Agentic Web Services
这篇反思静态 API endpoint 对代理接口的限制，提出 ToolPro，用可执行 tool program 表示代理面向 Web 服务的多步意图。摘要点名的长程工作流结构包括 loops、conditionals、joins 和 retries，这些都很难被一组固定端点完整表达。它适合解释为什么 agentic web services 需要比 OpenAPI 风格接口更灵活的执行单位。
Paper2026-06-20arxiv.org原文 ↗
–
web-infra-dev/midscene
Midscene 用视觉理解和自然语言描述做 UI 自动化与测试。它降低了选择器脆弱性，因为操作目标可以由画面语义决定，而不是固定 DOM path。对现代前端测试来说，这类框架把“用户看到什么”重新放回自动化主语。
Trending2026-06-19github.com原文 ↗
–
Vibesurfer - a token-efficient browser for AI agents
vibesurfer 是 Rust 浏览器 daemon，底层用 WKWebView、WebKitGTK 或 WebView2，不依赖 Chromium/CDP。README 给出一个直观对比：Hacker News 首页经 Playwright 约 2000 输入 token，而 vibesurfer 约 50，因为它返回 state tokens 和 tree deltas。mutating…
Project2026-06-19github.com原文 ↗
–
AutomatiQ - generate web scrapers/automations by browsing any website
AutomatiQ 先用 Chrome CDP 记录用户浏览时的网络请求、响应体、cookie、点击、输入和导航，再让视觉模型标注动作片段，最后由 LLM 在隔离 Python/IPython 环境中生成自动化脚本。README 的使用路径很短：`automatiq run https://example.com`，浏览后按 Ctrl+C，agent 接管生成脚本。它把 web scraping…
Project2026-06-19始 2026-06-18github.com原文 ↗
–
Aihu
Aihu 的定位是 Web Components framework for AI agents，目标是让 Agent 更稳定地驱动前端组件。它通过 custom elements、属性和组件级语义约定，为 Agent 提供比像素点击或临时 CSS selector 更稳的操作面。它反映了前端工具链的新分叉：UI 不只要对人可用，也要对自动化和 Agent 可解释。
Project2026-06-18github.com原文 ↗
–
A near-autonomous AI chemist improves a challenging reaction in medicinal chemistry
OpenAI 与 Molecule.one 把 GPT-5.4 接到 Maria AI/Lab，让系统从开放目标出发改进 medicinal chemistry 里的 Chan-Lam coupling。最有结果的 proposal OAI-M1-03 选择 primary sulfonamides 这一低产率但高价值 substrate class，并提出 TEMPO 等 mild oxidan…
News2026-06-18openai.com原文 ↗
–
datasette-agent 0.3a0
datasette-agent 0.3a0 新增带用户审批的写 SQL 工具。这个变化把 agent 从只读分析推进到可提出数据库 mutation，但把最终执行权留在人类确认步骤。它是数据库 agent 产品化中的一个小而重要的边界设计：模型可以生成操作计划和 SQL，系统必须在副作用发生前暴露清楚并等待批准。
Blog2026-06-17simonwillison.net原文 ↗
–
FastContext: Training Efficient Repository Explorer for Coding Agents
FastContext 将 repository exploration 从 coding solver 中拆出，训练 4B-30B 的专门探索子 agent。它按需并行调用工具，只返回文件路径和行号范围，减少探索阶段对主 agent history 的污染。接入 Mini-SWE-Agent 后，在 SWE-bench Multilingual、SWE-bench Pro 和 SWE-QA 上端…
Paper2026-06-17arxiv.org原文 ↗
–
RAIF
RAIF 观察到 LLM 不是确定性 JSON writer，常见失败包括少括号、markdown fence、半截流和分隔符滑移，因此把“可修复”写进格式本身。README 的数字是相对 JSON 少约 14.4% cl100k token、15.9% o200k token，截断输出在同等预算下恢复 46% leaf，而 JSON + jsonrepair 为 41%。它还用 5,000-se…
Project2026-06-15github.com原文 ↗
–
datasette 1.0a33
Datasette 1.0a33 扩展 JSON API 的 `_extra=` 模式，使其覆盖 queries 和 rows。这个变化面向自动化调用者：API client 可以直接请求附加结构化信息，而不必围绕查询结果再发额外请求或解析页面。它与 datasette-agent 放在同一天看更清楚，Datasette 正在把自己变成更适合 agent 和脚本消费的数据界面。对于小型数据工具，J…
Blog2026-06-12simonwillison.net原文 ↗
–
How engineers at Nextdoor use Codex to build without limits
OpenAI 案例文章介绍 Nextdoor 平台团队如何用 Codex 调查问题和推进跨平台产品工作。Nextdoor 服务 11 个国家超过 1.1 亿用户；文章举的 Opportunity Alerts 地图功能过去可能需要 mobile、frontend、backend 三队协作，现在由一名工程师借助 Codex 端到端完成。案例的核心不是“生成更多代码”，而是工程师职责从系统局部移动到产…
News2026-06-10openai.com原文 ↗
–
Agent-Reach
Agent-Reach 给 AI agent 提供 Twitter、Reddit、YouTube、GitHub、Bilibili、小红书等平台的读取和搜索能力，并强调 zero API fees。它把跨平台信息采集做成 CLI，适合研究、舆情或内容整理 agent 调用。风险点同样明显：平台 ToS、反爬限制和账号安全会决定可持续性。
Trending2026-06-07github.com原文 ↗
–
SheetMog - OSS Excel alternative and headless SDK
SheetMog 做的是 Rust/WASM spreadsheet engine，目标是开源 Excel 替代和 headless SDK 的结合体。它把表格能力拆成可嵌入前端与程序化 API，对 agent 场景尤其有用，因为模型可以操作表格计算结构，而不必依赖屏幕坐标和 Excel 自动化。
Project2026-06-05github.com原文 ↗
–
Designing the hf CLI as an agent-optimized way to work with the Hub
Hugging Face 把 hf CLI 明确设计成 agent 可用接口，而不是只服务人类终端用户。文档提到 Claude Code、OpenAI Codex、Open Code 可通过 `hf` 操作 Hub，并提供 `agent`、`json`、`quiet` 等输出模式；这类 CLI 细节会直接影响 agent 调用工具时的可解析性和失败恢复。
Blog2026-06-05huggingface.co原文 ↗
–
modelscope/FunASR
FunASR 是工业级语音识别工具包，README 摘要列出 ASR、VAD、标点恢复、语言模型、说话人验证、说话人分离、多说话人 ASR、情绪识别、streaming 和 OpenAI-compatible API。项目标题称支持 50+ languages、170x realtime。它的价值在于把语音前处理、识别和服务接口集中在一个开源工具包里。对实时语音 agent，streaming 与…
Trending2026-06-04github.com原文 ↗
–
ToolGate: Token-Efficient Pre-Call Control for Tool-Augmented Vision-Language Agents
研究 VLM agent 在 OCR、检测、分割等感知工具真正执行前，是否应该跳过该调用。作者发现 baseline 的局部选择性很差，helpful 和 harmful calls 比例接近 11.8% vs 9.9%，多数调用也不会改变 forced-answer prediction。ToolGate 用轨迹文本和结构特征做轻量 execute/skip 控制，在两个 Qwen3-VL ba…
Paper2026-06-04arxiv.org原文 ↗
–
The Sequence AI of the Week #871: Inside the Loop with Claude Opus 4.8
TheSequence 讨论 Claude Opus 4.8 在 agent 和 coding 场景中的行为变化。digest 没给出细节，因此正文只按文章主题处理：它关注模型在 loop 内执行、工具调用和代码任务中的表现，而不是静态 benchmark。此类评论的价值在于观察 agent 行为的质感变化，例如坚持性、错误恢复和上下文处理。
Blog2026-06-04thesequence.substack.com原文 ↗
–
Introducing new capabilities to GPT-Rosalind
OpenAI 更新 GPT-Rosalind 的生命科学能力，覆盖生物推理、药物化学、基因组分析和实验工作流。此前 GPT-Rosalind 作为 research preview 面向合格客户在 ChatGPT、Codex 和 API 中提供，并配套 Codex 的 Life Sciences research plugin，连接 50 多个科学工具和数据源。它的关键点是把 domain mod…
News2026-06-04openai.com原文 ↗
–
D4Vinci/Scrapling
Scrapling 是 adaptive web scraping framework，从单次请求到 full-scale crawl 都覆盖。README 强调 parser 可学习页面变化并自动重新定位元素，fetchers 可处理 Cloudflare Turnstile 等 anti-bot，spider framework 支持并发、多 session、pause/resume 和 pr…
Trending2026-06-02github.com原文 ↗
–
May 2026 newsletter
Simon Willison 的月度通讯回顾 2026 年 5 月模型发布、工具使用和 Datasette 进展。它的价值在于把一整月的模型、工具和个人项目实践放进同一时间线，而不是只列发布链接。对跟踪 AI tooling 的读者来说，Simon 的月报通常更接近“实际用过后的技术日志”。
Blog2026-06-01simonwillison.net原文 ↗
–
MAVEN: Improving Generalization in Agentic Tool Calling
MAVEN 是一个 lightweight symbolic reasoning scaffold，用结构化分解、自适应工具编排和 intermediate verification 改善工具调用泛化。论文评测 BFCL v3、TauBench、Tau2Bench、AceBench，并引入 MAVEN-Bench 测多步数学/物理推理与对抗组合；在 MAVEN-Bench 上，它把 GPT-OSS…
Paper2026-06-01arxiv.org原文 ↗
–

2026 年 5 月4

Ego lite - why our browser agent writes JavaScript not CLI commands
ego-lite 是面向人和 agent 并行工作的浏览器，agent 在独立 Space 中通过 `ego-browser` 操作页面。README 的核心设计是暴露 snapshot、fill、click、wait、navigate、capture 等 in-page JavaScript 工具，让 agent 组合 JS 任务，而不是多轮 CLI 调用；项目称复杂任务最多快 2.5 倍。值得…
Project2026-05-31github.com原文 ↗
–
Tool Forge: A Validation-Carrying Toolchain for Governed Agentic Execution
Tool Forge 的价值不在“又做一个工具注册表”，而在把工具生成、验证、生命周期和路由合成一个可审计工件链。它的局限也在摘要里说得很清楚：当前数字是初始系统 benchmark，尚未证明面对对抗路由、真实 API grounding 和跨系统评估时仍成立。
Paper2026-05-29arxiv.org原文 ↗
–
Open Agent Tools Coder
本地编码 agent，实验将工具调用委派给较小模型。
Project2026-05-29github.com原文 ↗
–
LiteParse
LiteParse 的定位很清晰：把“够快、够本地、够结构化”的解析能力给 agent，而不是用云端 LLM 做重型文档理解。复杂表格、手写和扫描 PDF 仍被明确让位给 LlamaParse。
Project2026-05-29github.com原文 ↗
–