每日 Harness 开源 · Source
主题 · All topics

4.1 工具使用Tool Use

本主题共 11 条 · 最早 2026-05-29 · 最新 2026-06-04

视图 · View

2026 年 6 月7

  • modelscope/FunASR

    FunASR 是工业级语音识别工具包,README 摘要列出 ASR、VAD、标点恢复、语言模型、说话人验证、说话人分离、多说话人 ASR、情绪识别、streaming 和 OpenAI-compatible API。项目标题称支持 50+ languages、170x realtime。它的价值在于把语音前处理、识别和服务接口集中在一个开源工具包里。对实时语音 agent,streaming 与…

    2026-06-04github.com原文 ↗
  • ToolGate: Token-Efficient Pre-Call Control for Tool-Augmented Vision-Language Agents

    研究 VLM agent 在 OCR、检测、分割等感知工具真正执行前,是否应该跳过该调用。作者发现 baseline 的局部选择性很差,helpful 和 harmful calls 比例接近 11.8% vs 9.9%,多数调用也不会改变 forced-answer prediction。ToolGate 用轨迹文本和结构特征做轻量 execute/skip 控制,在两个 Qwen3-VL ba…

    2026-06-04arxiv.org原文 ↗
  • The Sequence AI of the Week #871: Inside the Loop with Claude Opus 4.8

    TheSequence 讨论 Claude Opus 4.8 在 agent 和 coding 场景中的行为变化。digest 没给出细节,因此正文只按文章主题处理:它关注模型在 loop 内执行、工具调用和代码任务中的表现,而不是静态 benchmark。此类评论的价值在于观察 agent 行为的质感变化,例如坚持性、错误恢复和上下文处理。

    2026-06-04thesequence.substack.com原文 ↗
  • Introducing new capabilities to GPT-Rosalind

    OpenAI 更新 GPT-Rosalind 的生命科学能力,覆盖生物推理、药物化学、基因组分析和实验工作流。此前 GPT-Rosalind 作为 research preview 面向合格客户在 ChatGPT、Codex 和 API 中提供,并配套 Codex 的 Life Sciences research plugin,连接 50 多个科学工具和数据源。它的关键点是把 domain mod…

    2026-06-04openai.com原文 ↗
  • D4Vinci/Scrapling

    Scrapling 是 adaptive web scraping framework,从单次请求到 full-scale crawl 都覆盖。README 强调 parser 可学习页面变化并自动重新定位元素,fetchers 可处理 Cloudflare Turnstile 等 anti-bot,spider framework 支持并发、多 session、pause/resume 和 pr…

    2026-06-02github.com原文 ↗
  • May 2026 newsletter

    Simon Willison 的月度通讯回顾 2026 年 5 月模型发布、工具使用和 Datasette 进展。它的价值在于把一整月的模型、工具和个人项目实践放进同一时间线,而不是只列发布链接。对跟踪 AI tooling 的读者来说,Simon 的月报通常更接近“实际用过后的技术日志”。

    2026-06-01simonwillison.net原文 ↗
  • MAVEN: Improving Generalization in Agentic Tool Calling

    MAVEN 是一个 lightweight symbolic reasoning scaffold,用结构化分解、自适应工具编排和 intermediate verification 改善工具调用泛化。论文评测 BFCL v3、TauBench、Tau2Bench、AceBench,并引入 MAVEN-Bench 测多步数学/物理推理与对抗组合;在 MAVEN-Bench 上,它把 GPT-OSS…

    2026-06-01arxiv.org原文 ↗

2026 年 5 月4

  • Ego lite - why our browser agent writes JavaScript not CLI commands

    ego-lite 是面向人和 agent 并行工作的浏览器,agent 在独立 Space 中通过 `ego-browser` 操作页面。README 的核心设计是暴露 snapshot、fill、click、wait、navigate、capture 等 in-page JavaScript 工具,让 agent 组合 JS 任务,而不是多轮 CLI 调用;项目称复杂任务最多快 2.5 倍。值得…

    2026-05-31github.com原文 ↗
  • Tool Forge: A Validation-Carrying Toolchain for Governed Agentic Execution

    Tool Forge 的价值不在“又做一个工具注册表”,而在把工具生成、验证、生命周期和路由合成一个可审计工件链。它的局限也在摘要里说得很清楚:当前数字是初始系统 benchmark,尚未证明面对对抗路由、真实 API grounding 和跨系统评估时仍成立。

    2026-05-29arxiv.org原文 ↗
  • Open Agent Tools Coder

    本地编码 agent,实验将工具调用委派给较小模型。

    2026-05-29github.com原文 ↗
  • LiteParse

    LiteParse 的定位很清晰:把“够快、够本地、够结构化”的解析能力给 agent,而不是用云端 LLM 做重型文档理解。复杂表格、手写和扫描 PDF 仍被明确让位给 LlamaParse。

    2026-05-29github.com原文 ↗