论文 · Papers2026-06-04 · Thursday, June 4, 2026

ToolGate: Token-Efficient Pre-Call Control for Tool-Augmented Vision-Language Agents

研究 VLM agent 在 OCR、检测、分割等感知工具真正执行前，是否应该跳过该调用。作者发现 baseline 的局部选择性很差，helpful 和 harmful calls 比例接近 11.8% vs 9.9%，多数调用也不会改变 forced-answer prediction。ToolGate 用轨迹文本和结构特征做轻量 execute/skip 控制，在两个 Qwen3-VL backbone 上把 token cost 降到 unrestricted ReAct 的 64-69%，跨域平均准确率仍能保持。它说明感知工具链的效率瓶颈不只是工具本身，还在调用前的控制策略。

–浏览

ToolGate: Token-Efficient Pre-Call Control for Tool-Augmented Vision-Language Agents

评论 · Comments