ToolGate: Token-Efficient Pre-Call Control for Tool-Augmented Vision-Language Agents
arxiv.org原文 ↗
研究 VLM agent 在 OCR、检测、分割等感知工具真正执行前,是否应该跳过该调用。作者发现 baseline 的局部选择性很差,helpful 和 harmful calls 比例接近 11.8% vs 9.9%,多数调用也不会改变 forced-answer prediction。ToolGate 用轨迹文本和结构特征做轻量 execute/skip 控制,在两个 Qwen3-VL backbone 上把 token cost 降到 unrestricted ReAct 的 64-69%,跨域平均准确率仍能保持。它说明感知工具链的效率瓶颈不只是工具本身,还在调用前的控制策略。
–浏览
评论 · Comments