论文 · Papers2026-06-01 · Monday, June 1, 2026

MAVEN: Improving Generalization in Agentic Tool Calling

MAVEN 是一个 lightweight symbolic reasoning scaffold，用结构化分解、自适应工具编排和 intermediate verification 改善工具调用泛化。论文评测 BFCL v3、TauBench、Tau2Bench、AceBench，并引入 MAVEN-Bench 测多步数学/物理推理与对抗组合；在 MAVEN-Bench 上，它把 GPT-OSS-120b base 从 48% accuracy 提到 71%，无需额外训练。值得看的是它把工具调用评测从“单 benchmark 得分”推进到 compositional reasoning 与中间状态保持。

–浏览

MAVEN: Improving Generalization in Agentic Tool Calling

评论 · Comments