每日 Harness 开源 · Source
返回本期 · Back to 2026-06-01

论文 · Papers2026-06-01 · Monday, June 1, 2026

MAVEN: Improving Generalization in Agentic Tool Calling

arxiv.org原文 ↗

MAVEN: Improving Generalization in Agentic Tool Calling
MAVEN 是一个 lightweight symbolic reasoning scaffold,用结构化分解、自适应工具编排和 intermediate verification 改善工具调用泛化。论文评测 BFCL v3、TauBench、Tau2Bench、AceBench,并引入 MAVEN-Bench 测多步数学/物理推理与对抗组合;在 MAVEN-Bench 上,它把 GPT-OSS-120b base 从 48% accuracy 提到 71%,无需额外训练。值得看的是它把工具调用评测从“单 benchmark 得分”推进到 compositional reasoning 与中间状态保持。
浏览

评论 · Comments