返回本期 · Back to 2026-06-05 博客文章 · Blog Posts2026-06-05 · Friday, June 5, 2026 EVA-Bench Data 2.0 huggingface.co原文 ↗ 基准工具使用其他垂直 EVA-Bench Data 2.0 面向 voice agents,包含 3 个企业领域、121 个工具和 213 个场景。相关论文摘要给出一个强信号:评估的 12 个系统中,没有系统同时在 EVA-A pass@1 和 EVA-X pass@1 超过 0.5,且 median pass@k - pass^k gap 为 0.44;这说明语音 agent 的峰值能力和可靠能力差距很大。 –浏览 –点赞 复制链接 评论 · Comments
评论 · Comments