每日 Harness 开源 · Source
返回本期 · Back to 2026-06-05

博客文章 · Blog Posts2026-06-05 · Friday, June 5, 2026

EVA-Bench Data 2.0

huggingface.co原文 ↗

基准工具使用其他垂直
EVA-Bench Data 2.0
EVA-Bench Data 2.0 面向 voice agents,包含 3 个企业领域、121 个工具和 213 个场景。相关论文摘要给出一个强信号:评估的 12 个系统中,没有系统同时在 EVA-A pass@1 和 EVA-X pass@1 超过 0.5,且 median pass@k - pass^k gap 为 0.44;这说明语音 agent 的峰值能力和可靠能力差距很大。
浏览

评论 · Comments