论文 · Papers2026-06-02 · Tuesday, June 2, 2026

OpenSkillEval: Automatically Auditing the Open Skill Ecosystem for LLM Agents

OpenSkillEval 自动构造真实任务实例来评估 skill-augmented agents 和 skills 本身，覆盖演示文稿、前端设计、海报、数据可视化和报告五类应用。实验使用 600 多个动态生成任务和 30 个开源 skills，发现 skill 可用不等于有效使用，效果强依赖模型与 agent framework，热门 skills 也不稳定优于无 skill 基线。它把开放 skill 生态的质量问题变成可审计对象。

–浏览

OpenSkillEval: Automatically Auditing the Open Skill Ecosystem for LLM Agents

评论 · Comments