OpenSkillEval: Automatically Auditing the Open Skill Ecosystem for LLM Agents
arxiv.org原文 ↗
OpenSkillEval 自动构造真实任务实例来评估 skill-augmented agents 和 skills 本身,覆盖演示文稿、前端设计、海报、数据可视化和报告五类应用。实验使用 600 多个动态生成任务和 30 个开源 skills,发现 skill 可用不等于有效使用,效果强依赖模型与 agent framework,热门 skills 也不稳定优于无 skill 基线。它把开放 skill 生态的质量问题变成可审计对象。
–浏览
评论 · Comments