Skill Availability and Presentation Granularity in Large-Language-Model Agents
arxiv.org原文 ↗
SkillsBench 控制实验研究 skill 是否可用以及呈现粒度是否影响 agent 成功率。实验用 30 个领域均衡任务、两个 reasoning 模型、六种 skill 条件,每个 task-condition-model cell 五次试验,共 1,800 行数据。skill availability 提升最强:GPT-5.5 相比无 skill 提升 26.7-36.0 个百分点,DeepSeek V4-Flash 提升 18.0-26.0 个百分点;粒度和示例差异则小且不确定。
–浏览
评论 · Comments