论文 · Papers2026-06-02 · Tuesday, June 2, 2026

Skill Availability and Presentation Granularity in Large-Language-Model Agents

SkillsBench 控制实验研究 skill 是否可用以及呈现粒度是否影响 agent 成功率。实验用 30 个领域均衡任务、两个 reasoning 模型、六种 skill 条件，每个 task-condition-model cell 五次试验，共 1,800 行数据。skill availability 提升最强：GPT-5.5 相比无 skill 提升 26.7-36.0 个百分点，DeepSeek V4-Flash 提升 18.0-26.0 个百分点；粒度和示例差异则小且不确定。

–浏览

Skill Availability and Presentation Granularity in Large-Language-Model Agents

评论 · Comments