每日 Harness 开源 · Source
返回本期 · Back to 2026-06-02

论文 · Papers2026-06-02 · Tuesday, June 2, 2026

Skill Availability and Presentation Granularity in Large-Language-Model Agents

arxiv.org原文 ↗

Skill Availability and Presentation Granularity in Large-Language-Model Agents
SkillsBench 控制实验研究 skill 是否可用以及呈现粒度是否影响 agent 成功率。实验用 30 个领域均衡任务、两个 reasoning 模型、六种 skill 条件,每个 task-condition-model cell 五次试验,共 1,800 行数据。skill availability 提升最强:GPT-5.5 相比无 skill 提升 26.7-36.0 个百分点,DeepSeek V4-Flash 提升 18.0-26.0 个百分点;粒度和示例差异则小且不确定。
浏览

评论 · Comments