返回本期 · Back to 2026-06-01 博客文章 · Blog Posts2026-06-01 · Monday, June 1, 2026 It's Not Just X. It's Y mail.cyberneticforests.com原文 ↗ Agent RL / 可验证奖励合成数据与训练环境评测方法其他垂直 文章讨论 AI 训练栈里 post-training 的作用,反对把能力进步简单归因于“数据”。它的核心判断是 post-training 已经成为把数据转化为可用行为的工程层,包括偏好优化、RL、合成任务、评测循环和产品约束。值得看的是它把“数据叙事”和“训练后行为塑形”拆开,避免把模型能力来源讲成单变量故事。 –浏览 –点赞 复制链接 评论 · Comments
评论 · Comments