返回本期 · Back to 2026-06-03 论文 · Papers2026-06-03 · Wednesday, June 3, 2026 DOT-MoE: Differentiable Optimal Transport for MoEfication arxiv.org原文 ↗ 论文提出用可微最优传输把预训练 dense LLM 转换为 sparse MoE,以降低从零训练 MoE 的不稳定性和成本。 –浏览 –点赞 复制链接 评论 · Comments
评论 · Comments