Mellum2 Technical Report
arxiv.org原文 ↗
JetBrains 发布 Mellum 2:12B 总参数、每 token 2.5B active 的 MoE 软件工程模型,覆盖代码生成、编辑、调试、工具调用、agentic coding 和对话式编程。架构使用 64 experts/8 active、GQA、滑窗注意力和可作 speculative decoding draft model 的 Multi-Token Prediction head;预训练约 10.6T tokens,并扩展到 128K context。报告同时释放 base、instruct、thinking checkpoints,Apache 2.0。
–浏览
评论 · Comments