每日 Harness 开源 · Source
返回本期 · Back to 2026-06-02

论文 · Papers2026-06-02 · Tuesday, June 2, 2026

Mellum2 Technical Report

arxiv.org原文 ↗

Mellum2 Technical Report
JetBrains 发布 Mellum 2:12B 总参数、每 token 2.5B active 的 MoE 软件工程模型,覆盖代码生成、编辑、调试、工具调用、agentic coding 和对话式编程。架构使用 64 experts/8 active、GQA、滑窗注意力和可作 speculative decoding draft model 的 Multi-Token Prediction head;预训练约 10.6T tokens,并扩展到 128K context。报告同时释放 base、instruct、thinking checkpoints,Apache 2.0。
浏览

评论 · Comments