Gemma 4 12B: A unified, encoder-free multimodal model
blog.google原文 ↗
Google 发布 Gemma 4 12B,定位为 unified、encoder-free 的 multimodal model,并以 Apache 2.0 license 开放。公开摘录称它让图像和音频输入更直接进入模型 token 空间,减少传统多模态系统里的独立 encoder 带来的延迟和内存开销。对于本地模型生态,12B 规模和 16GB 级设备可运行的叙事会推动更多端侧多模态实验。
–浏览
评论 · Comments