Ideogram 4.0
github.com原文 ↗
Ideogram 4.0 是 9.3B open-weight text-to-image diffusion transformer,社区摘录显示它使用 34-layer DiT,并把 text/image tokens 放在同一 self-attention sequence 中。项目强调结构化 JSON prompting、文字渲染和空间控制,社区示例也提到 bounding box JSON prompt。它的开放权重意义在于把排版、文字和区域约束更强的图像模型放到可本地实验的范围内。对设计类生成模型来说,能否稳定控制文本和空间比单纯画质更关键。
–浏览
评论 · Comments