Nucleus-Image:用稀疏MoE兼顾文生图质量与效率

Nucleus-Image:用稀疏MoE兼顾文生图质量与效率

18分钟 ·
播放数0
·
评论数0

这期聊 Nucleus AI 的 Nucleus-Image,看看它如何把 170 亿参数的 Diffusion Transformer 做成稀疏 MoE,并把单次激活压到约 20 亿。核心亮点是 decoupled routing 和 Expert-Choice Routing,让扩散模型里的专家分工不只看时间步,而能更稳定地按内容路由。我们也会讲它在 GenEval、DPG-Bench、OneIG-Bench 上为什么有竞争力,以及这条 sparse MoE 路线为何可能成为图像生成的新 scaling 方向。

00:00 背景与动机
02:10 方法拆解
06:17 实验结果解读
12:42 图表导读
14:23 评价与讨论
16:22 延伸思考

Source: paper | arxiv.org