Decoupled DiLoCo | DeepMind新论文

Decoupled DiLoCo | DeepMind新论文

16分钟 ·
播放数165
·
评论数0

最近,谷歌DeepMind和谷歌研究院,又联合发布了一篇关于Decoupled DiLoCo的论文。论文数据显示,当集群规模达到240万块芯片时,传统弹性数据并行的有效计算时间只有40%,而Decoupled DiLoCo能在同样的极端故障环境下,将有效吞吐率稳定在86%,通信带宽需求只有传统方案的60分之一,甚至能把全球各地的老旧芯片、零散算力整合到同一场训练中,还不影响最终模型质量。今天我们就来拆解一下这篇论文,不得不说,做分布式系统还得看Jeff Dean。

arxiv.org

原视频来自:youtu.be

聊天讨论群,可加微信gxjdian入群,需备注,来自播客AI前沿