EP03e | 网络基础:多机训练的命脉算力这门生意(AI)

EP03e | 网络基础:多机训练的命脉

28分钟 ·
播放数0
·
评论数0

节目简介
单机 8 卡靠 NVLink 没问题,但多机训练时网络就是命脉。以太网、RoCE、InfiniBand 怎么选?NCCL 底层怎么通信?这集帮你建立网络选型直觉。

本期要点

  • 🌐 为什么网络很重要:大规模集群中通信开销可能占总时间 20-40%,GPU 空等就是烧钱

  • 🔄 核心通信操作:All-Reduce(绝对主角)、All-Gather、Reduce-Scatter——用"所有人汇总投票结果"类比

  • ⚡ 三种网络方案对比:以太网(最便宜 5-20μs)→ RoCE(性价比之选 1-5μs,国内主流)→ InfiniBand(最低延迟 0.5-1μs,最贵)

  • 📐 选型建议:推理/小训练用以太网,2-8 机用 RoCE 最划算,8 机以上 InfiniBand 优势明显

  • 🔀 网络拓扑:胖树(Fat-Tree)是智算集群标准,任意两台服务器最多 2 跳

  • 🧰 NCCL 通信优先级:NVLink → PCIe → IB → RoCE → TCP(最慢兜底)

  • 📊 实际影响数据:100G RoCE 多机效率约 85%,400G IB 可达 95%

  • 🔧 常见故障排查:NCCL 训练卡住、多机训练比预期慢 50%+、IB 连不上

推荐收听场景 要搭建多机训练集群时必听