美光:内存,才是AI系统的真正天花板

美光:内存,才是AI系统的真正天花板

33分钟 ·
播放数198
·
评论数0

1. 内存是AI与HPC系统的新瓶颈

  • 模型规模暴涨(迈入万亿参数时代)导致训练计算量和内存需求指数级跃升
  • GPU算力虽强,但系统执行效率往往受限于内存性能、容量与可靠性
  • Roofline模型揭示不同任务在执行中会动态切换“计算受限”与“内存受限”状态。

2. 内存容量正成为大模型训练的决定性资源

  • 训练一个万亿参数模型仅模型状态就需14TB内存,激活值占用更是“翻倍”。
  • 当前主流采用 Scale-out(分布式系统) 扩容路径,但通信开销与调度复杂性剧增
  • 内存异构成为趋势,ZeRO-Infinity等技术通过多层内存调度(GPU+CPU+NVMe)缓解容量瓶颈。

3. HBM可靠性问题在超大规模集群中凸显

  • 在 16K 张 H100 GPU 训练 Llama3 的过程中,72 次作业中断归因于 HBM3 错误
  • 实测 FIT 达到 3472 FIT/GPU,远超容忍范围,反映出 HBM3 在可靠性上的硬伤。
  • 系统和器件层正引入Chipkill ECC、On-Die ECC、CE→UE预测机制等多重防御策略。

4. DDR5 与 HBM3/3e 构成现阶段主流内存分工

  • DDR5 带宽提升至 67.2 GB/s,但仍受限于 DIMM 架构,扩展性不足、冷路径角色突出
  • HBM3/3e 带宽高达 1.2 TB/s,通过 3D TSV 实现近计算高效访问,主导热路径访问
  • 二者形成带宽密度 vs 成本/容量弹性的分工格局,推动系统朝异构架构重构。

5. 新内存技术路径正在重构系统形态

Micron提出四大演进路径,逐步突破现有瓶颈:

  1. HBM4(2026年量产):带宽达 1.65TB/s,2048bit IO,总容量48GB。
  2. MRDIMM:在DDR5基础上提升 37%通道带宽,适配高核数CPU。
  3. CXL内存扩展:Micron CZ120支持 2TB/CPU、64GB/s带宽,引入“内存池”理念。
  4. Disaggregated Memory + Near Memory Computing:构建解耦式内存池近内存协同计算的新架构。

6. 未来AI系统将走向“可编排异构内存体系”

  • 内存不再是“堆栈即解决”的问题,而是涉及容量、带宽、封装、可靠性、编程模型的全局协同。
  • Micron预测:未来系统将构建多层次、多介质、跨节点共享、可调度的算存融合平台
  • 这是一次系统级的重构工程,而非单点技术演进。