美光：内存，才是AI系统的真正天花板

半导体产业报告

33分钟 ·4个月前

198

·

0

1. 内存是AI与HPC系统的新瓶颈

模型规模暴涨（迈入万亿参数时代）导致训练计算量和内存需求指数级跃升。

GPU算力虽强，但系统执行效率往往受限于内存性能、容量与可靠性。

Roofline模型揭示不同任务在执行中会动态切换“计算受限”与“内存受限”状态。

2. 内存容量正成为大模型训练的决定性资源

训练一个万亿参数模型仅模型状态就需14TB内存，激活值占用更是“翻倍”。

当前主流采用 Scale-out（分布式系统） 扩容路径，但通信开销与调度复杂性剧增。

内存异构成为趋势，ZeRO-Infinity等技术通过多层内存调度（GPU+CPU+NVMe）缓解容量瓶颈。

3. HBM可靠性问题在超大规模集群中凸显

在 16K 张 H100 GPU 训练 Llama3 的过程中，72 次作业中断归因于 HBM3 错误。

实测 FIT 达到 3472 FIT/GPU，远超容忍范围，反映出 HBM3 在可靠性上的硬伤。

系统和器件层正引入Chipkill ECC、On-Die ECC、CE→UE预测机制等多重防御策略。

4. DDR5 与 HBM3/3e 构成现阶段主流内存分工

DDR5 带宽提升至 67.2 GB/s，但仍受限于 DIMM 架构，扩展性不足、冷路径角色突出。

HBM3/3e 带宽高达 1.2 TB/s，通过 3D TSV 实现近计算高效访问，主导热路径访问。

二者形成带宽密度 vs 成本/容量弹性的分工格局，推动系统朝异构架构重构。

5. 新内存技术路径正在重构系统形态

Micron提出四大演进路径，逐步突破现有瓶颈：

HBM4（2026年量产）：带宽达 1.65TB/s，2048bit IO，总容量48GB。

MRDIMM：在DDR5基础上提升 37%通道带宽，适配高核数CPU。

CXL内存扩展：Micron CZ120支持 2TB/CPU、64GB/s带宽，引入“内存池”理念。

Disaggregated Memory + Near Memory Computing：构建解耦式内存池与近内存协同计算的新架构。

6. 未来AI系统将走向“可编排异构内存体系”

内存不再是“堆栈即解决”的问题，而是涉及容量、带宽、封装、可靠性、编程模型的全局协同。

Micron预测：未来系统将构建多层次、多介质、跨节点共享、可调度的算存融合平台。

这是一次系统级的重构工程，而非单点技术演进。

在小宇宙打开