
1. 内存是AI与HPC系统的新瓶颈
- 模型规模暴涨(迈入万亿参数时代)导致训练计算量和内存需求指数级跃升。
- GPU算力虽强,但系统执行效率往往受限于内存性能、容量与可靠性。
- Roofline模型揭示不同任务在执行中会动态切换“计算受限”与“内存受限”状态。
2. 内存容量正成为大模型训练的决定性资源
- 训练一个万亿参数模型仅模型状态就需14TB内存,激活值占用更是“翻倍”。
- 当前主流采用 Scale-out(分布式系统) 扩容路径,但通信开销与调度复杂性剧增。
- 内存异构成为趋势,ZeRO-Infinity等技术通过多层内存调度(GPU+CPU+NVMe)缓解容量瓶颈。
3. HBM可靠性问题在超大规模集群中凸显
- 在 16K 张 H100 GPU 训练 Llama3 的过程中,72 次作业中断归因于 HBM3 错误。
- 实测 FIT 达到 3472 FIT/GPU,远超容忍范围,反映出 HBM3 在可靠性上的硬伤。
- 系统和器件层正引入Chipkill ECC、On-Die ECC、CE→UE预测机制等多重防御策略。
4. DDR5 与 HBM3/3e 构成现阶段主流内存分工
- DDR5 带宽提升至 67.2 GB/s,但仍受限于 DIMM 架构,扩展性不足、冷路径角色突出。
- HBM3/3e 带宽高达 1.2 TB/s,通过 3D TSV 实现近计算高效访问,主导热路径访问。
- 二者形成带宽密度 vs 成本/容量弹性的分工格局,推动系统朝异构架构重构。
5. 新内存技术路径正在重构系统形态
Micron提出四大演进路径,逐步突破现有瓶颈:
- HBM4(2026年量产):带宽达 1.65TB/s,2048bit IO,总容量48GB。
- MRDIMM:在DDR5基础上提升 37%通道带宽,适配高核数CPU。
- CXL内存扩展:Micron CZ120支持 2TB/CPU、64GB/s带宽,引入“内存池”理念。
- Disaggregated Memory + Near Memory Computing:构建解耦式内存池与近内存协同计算的新架构。
6. 未来AI系统将走向“可编排异构内存体系”
- 内存不再是“堆栈即解决”的问题,而是涉及容量、带宽、封装、可靠性、编程模型的全局协同。
- Micron预测:未来系统将构建多层次、多介质、跨节点共享、可调度的算存融合平台。
- 这是一次系统级的重构工程,而非单点技术演进。

