📝 本期播客简介
本期我们克隆了:科技深度访谈播客《Dwarkesh Podcast》How do AI chips actually work? – Reiner Pope
本期节目是一场从芯片最底层一路搭到 AI 加速器架构的硬核技术对谈。主持人 Dwarkesh Patel 再次邀请 MatX CEO Reiner Pope,从最基础的 AND、OR、NOT 逻辑门开始,解释 AI 芯片究竟如何把矩阵乘法变成真实的电路结构。你将听到 multiply-accumulate 为什么是 AI 芯片的核心原语,full adder、mux、register file、systolic array、clock cycle、FPGA、ASIC、cache、scratch pad、GPU 与 TPU 这些概念之间到底如何相互连接。
这期节目最核心的问题是:在 AI 芯片里,真正昂贵的往往不是计算本身,而是数据移动、同步和通信。Reiner 用极其底层但清晰的方式解释,为什么低精度计算会带来平方级优势,为什么 tensor core / systolic array 能显著提升计算与通信的比例,为什么过快的 clock speed 反而可能伤害吞吐量,以及 GPU 和 TPU 的架构差异本质上是如何围绕矩阵乘法和数据搬运展开的。对于想理解 AI 算力底层逻辑的人来说,这是一堂从电路到架构的芯片设计入门课。
👨⚕️ 本期嘉宾
Reiner Pope,MatX 的 CEO。MatX 是一家专注 AI 芯片的新公司。Reiner 长期关注 AI 计算基础设施和芯片架构设计,擅长用从底层电路到系统架构的方式,解释 AI 芯片如何服务于大规模模型训练与推理。
⏱️ 时间戳
开场 & 播客简介
从逻辑门开始理解 AI 芯片
芯片内部到底有什么:从逻辑门、导线到矩阵乘法
为什么 multiply-accumulate 是 AI 芯片的核心原语
用 4-bit 乘法手算 AI 芯片里的基础计算
Full Adder:三个 bit 如何被压缩成两个 bit
Dadda Multiplier:用 full adder 高效完成乘法与累加
为什么 multiply-accumulate 在电路上有漂亮的 p×q 结构
低精度、数据移动与隐藏成本
FP4 和 FP8 能不能互换:芯片设计里的精度选择
Bit width 的平方缩放:低精度为什么如此有利
从 CUDA Core 看传统处理器的数据路径
Mux 是什么:一次“选择”背后的真实电路成本
数据移动比计算更贵:register file 到 ALU 的代价
Tensor Core 的动机:把更多面积花在真正的计算上
Systolic Array:把矩阵乘法固化进硬件
从单次乘加到矩阵-向量乘法:为什么要往外层 loop 走
Systolic Array 如何让计算按平方增长、通信按线性增长
权重本地保存:把矩阵放在计算发生的地方
如何慢速灌入权重,避免 X×Y 级别的外部布线
计算与通信的比例:从 gate 层到数据中心都反复出现的问题
TPU 里的大规模 systolic array:矩阵乘法最有效的电路机制
芯片设计的关键取舍
真正让芯片设计者纠结的问题:尺寸怎么定
Clock Cycle 是什么:芯片为什么需要全局同步
速度与可靠性:为什么必须保证计算赶上下一个 clock
Pipeline Register:用更多寄存器换更高频率
有反馈回路时,为什么插入 pipeline 会变难
过快的 clock speed 也会伤害吞吐量
吞吐量公式:每个周期能做多少事 × 每秒多少个周期
FPGA、ASIC 与可编程硬件
为什么高频交易会用 FPGA:确定性延迟与商业取舍
FPGA 如何模拟 ASIC:register、LUT 与大量 mux
“Field Programmable”到底是什么意思
Lookup Table:把 truth table 变成可编程 gate
为什么 FPGA 比 ASIC 贵一个数量级
慢十倍的原因:LUT 和 mux 带来的巨大开销
CPU、缓存与现代硬件架构
为什么 CPU 很难保证确定性 clock cycles
Cache 的不确定性:CPU 延迟为什么会受环境影响
Scratch Pad vs Cache:把内存控制权交给软件
现代硬件还算冯·诺依曼架构吗?
Branch Predictor:CPU 为什么要预测分支
大脑与芯片的高层比较:稀疏、共址内存与慢速时钟
GPU、TPU 与 AI 加速器架构
GPU 和 TPU 的高层差异:很多小 SM vs 少量大矩阵单元
Tensor Core 和 TPU MXU 为什么非常相似
大 Systolic Array 的优势与数据搬运瓶颈
MatX 的公开方向:Splittable Systolic Array
收尾与感谢
🌟 精彩内容
💡 AI 芯片最想做的事:矩阵乘法
Reiner 从最底层解释,AI 芯片的核心不是某种神秘操作,而是把大量矩阵乘法高效地映射到硬件上。而矩阵乘法最基本的计算单元,就是 multiply-accumulate:把两个数相乘,再把结果累加到已有结果上。
“AI 芯片最想计算的主要功能,是矩阵乘法。”
🧮 低精度为什么能带来巨大收益
节目中最重要的硬件直觉之一,是 bit width 的成本并不是线性增长,而是近似平方增长。也就是说,从 FP8 降到 FP4,不只是数字变短,而是乘法电路面积、功耗和吞吐量都会发生非常大的变化。这也是低精度计算能成为 AI 芯片核心优化方向的根本原因。
“bit width 存在这种平方 scaling。这非常有效,也是 low precision arithmetic 在 neural net 里这么好用的唯一原因。”
🔌 真正昂贵的不是计算,而是数据移动
Reiner 用 register file、ALU 和 mux 的例子说明,软件里看似简单的“选择一个寄存器”,在硬件里其实需要大量 AND、OR 和布线。对于小精度乘加来说,把数据从 register file 搬到 logic unit 的成本,可能比真正做乘法和加法还高很多。
“光是把数据从 register file 移到 logic unit,这部分工作就比 logic unit 本身贵很多很多倍。”
🏗️ Systolic Array 的核心思想:让计算多于通信
Tensor Core 和 TPU 中的 systolic array,本质上是把矩阵乘法的更大一层循环固化进硬件。它让权重矩阵尽量留在计算发生的地方,只把输入向量和输出结果搬进搬出,从而让计算量按平方增长,而通信量尽量保持在线性规模。
“这个问题在整个技术栈从上到下都会出现。”
⏱️ Clock Speed 不是越快越好
节目里对 clock cycle 的解释非常精彩:芯片通过全局时钟让大量并行电路同步,但如果为了提高频率插入太多 pipeline register,就会把大量面积花在同步和存储上,反而减少每个周期真正完成的计算量。因此芯片吞吐量不是只看频率,而是频率和每周期工作量的乘积。
“你可以把芯片的吞吐量理解成两个东西的乘积:每个 clock cycle 能做多少事,再乘以每秒有多少个 clock。”
🧩 FPGA 为什么灵活但昂贵
FPGA 能在部署后重新编程,是因为它用 LUT 和大量 mux 来模拟可配置的逻辑门和连线。但这种灵活性代价很高:一个在 ASIC 里只需要几个 gate 的逻辑,在 FPGA 里可能要通过几十个 gate 的 lookup table 和 mux 来实现。这解释了为什么 FPGA 通常比 ASIC 更贵、更慢、更耗能。
“所谓 programming,就是配置这些 mux 里的每一个。”
🧠 GPU 和 TPU 的根本差异
Reiner 用一个很直观的类比解释 GPU 与 TPU:GPU 像是在整颗芯片上铺了很多个很小的 TPU,每个 SM 里都有较小的 matrix unit 和 vector unit;而 TPU 则更像是少量但更大的矩阵单元。前者更灵活,后者更能摊薄矩阵乘法中的通信和控制成本。
“从非常高层的角度看,GPU 就像是在整颗芯片上铺了很多个很小很小的 TPU。”
🌐 播客信息补充
本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的
使用 AI 进行翻译,因此可能会有一些地方不通顺;
如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
