AI 芯片的地震：TPU 会是击碎 NVIDIA 神话的那颗子弹吗？

Meta 疑似准备砸下数十亿美元采购 Google TPU，引爆科技圈震动——Alphabet 股价大涨、英伟达连续下跌。一块原本“谷歌内部用”的专用芯片，为什么突然具备影响巨头命运的力量？TPU 到底解决了什么 GPU 无法解决的问题？它的“脉动阵列”、OCS 光交换、XLA 编译器又有什么不同凡响？

在本期节目中，我们从最新新闻切入，从 GPU vs TPU 的设计哲学，到超大模型训练的底层逻辑，到谷歌这十多年坚持的软硬协同与定制化路线，为你拆解这场正在重塑 AI 版图的芯片对决。

这是不仅关于一块芯片的故事，更是关于未来算力格局——以及 AI 产业下一步走向的关键线索。

• GPU vs TPU：两条路线的分岔
GPU 强在通用与灵活；
TPU 专注密集矩阵与能效。
单卡差距不大，但规模上 TPU 的扩展效率明显胜出。

• 脉动阵列：TPU 性能的核心秘密
“自动传送带”式的数据流 → 极少访存、极高利用率。
为什么大模型越大，TPU 越强？

• 弱点：稀疏模型时代的挑战
MoE、Sparse Transformer 天然不适合脉动阵列结构。

• 超大规模扩展：OCS 光路交换
动态“抄近道”、灵活“节点袋”、为全对全通信优化的拓扑。
4096 芯片的 TPUv4 Pod 如何跑得又快又稳？

• XLA：TPU 的软件大脑
提前编译、确定性调度、自动并行。
跨数千芯片训练也能“一行代码跑起来”。

• 未来：是 TPU 赢还是 GPU 赢？
TPU 做密集训练、GPU 做通用任务，
专用加速器加入后，AI 将进入“多芯片协同”的新阶段。