AI下一帧 EP023 | 2万的显卡为什跑不动ai? - AI下一帧

前游戏开发者，现海外云厂商架构师 [反向弯曲] 主理的 [AI×游戏] 播客！
帮助互联网｜游戏从业人员
拆解全球游戏 AI 前沿动态，深挖技术落地干货。
让你轻松拿捏行业脉搏，预判 AI + 游戏的 "下一帧"。
对未来好奇？速戳订阅！
小红书b站同名：反向弯曲
=====================================

一万五的 RTX 5090 连一个 70 亿参数的模型都装不下，两万五美金的 H100 却轻松搞定——它们出自同一家公司，用的同一套架构，为什么命运完全不同？

这期我从一个前游戏开发、现云架构师的双重视角，把 GPU 从芯片内部拆给你看。Tensor Core 和 RT Core 如何让"双胞胎"走上不同的路？为什么 2025 年 AI 真正的瓶颈不是算力，而是"搬数据的速度"（Memory Wall）？NVIDIA 的 CUDA 护城河到底有多深——400 万开发者、20 年软件积累意味着什么？

然后我们逐个拆解五大挑战者：Google TPU 的脉动阵列、AWS Trainium3 的成本账、AMD MI350X 的迁移牌、Groq 的极致延迟、华为昇腾的自主之路。最后算一笔大厂的经济账：年采购多少才值得自研芯片？

不管你是技术人、产品经理还是对 AI 基础设施好奇的人，这期能帮你看懂 GPU 战争的真实底牌。

=====================================
时间轴

00:04 两种不同的显卡
01:58 看不见的战争：GPU
03:21 关键概念解释
05:41 兰博基尼和重型卡车
07:16 7B 的显卡训练要多少显存？
10:01 GPU 的"双胞胎分家"
10:49 Tensor Core
13:26 RT Core
14:34 游戏和 AI 的工作流程
16:46 Memory Wall：现代 AI 真正的瓶颈
18:48 H200
22:01 B200
22:57 精度压缩
25:01 NVIDIA 为啥垄断了
30:27 挑战者们
30:42 Google 的 TPU
33:56 AWS 的 Trainium
35:34 AMD MI350X
36:26 Groq
37:54 华为昇腾
38:52 大厂的经济账
42:45 结尾

=====================================
参考链接：

- [NVIDIA H100 数据中心 GPU](www.nvidia.com)
- [NVIDIA H200 数据中心 GPU](www.nvidia.com)
- [NVIDIA GB200 NVL72](www.nvidia.com)
- [NVIDIA RTX 5090](www.nvidia.com)
- [NVIDIA Hopper Architecture In-Depth](developer.nvidia.com)
- [NVIDIA Blackwell GTC 2024 公告](nvidianews.nvidia.com)
- [Google Cloud TPU 架构文档](cloud.google.com)
- [AWS Trainium](aws.amazon.com)
- [AMD ROCm 文档](rocm.docs.amd.com)
- [Groq GroqCloud](groq.com)
- [Cerebras 晶圆级芯片](www.cerebras.ai)
- [Wikipedia: Blackwell 微架构](en.wikipedia.org(microarchitecture))
- [Wikipedia: CUDA](en.wikipedia.org)
- [Wikipedia: NVLink](en.wikipedia.org)
- [Wikipedia: High Bandwidth Memory](en.wikipedia.org)