前游戏开发者,现海外云厂商架构师 [反向弯曲] 主理的 [AI×游戏] 播客!
帮助互联网|游戏从业人员
拆解全球游戏 AI 前沿动态,深挖技术落地干货。
让你轻松拿捏行业脉搏,预判 AI + 游戏的 "下一帧"。
对未来好奇?速戳订阅!
小红书b站同名:反向弯曲
=====================================
一万五的 RTX 5090 连一个 70 亿参数的模型都装不下,两万五美金的 H100 却轻松搞定——它们出自同一家公司,用的同一套架构,为什么命运完全不同?
这期我从一个前游戏开发、现云架构师的双重视角,把 GPU 从芯片内部拆给你看。Tensor Core 和 RT Core 如何让"双胞胎"走上不同的路?为什么 2025 年 AI 真正的瓶颈不是算力,而是"搬数据的速度"(Memory Wall)?NVIDIA 的 CUDA 护城河到底有多深——400 万开发者、20 年软件积累意味着什么?
然后我们逐个拆解五大挑战者:Google TPU 的脉动阵列、AWS Trainium3 的成本账、AMD MI350X 的迁移牌、Groq 的极致延迟、华为昇腾的自主之路。最后算一笔大厂的经济账:年采购多少才值得自研芯片?
不管你是技术人、产品经理还是对 AI 基础设施好奇的人,这期能帮你看懂 GPU 战争的真实底牌。

=====================================
时间轴
两种不同的显卡
看不见的战争:GPU
关键概念解释
兰博基尼和重型卡车
7B 的显卡训练要多少显存?
GPU 的"双胞胎分家"
Tensor Core
RT Core
游戏和 AI 的工作流程
Memory Wall:现代 AI 真正的瓶颈
H200
B200
精度压缩
NVIDIA 为啥垄断了
挑战者们
Google 的 TPU
AWS 的 Trainium
AMD MI350X
Groq
华为昇腾
大厂的经济账
结尾
=====================================
参考链接:
- [NVIDIA H100 数据中心 GPU](www.nvidia.com)
- [NVIDIA H200 数据中心 GPU](www.nvidia.com)
- [NVIDIA GB200 NVL72](www.nvidia.com)
- [NVIDIA RTX 5090](www.nvidia.com)
- [NVIDIA Hopper Architecture In-Depth](developer.nvidia.com)
- [NVIDIA Blackwell GTC 2024 公告](nvidianews.nvidia.com)
- [Google Cloud TPU 架构文档](cloud.google.com)
- [AWS Trainium](aws.amazon.com)
- [AMD ROCm 文档](rocm.docs.amd.com)
- [Groq GroqCloud](groq.com)
- [Cerebras 晶圆级芯片](www.cerebras.ai)
- [Wikipedia: Blackwell 微架构](en.wikipedia.org(microarchitecture))
- [Wikipedia: CUDA](en.wikipedia.org)
- [Wikipedia: NVLink](en.wikipedia.org)
- [Wikipedia: High Bandwidth Memory](en.wikipedia.org)

