#595. Lambda CTO：GPU 神话破灭后，AI 时代最稀缺的到底是什么

📝 本期播客简介

本期我们克隆了：The MAD Podcast with Matt Turck: The GPU Myth: State of AI Compute 2026 | Stephen Balaban

原内容更新时间：2026-06-18

本期来自 Matt Turck 主持的 The MAD Podcast，这是一档长期聚焦 AI、数据基础设施与科技创业的深度访谈节目。主持人 Matt Turck 是 FirstMark 投资人，本期嘉宾 Stephen Balaban 是 Lambda 联合创始人兼 CTO。Lambda 是 AI 算力热潮中最受关注的 neocloud 之一，从早年做人脸识别、DeepDream 图像应用、GPU 工作站，到今天运营接近十亿美元年化收入规模的 GPU 云业务，几乎完整穿越了深度学习商业化的多个周期。

这期节目核心讨论一个曾经被广泛误判的问题：GPU 计算会不会像普通云资源一样迅速商品化？Stephen 的答案非常明确：不会。因为 AI 云不是“租几块 GPU”这么简单，而是土地、电力、数据中心、液冷、网络、存储、虚拟化、软件编排、长期承购协议和私人信贷共同构成的超复杂垂直整合业务。节目里大量拆解了为什么 H100 的租赁价格并未像外界指数显示的那样简单下跌，为什么 2023 年部署的 GPU 今天反而可能租得更贵，以及为什么“会计折旧周期”并不等于“经济可用寿命”。

更重要的是，这期对话把 AI 算力从抽象概念拉回到物理世界：能源如何变成 tokens？一个吉瓦级 AI 工厂到底意味着什么？为什么 AI 数据中心的瓶颈正在变成土地和电力？NVIDIA 真正的护城河是芯片本身，还是 CUDA、cuDNN、NCCL 与开发者生态？此外，Stephen 还提出了“AI 不会写软件，而会变成软件”“神经操作系统”“自组装软件”“一个人一个 GPU”等极具想象力的判断，非常适合关注 AI 基础设施、云计算、创业融资、半导体与未来软件形态的听众。

👨‍⚕️ 本期嘉宾

Stephen Balaban，Lambda 联合创始人兼 CTO。Lambda 是面向 AI 训练与推理的 GPU 云服务和 neocloud 公司，长期为 AI 研究者、实验室和企业提供高性能计算资源。Stephen 从 2012 年深度学习早期就开始创业，最初做人脸识别 API，后来做过摄像头棒球帽 Lambda Hat、DeepDream 图像产品 DreamScope，再因高昂 AWS 账单转向自建 GPU 集群，逐步发展出 GPU 工作站、服务器和云业务。相比单纯的云厂商高管，他的特殊价值在于同时理解深度学习工作负载、硬件供应链、数据中心物理层、GPU 网络、云软件编排、资本开支与融资结构，因此这期节目不只是技术访谈，也是一堂 AI 算力产业的底层商业课。

⏱️ 时间戳

开场与本期问题

00:00 跨国串门计划开场：用中文克隆全球优质播客

00:38 本期克隆节目介绍：The MAD Podcast 与 AI 算力硬核对话

01:29 Stephen 开场判断：GPU 不会被扔掉，AI 算力仍严重建设不足

02:05 Matt Turck 正式介绍 Lambda 与 neocloud 主题

02:22 本期议题总览：GPU 不是商品、数据中心融资、H100 租赁与吉瓦级 AI 工厂

02:38 Lambda 的疯狂起源：从人脸识别到摄像头棒球帽，再到十亿美元云业务

GPU 云为什么没有商品化

02:54 当年唱衰 neocloud 的人错在哪里

03:16 核心判断：云计算不是商品化服务

04:02 GPU 租赁价格下降了吗？长期费率与按需费率的差异

04:13 Bloomberg H100 租赁价格指数可能误读了市场结构

05:05 neocloud 的竞争优势来自技术还是融资

05:19 Lambda 的软件编排层：把超大 GPU 集群切分给客户

05:38 从网页启动 16 到 4000 块 GPU：one-click cluster 的差异化

05:54 数据中心建设、上线速度与金融结构同样是创新层

06:30 neocloud 会赢家通吃，还是容纳多个大玩家

06:52 技术、资本形成与经济护城河会塑造寡头市场

AI 算力需求、Scaling Laws 与瓶颈

07:10 未来到底是过度建设还是建设不足

07:21 Stephen 判断：总体仍然严重建设不足

07:39 “把钱投进去，另一端产出软件”的系统正在成形

07:53 Opus 4/5 之后，AI 需求继续扩大的原因

08:06 Scaling Laws 还没看到尽头

08:39 模型能力提升会不断扩大可服务市场

09:08 计算效率提升十倍，会不会打击算力需求

09:16 效率提高只会让每个人处理十倍 tokens

10:08 Lambda 当前建设的主要瓶颈在哪里

10:14 瓶颈通常先是局部问题，再变成全局问题

10:28 行业级瓶颈：土地、电力与数据中心设备

10:52 反数据中心运动有多真实

10:58 社区参与、大型资本项目与公共沟通

11:42 关于数据中心耗水的错误信息

12:24 行业需要更清楚解释现代 AI 数据中心的真实影响

从能源到 tokens：AI 计算的物理链路

13:28 打开引擎盖：如何理解 FLOPS、GPU 小时、tokens 和 MFU

13:39 用物理视角拆解计算单位

13:57 从光子、天然气分子到焦耳和瓦特

14:34 PUE：数据中心自身冷却效率

14:43 服务器、网络、存储如何产生 FLOPS

14:55 从 FLOPS 到 tokens，再到真正的智能

15:19 同一款芯片，为什么不同公司能榨出不同价值

15:30 GPU 小时成本中最大部分是折旧

15:42 利用率如何放大或压低每小时折旧成本

16:00 云产品体验决定 GPU 利用率

16:10 按需零售价格与长期批发价格的巨大差异

16:27 Lambda 如何追求最高美元利用率和百分比利用率

GPU 网络、前沿推理与成本结构

16:59 从一堆 GPU 到 GPU 网络：AI 集群如何连接

17:09 GB300 NVL72、NVLink、InfiniBand 与 spine-leaf 拓扑

17:35 全连接无阻塞网络如何服务训练和推理

17:47 什么是 frontier inference 前沿推理

18:16 前沿推理不是“推理模型”，而是超大前沿模型的分布式推理

18:47 训练中的反向传播与前向传播

19:02 大规模训练基础设施如何复用到推理

19:10 混合专家模型、分片策略与分布式推理

19:39 小模型可放进单卡，大模型必须跨服务器运行

19:52 模型成本最贵的到底是什么

20:06 单位成本最大项依然是折旧

20:25 从发电厂、数据中心到服务器的吉瓦级资本开支

20:47 服务器物料清单中 GPU 和 HBM 内存的重要性

NVIDIA 护城河与 AI 云技术栈

21:06 Lambda 使用哪些 NVIDIA 芯片

21:16 从 V100、A100、H100 到 B300、VR200 的芯片栈

21:47 未来会不会进入多种 AI 芯片并存的世界

21:56 多种硅芯片竞争已经发生

22:13 NVIDIA 的平台优势与开发者生态

22:34 NVIDIA 的护城河不只是 CUDA

22:38 cuDNN：为矩阵乘法高度调校的引擎

23:24 NCCL：感知网络拓扑的通信优化库

23:48 软件栈是新芯片玩家很难跨过的门槛

24:05 网络与存储在 AI 云中的角色

24:13 训练数据、推理输入与高速存储

24:34 Lambda 的 AI 优化并行文件系统

24:55 “完全自研”到底意味着什么

25:35 除非自己开采硅和造 ASML，否则没有真正从零自研

25:50 如何把一万个 GPU 集群切分成可用云资源

26:05 带内网络、计算网络、带外监控网络的分工

26:40 RDMA 与 GPU HBM 直接内存访问

27:06 现代 AI 数据中心背后的庞大软件工程

27:40 为什么传统数据中心房东并不知道 AI 数据中心里真正发生什么

28:05 让公众理解：AI 数据中心处理的就是 ChatGPT 请求

垂直整合、区域策略与融资结构

28:21 Lambda 是租数据中心，还是自己建设

28:31 从租用方走向完整垂直整合

28:43 找土地、做设计、融资建设、绑定长期承购协议

29:18 Lambda 会不会把自建数据中心租给别人

29:25 当前重点是服务 Lambda 自身算力需求

29:49 Lambda 的国际化策略：聚焦北美尤其美国

30:23 AI 云需要像传统云一样贴近客户吗

30:29 延迟在许多 AI 工作负载中并不重要

30:51 Agent 和研究报告场景里，token 成本比延迟更关键

31:14 数据主权和治理会影响区域部署

31:38 AI 算力融资结构：按需云与长期承购协议

31:53 按需业务看 Lambda 信用，长期协议看最终客户信用

32:04 GPU、租约和承购协议如何进入资产抵押贷款结构

32:52 债权人开始真正理解 NVIDIA 芯片的资产价值

32:58 2023 年 H100 今天租金反而更高

33:29 为什么 H100 能以更高费率出租

33:41 高需求与更慢技术折旧共同推动价格

34:03 “GPU 三五年就报废”是错误判断

34:19 会计折旧周期不等于可用寿命

34:25 真正重要的是经济可用寿命

34:42 计算单元会不会形成现货和衍生品市场

34:52 GPU 现货市场与更复杂证券的早期苗头

35:34 GPU 正在被视为更成熟的信贷资产类别

Lambda 的创业史与团队韧性

35:46 回到起点：Lambda 最早从什么开始

35:58 为什么 Lambda 很难被传统 VC 框架理解

36:18 2012 年创办 Lambda：做人脸识别软件

36:30 用四张 GTX 580 工作站训练卷积神经网络

36:54 ImageNet、AlexNet 与深度学习早期时刻

37:21 人脸识别 API 有用户但没有太多现金

37:44 帮助 Perceptio 在 iPhone 本地跑神经网络

38:23 Perceptio 被 Apple 收购，并进入 iOS 图像识别能力

38:39 Lambda Hat：帽檐摄像头与早期视觉数据采集

39:04 看到未来还不够，时机同样关键

39:19 在深圳做硬件：PCB、消费电子与商业认知

39:35 DreamScope：早期版 MidJourney 式图像生成产品

40:06 AWS 账单暴涨，迫使 Lambda 自建 GPU 小集群

40:29 一个月半回本：从省钱发现 GPU 算力生意

40:45 从卖工作站和服务器到开发云平台

41:08 2019 年真正开始推广云业务

41:26 云业务增长到接近十亿美元年化收入

41:43 早期团队今天还在吗

42:36 Lambda mafia：校友网络与 Positron 的诞生

42:49 困难时期如何把团队留在一起

42:53 资本密集型创业的系统冲击与新冠考验

43:21 “咬牙扛住”：穿过痛苦、解决问题

43:44 公司存在的唯一理由：做出客户愿意付钱和推荐的东西

44:02 Lambda 101：把自己代入那只训练神经网络的 Linux 企鹅

44:32 T 恤、白色机架与让客户惊喜的文化

新 CEO、快速部署与 AI 优先数据中心

45:00 为什么请 Michel Combe 出任 CEO

45:15 创始人不必执着于 CEO 头衔

45:39 Stephen 更关心技术和打造跨时代公司

46:08 从融资、资本组织和日常管理中抽身

46:42 作为 CTO 专注快速部署数据中心

46:58 Lambda 要成为垂直整合、高速运转的强公司

47:06 目标：像 xAI 一样甚至更快上线算力

47:43 快速部署依赖选址、MEP 供应、建设方式与客户接入

48:01 传统数据中心设计者更像地产从业者

48:24 传统云区域复杂，而 AI 数据中心约束完全不同

48:53 AI 数据中心或许可接受更低可用性，换取更优设计

未来软件：神经 OS、自组装软件与 Agent

49:06 “AI 不会写软件，它会变成软件”是什么意思

49:12 神经软件、神经计算机与神经操作系统

49:19 用 ChatGPT/Claude 渲染 ASCII 桌面界面来感受未来

49:43 大语言模型未来不是生成软件，而是变成软件

49:57 电脑上的许多软件可能被神经交互方式接管

50:15 你可以把软件想象出来，只实现你正在体验的部分

50:35 vibe coding 与 neural software 的区别

50:41 vibe coding 仍是输出传统可编译代码

51:14 即时 vibe coding：软件应用被实时创造

51:24 neural software 没有正在运行的代码

51:45 神经软件距离大规模采用还有多远

51:50 Lambda 已经做出神经软件原型

52:08 大规模采用可能还需要十到十五年

52:27 自动驾驶可被视为神经软件的一种形式

52:57 Agent 会如何改变计算资源需求

53:04 从用户工作流理解计算层变化

53:40 Agent 工作流会消耗大量编译、测试和代码搜索时间

53:58 云服务将承担更多传统 CPU 工作负载

54:16 Lambda 内部如何使用 AI Agent

54:33 自组装软件：产品需求与用户反馈接入 24/7 Agent 集群

54:54 从 bug/需求到 Agent 实时实现

55:23 未来 Agent 甚至会反向请求人类帮它完成现实任务

吉瓦级 AI 工厂与“一个人一个 GPU”

56:05 什么是吉瓦级 AI 工厂

56:17 AI 工厂：土地、数据中心和服务器共同生成 tokens

56:25 一吉瓦意味着十亿瓦，约等于纽约市用电量的五分之一

56:38 “一个人一个 GPU”的长期愿景

56:43 AI 会孕育划时代公司

57:05 从 Apple “一个人一台电脑”到 Lambda “一个人一个 GPU”

57:26 Apple 愿景用了几十年才接近实现

58:53 为什么未来每个人都需要 GPU 算力

59:20 “一个人一个 GPU”不是一夜实现，而是长期文明级目标

快速观点与收尾

59:33 快问快答开始

59:38 AI 里什么被过度炒作了

59:41 非软件工程场景里的智能体工作流常被高估

59:48 好的 Agent 工作流需要明确反馈机制

01:00:07 不容易验证的任务不适合长期 Agent 迭代

01:00:52 AI 里什么被低估了

01:00:54 神经 OS、自组装软件与软件开发 Agent 被低估

01:01:14 很多人从未真正尝试过高强度 Claude Agent 工作流

01:01:31 节目收尾：Matt 感谢 Stephen

🌟 精彩内容

💡 云计算不是商品，AI 云更不是

Stephen 反驳了“GPU 计算会被商品化”的常见判断。他认为，AI 云本质上是土地、电力、数据中心、网络、存储、虚拟化、软件编排和融资结构的综合体，不是把 GPU 放到网上出租这么简单。真正的竞争壁垒来自整条垂直整合链条，而不是单一硬件资源。

“最核心的一点是，云计算不是商品化服务。”

💡 我们不是算力过剩，而是仍然建设不足

面对 AI 算力是否过度建设的争论，Stephen 的判断非常明确：只要 Scaling Laws 还在继续、模型能力还在扩大可服务市场，算力需求就会继续被低估。AI 已经从客服、搜索扩展到软件工程、Agent 和更多知识工作场景，需求曲线远没有结束。

“我认为总体上我们仍然建设不足。”

💡 AI 正在变成一台“吃钱吐软件”的机器

Stephen 用一个非常商业化也非常直观的比喻描述大模型时代：投入资本、算力和数据，另一端就能产出软件能力。这不只是技术判断，也解释了为什么算力基础设施会成为 AI 时代最核心的生产资料之一。

“我们有了一个很惊人的系统，可以把钱吃进去，然后输出软件。”

💡 GPU 的寿命不能只看会计折旧

外界常说 GPU 三五年就会被淘汰，但 Lambda 的实际经验是，2023 年部署的 H100 今天反而可能以更高费率出租。Stephen 区分了会计折旧周期、可用寿命和经济可用寿命：真正决定资产价值的，不是账面上几年折完，而是它还能不能产生现金流。

“真正重要的是经济可用寿命。”

💡 从能源到 tokens，AI 不是虚拟的

这期最有启发的部分，是 Stephen 把 AI 计算还原成物理链路：能源进入电厂变成瓦特，数据中心消耗电力并受 PUE 影响，服务器与 GPU 产生 FLOPS，模型把 FLOPS 转化为 tokens，最终用户再把 tokens 转化为智能。AI 看似在云端，底层其实是极其具体的能源与工程系统。

“左边是所有能源生产。右边是某个人正在消耗的 tokens。”

💡 NVIDIA 的护城河不只是芯片，而是整套软件生态

Stephen 认为 NVIDIA 的优势不仅在 GPU 性能，也在 CUDA、cuDNN、NCCL 和开发者生态。尤其 cuDNN 和 NCCL 让矩阵乘法、分布式通信、allreduce 等关键环节被高度优化，这使新芯片玩家很难只靠便宜硬件快速替代。

“CUDA 当然很重要，它就像我们所有人都在里面游泳的水。”

💡 AI 不会只是写软件，它会变成软件

Stephen 提出了“神经软件”与“神经操作系统”的设想：未来用户可能不再打开固定功能的软件，而是直接和模型交互，让模型实时模拟和生成软件行为。传统软件是静态代码，vibe coding 是让模型生成代码，而 neural software 则可能根本没有正在运行的人类代码，只有神经网络的上下文与激活状态。

“大语言模型未来不是生成软件，而是变成软件。”

💡 “一个人一个 GPU”是 AI 时代的长期信条

Stephen 借用 Apple 早年“一个人一台电脑”的愿景，提出“一个人一个 GPU”。这不是短期口号，而是对未来几十年算力普及的判断：每个人的工作、娱乐、创作和信息获取都将需要大量 AI 计算，就像个人电脑和手机最终成为日常基础设施一样。

“我相信未来美国每个人都需要一个 GPU，甚至更多 GPU 的算力。”

```

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的

使用 AI 进行翻译，因此可能会有一些地方不通顺；

如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight