📝 本期播客简介
本期我们克隆了:The MAD Podcast with Matt Turck: The GPU Myth: State of AI Compute 2026 | Stephen Balaban
原内容更新时间:2026-06-18
本期来自 Matt Turck 主持的 The MAD Podcast,这是一档长期聚焦 AI、数据基础设施与科技创业的深度访谈节目。主持人 Matt Turck 是 FirstMark 投资人,本期嘉宾 Stephen Balaban 是 Lambda 联合创始人兼 CTO。Lambda 是 AI 算力热潮中最受关注的 neocloud 之一,从早年做人脸识别、DeepDream 图像应用、GPU 工作站,到今天运营接近十亿美元年化收入规模的 GPU 云业务,几乎完整穿越了深度学习商业化的多个周期。
这期节目核心讨论一个曾经被广泛误判的问题:GPU 计算会不会像普通云资源一样迅速商品化?Stephen 的答案非常明确:不会。因为 AI 云不是“租几块 GPU”这么简单,而是土地、电力、数据中心、液冷、网络、存储、虚拟化、软件编排、长期承购协议和私人信贷共同构成的超复杂垂直整合业务。节目里大量拆解了为什么 H100 的租赁价格并未像外界指数显示的那样简单下跌,为什么 2023 年部署的 GPU 今天反而可能租得更贵,以及为什么“会计折旧周期”并不等于“经济可用寿命”。
更重要的是,这期对话把 AI 算力从抽象概念拉回到物理世界:能源如何变成 tokens?一个吉瓦级 AI 工厂到底意味着什么?为什么 AI 数据中心的瓶颈正在变成土地和电力?NVIDIA 真正的护城河是芯片本身,还是 CUDA、cuDNN、NCCL 与开发者生态?此外,Stephen 还提出了“AI 不会写软件,而会变成软件”“神经操作系统”“自组装软件”“一个人一个 GPU”等极具想象力的判断,非常适合关注 AI 基础设施、云计算、创业融资、半导体与未来软件形态的听众。
👨⚕️ 本期嘉宾
Stephen Balaban,Lambda 联合创始人兼 CTO。Lambda 是面向 AI 训练与推理的 GPU 云服务和 neocloud 公司,长期为 AI 研究者、实验室和企业提供高性能计算资源。Stephen 从 2012 年深度学习早期就开始创业,最初做人脸识别 API,后来做过摄像头棒球帽 Lambda Hat、DeepDream 图像产品 DreamScope,再因高昂 AWS 账单转向自建 GPU 集群,逐步发展出 GPU 工作站、服务器和云业务。相比单纯的云厂商高管,他的特殊价值在于同时理解深度学习工作负载、硬件供应链、数据中心物理层、GPU 网络、云软件编排、资本开支与融资结构,因此这期节目不只是技术访谈,也是一堂 AI 算力产业的底层商业课。
⏱️ 时间戳
开场与本期问题
跨国串门计划开场:用中文克隆全球优质播客
本期克隆节目介绍:The MAD Podcast 与 AI 算力硬核对话
Stephen 开场判断:GPU 不会被扔掉,AI 算力仍严重建设不足
Matt Turck 正式介绍 Lambda 与 neocloud 主题
本期议题总览:GPU 不是商品、数据中心融资、H100 租赁与吉瓦级 AI 工厂
Lambda 的疯狂起源:从人脸识别到摄像头棒球帽,再到十亿美元云业务
GPU 云为什么没有商品化
当年唱衰 neocloud 的人错在哪里
核心判断:云计算不是商品化服务
GPU 租赁价格下降了吗?长期费率与按需费率的差异
Bloomberg H100 租赁价格指数可能误读了市场结构
neocloud 的竞争优势来自技术还是融资
Lambda 的软件编排层:把超大 GPU 集群切分给客户
从网页启动 16 到 4000 块 GPU:one-click cluster 的差异化
数据中心建设、上线速度与金融结构同样是创新层
neocloud 会赢家通吃,还是容纳多个大玩家
技术、资本形成与经济护城河会塑造寡头市场
AI 算力需求、Scaling Laws 与瓶颈
未来到底是过度建设还是建设不足
Stephen 判断:总体仍然严重建设不足
“把钱投进去,另一端产出软件”的系统正在成形
Opus 4/5 之后,AI 需求继续扩大的原因
Scaling Laws 还没看到尽头
模型能力提升会不断扩大可服务市场
计算效率提升十倍,会不会打击算力需求
效率提高只会让每个人处理十倍 tokens
Lambda 当前建设的主要瓶颈在哪里
瓶颈通常先是局部问题,再变成全局问题
行业级瓶颈:土地、电力与数据中心设备
反数据中心运动有多真实
社区参与、大型资本项目与公共沟通
关于数据中心耗水的错误信息
行业需要更清楚解释现代 AI 数据中心的真实影响
从能源到 tokens:AI 计算的物理链路
打开引擎盖:如何理解 FLOPS、GPU 小时、tokens 和 MFU
用物理视角拆解计算单位
从光子、天然气分子到焦耳和瓦特
PUE:数据中心自身冷却效率
服务器、网络、存储如何产生 FLOPS
从 FLOPS 到 tokens,再到真正的智能
同一款芯片,为什么不同公司能榨出不同价值
GPU 小时成本中最大部分是折旧
利用率如何放大或压低每小时折旧成本
云产品体验决定 GPU 利用率
按需零售价格与长期批发价格的巨大差异
Lambda 如何追求最高美元利用率和百分比利用率
GPU 网络、前沿推理与成本结构
从一堆 GPU 到 GPU 网络:AI 集群如何连接
GB300 NVL72、NVLink、InfiniBand 与 spine-leaf 拓扑
全连接无阻塞网络如何服务训练和推理
什么是 frontier inference 前沿推理
前沿推理不是“推理模型”,而是超大前沿模型的分布式推理
训练中的反向传播与前向传播
大规模训练基础设施如何复用到推理
混合专家模型、分片策略与分布式推理
小模型可放进单卡,大模型必须跨服务器运行
模型成本最贵的到底是什么
单位成本最大项依然是折旧
从发电厂、数据中心到服务器的吉瓦级资本开支
服务器物料清单中 GPU 和 HBM 内存的重要性
NVIDIA 护城河与 AI 云技术栈
Lambda 使用哪些 NVIDIA 芯片
从 V100、A100、H100 到 B300、VR200 的芯片栈
未来会不会进入多种 AI 芯片并存的世界
多种硅芯片竞争已经发生
NVIDIA 的平台优势与开发者生态
NVIDIA 的护城河不只是 CUDA
cuDNN:为矩阵乘法高度调校的引擎
NCCL:感知网络拓扑的通信优化库
软件栈是新芯片玩家很难跨过的门槛
网络与存储在 AI 云中的角色
训练数据、推理输入与高速存储
Lambda 的 AI 优化并行文件系统
“完全自研”到底意味着什么
除非自己开采硅和造 ASML,否则没有真正从零自研
如何把一万个 GPU 集群切分成可用云资源
带内网络、计算网络、带外监控网络的分工
RDMA 与 GPU HBM 直接内存访问
现代 AI 数据中心背后的庞大软件工程
为什么传统数据中心房东并不知道 AI 数据中心里真正发生什么
让公众理解:AI 数据中心处理的就是 ChatGPT 请求
垂直整合、区域策略与融资结构
Lambda 是租数据中心,还是自己建设
从租用方走向完整垂直整合
找土地、做设计、融资建设、绑定长期承购协议
Lambda 会不会把自建数据中心租给别人
当前重点是服务 Lambda 自身算力需求
Lambda 的国际化策略:聚焦北美尤其美国
AI 云需要像传统云一样贴近客户吗
延迟在许多 AI 工作负载中并不重要
Agent 和研究报告场景里,token 成本比延迟更关键
数据主权和治理会影响区域部署
AI 算力融资结构:按需云与长期承购协议
按需业务看 Lambda 信用,长期协议看最终客户信用
GPU、租约和承购协议如何进入资产抵押贷款结构
债权人开始真正理解 NVIDIA 芯片的资产价值
2023 年 H100 今天租金反而更高
为什么 H100 能以更高费率出租
高需求与更慢技术折旧共同推动价格
“GPU 三五年就报废”是错误判断
会计折旧周期不等于可用寿命
真正重要的是经济可用寿命
计算单元会不会形成现货和衍生品市场
GPU 现货市场与更复杂证券的早期苗头
GPU 正在被视为更成熟的信贷资产类别
Lambda 的创业史与团队韧性
回到起点:Lambda 最早从什么开始
为什么 Lambda 很难被传统 VC 框架理解
2012 年创办 Lambda:做人脸识别软件
用四张 GTX 580 工作站训练卷积神经网络
ImageNet、AlexNet 与深度学习早期时刻
人脸识别 API 有用户但没有太多现金
帮助 Perceptio 在 iPhone 本地跑神经网络
Perceptio 被 Apple 收购,并进入 iOS 图像识别能力
Lambda Hat:帽檐摄像头与早期视觉数据采集
看到未来还不够,时机同样关键
在深圳做硬件:PCB、消费电子与商业认知
DreamScope:早期版 MidJourney 式图像生成产品
AWS 账单暴涨,迫使 Lambda 自建 GPU 小集群
一个月半回本:从省钱发现 GPU 算力生意
从卖工作站和服务器到开发云平台
2019 年真正开始推广云业务
云业务增长到接近十亿美元年化收入
早期团队今天还在吗
Lambda mafia:校友网络与 Positron 的诞生
困难时期如何把团队留在一起
资本密集型创业的系统冲击与新冠考验
“咬牙扛住”:穿过痛苦、解决问题
公司存在的唯一理由:做出客户愿意付钱和推荐的东西
Lambda 101:把自己代入那只训练神经网络的 Linux 企鹅
T 恤、白色机架与让客户惊喜的文化
新 CEO、快速部署与 AI 优先数据中心
为什么请 Michel Combe 出任 CEO
创始人不必执着于 CEO 头衔
Stephen 更关心技术和打造跨时代公司
从融资、资本组织和日常管理中抽身
作为 CTO 专注快速部署数据中心
Lambda 要成为垂直整合、高速运转的强公司
目标:像 xAI 一样甚至更快上线算力
快速部署依赖选址、MEP 供应、建设方式与客户接入
传统数据中心设计者更像地产从业者
传统云区域复杂,而 AI 数据中心约束完全不同
AI 数据中心或许可接受更低可用性,换取更优设计
未来软件:神经 OS、自组装软件与 Agent
“AI 不会写软件,它会变成软件”是什么意思
神经软件、神经计算机与神经操作系统
用 ChatGPT/Claude 渲染 ASCII 桌面界面来感受未来
大语言模型未来不是生成软件,而是变成软件
电脑上的许多软件可能被神经交互方式接管
你可以把软件想象出来,只实现你正在体验的部分
vibe coding 与 neural software 的区别
vibe coding 仍是输出传统可编译代码
即时 vibe coding:软件应用被实时创造
neural software 没有正在运行的代码
神经软件距离大规模采用还有多远
Lambda 已经做出神经软件原型
大规模采用可能还需要十到十五年
自动驾驶可被视为神经软件的一种形式
Agent 会如何改变计算资源需求
从用户工作流理解计算层变化
Agent 工作流会消耗大量编译、测试和代码搜索时间
云服务将承担更多传统 CPU 工作负载
Lambda 内部如何使用 AI Agent
自组装软件:产品需求与用户反馈接入 24/7 Agent 集群
从 bug/需求到 Agent 实时实现
未来 Agent 甚至会反向请求人类帮它完成现实任务
吉瓦级 AI 工厂与“一个人一个 GPU”
什么是吉瓦级 AI 工厂
AI 工厂:土地、数据中心和服务器共同生成 tokens
一吉瓦意味着十亿瓦,约等于纽约市用电量的五分之一
“一个人一个 GPU”的长期愿景
AI 会孕育划时代公司
从 Apple “一个人一台电脑”到 Lambda “一个人一个 GPU”
Apple 愿景用了几十年才接近实现
为什么未来每个人都需要 GPU 算力
“一个人一个 GPU”不是一夜实现,而是长期文明级目标
快速观点与收尾
快问快答开始
AI 里什么被过度炒作了
非软件工程场景里的智能体工作流常被高估
好的 Agent 工作流需要明确反馈机制
不容易验证的任务不适合长期 Agent 迭代
AI 里什么被低估了
神经 OS、自组装软件与软件开发 Agent 被低估
很多人从未真正尝试过高强度 Claude Agent 工作流
节目收尾:Matt 感谢 Stephen
🌟 精彩内容
💡 云计算不是商品,AI 云更不是
Stephen 反驳了“GPU 计算会被商品化”的常见判断。他认为,AI 云本质上是土地、电力、数据中心、网络、存储、虚拟化、软件编排和融资结构的综合体,不是把 GPU 放到网上出租这么简单。真正的竞争壁垒来自整条垂直整合链条,而不是单一硬件资源。
“最核心的一点是,云计算不是商品化服务。”
💡 我们不是算力过剩,而是仍然建设不足
面对 AI 算力是否过度建设的争论,Stephen 的判断非常明确:只要 Scaling Laws 还在继续、模型能力还在扩大可服务市场,算力需求就会继续被低估。AI 已经从客服、搜索扩展到软件工程、Agent 和更多知识工作场景,需求曲线远没有结束。
“我认为总体上我们仍然建设不足。”
💡 AI 正在变成一台“吃钱吐软件”的机器
Stephen 用一个非常商业化也非常直观的比喻描述大模型时代:投入资本、算力和数据,另一端就能产出软件能力。这不只是技术判断,也解释了为什么算力基础设施会成为 AI 时代最核心的生产资料之一。
“我们有了一个很惊人的系统,可以把钱吃进去,然后输出软件。”
💡 GPU 的寿命不能只看会计折旧
外界常说 GPU 三五年就会被淘汰,但 Lambda 的实际经验是,2023 年部署的 H100 今天反而可能以更高费率出租。Stephen 区分了会计折旧周期、可用寿命和经济可用寿命:真正决定资产价值的,不是账面上几年折完,而是它还能不能产生现金流。
“真正重要的是经济可用寿命。”
💡 从能源到 tokens,AI 不是虚拟的
这期最有启发的部分,是 Stephen 把 AI 计算还原成物理链路:能源进入电厂变成瓦特,数据中心消耗电力并受 PUE 影响,服务器与 GPU 产生 FLOPS,模型把 FLOPS 转化为 tokens,最终用户再把 tokens 转化为智能。AI 看似在云端,底层其实是极其具体的能源与工程系统。
“左边是所有能源生产。右边是某个人正在消耗的 tokens。”
💡 NVIDIA 的护城河不只是芯片,而是整套软件生态
Stephen 认为 NVIDIA 的优势不仅在 GPU 性能,也在 CUDA、cuDNN、NCCL 和开发者生态。尤其 cuDNN 和 NCCL 让矩阵乘法、分布式通信、allreduce 等关键环节被高度优化,这使新芯片玩家很难只靠便宜硬件快速替代。
“CUDA 当然很重要,它就像我们所有人都在里面游泳的水。”
💡 AI 不会只是写软件,它会变成软件
Stephen 提出了“神经软件”与“神经操作系统”的设想:未来用户可能不再打开固定功能的软件,而是直接和模型交互,让模型实时模拟和生成软件行为。传统软件是静态代码,vibe coding 是让模型生成代码,而 neural software 则可能根本没有正在运行的人类代码,只有神经网络的上下文与激活状态。
“大语言模型未来不是生成软件,而是变成软件。”
💡 “一个人一个 GPU”是 AI 时代的长期信条
Stephen 借用 Apple 早年“一个人一台电脑”的愿景,提出“一个人一个 GPU”。这不是短期口号,而是对未来几十年算力普及的判断:每个人的工作、娱乐、创作和信息获取都将需要大量 AI 计算,就像个人电脑和手机最终成为日常基础设施一样。
“我相信未来美国每个人都需要一个 GPU,甚至更多 GPU 的算力。”
```
🌐 播客信息补充
本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的
使用 AI 进行翻译,因此可能会有一些地方不通顺;
如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
