#609.挑战英伟达：Etched AI推理芯片如何让token成本暴跌

📝 本期播客简介

本期我们克隆了：知名商业与投资播客《Invest Like The Best》Inside the $5B Company Building the Hardware to Make AI Cheap for Everyone

原内容更新时间：2026-06-30

本期嘉宾是AI芯片公司Etched的两位联合创始人Gavin Uberti和Robert Wachen。三年前，他们还是两个试图说服怀疑者的哈佛辍学生，声称自己能造出比全球最大半导体公司更好的推理硬件。今天，Etched已融资8亿美元，签下超过10亿美元的客户合同，并成功流片了一款为后ChatGPT时代设计的芯片。

这期节目不只是Etched的创业故事，更是一场关于AI推理市场未来的深度对谈。Gavin和Robert详细拆解了他们的核心技术路线——低电压推理和集群级内存，解释了为什么推理将成为全球最大的市场，以及他们为何选择造整机柜而非仅仅一颗芯片。如果你正在思考AI硬件的未来、创业公司如何挑战巨头、以及如何构建一家能持续产出顶尖产品的公司，这期会提供大量一手经验和高密度判断。

👨‍⚕️ 本期嘉宾

Gavin Uberti和Robert Wachen，AI芯片公司Etched的联合创始人。两人从哈佛退学，在短短几年内筹集了8亿美元，试图打造比行业巨头更高效的推理硬件。Gavin曾在高中时战胜骨癌，这段经历深刻塑造了他对生命和事业的看法；Robert从17岁起就在AI芯片公司做kernel开发，亲历了多家公司被收购的过程。他们带领Etched成为目前唯一一家既自己造芯片又自己造整机架的创业公司。

⏱️ 时间戳

开场与创业起点

01:15 推理将是全球最大的市场

01:56 三年前没人相信两个21岁的年轻人能做成芯片公司

03:03 需要一定程度的“天真”才能挑战巨头

04:52 两类人：凭经验否定 vs 愿意深入验证

06:59 不只是造芯片，而是做完整的推理解决方案

核心技术赌注

07:19 推理的两个关键环节：pre-fill和decode

08:29 认真研究过各种架构，发现天下没有免费的午餐

09:08 真正重要的指标：实际负载下的flops利用率

10:04 登纳德缩放定律与低电压推理的突破

11:27 decode完全是一场内存游戏

12:07 集群级内存：自建定制互联协议栈

12:55 这些架构都是在ChatGPT出现之前构建的

为什么推理如此重要

13:51 归根结底是生产力问题

14:35 今天让十亿人同时使用这些模型根本不可能

16:11 token还没有像iPhone那样的规模经济

17:03 有些产品如果太慢，根本没法用

创始人的个人故事

18:14 Gavin的高中经历：骨癌四期，存活率不到30%

19:29 GPT-4V一眼认出肿瘤，而医生花了六个月

20:44 运营创业孵化器，发现所有公司都在烧钱买算力

21:59 Robert的第一份工作：17岁做kernel开发

23:03 高中机器人比赛：两人团队拿下世界纪录

构建公司的哲学

24:26 赢是靠交付产品，不是靠最好的外联

25:10 最好的供应商就是没有供应商

27:10 人才理念：寻找“传奇人物”

27:47 第一次聊就说“好”的人很少，聊到第二十次之后说“好”的人很多

29:00 Brian在英伟达创立了HGX和DGX团队，占其收入大头

29:36 “肩上有chip，才能把chip装进数据中心”

30:48 自我筛选：机会主义者不会来我们这儿工作

31:16 你得有点疯才愿意加入我们公司

速度与风险

32:51 供应商进度落后，派十几名工程师飞班加罗尔住六个月

33:57 24小时不间断开发，两边各跑12小时接力

35:03 两个关键技巧：找到优秀的人，快速做决策

36:24 最大的风险就是不承担风险

36:56 “预取”概念：芯片回来前把所有能做的事都做完

37:59 从拿到硅片到跑通推理只用了40天，行业标杆是10个月

供应链与生态

39:39 供应链最被低估的一点：必须去合作

39:59 台积电真正的价值全在服务上

40:39 电力供应和通电时间是关键因素

42:02 客户关心的是：在给定功耗下能服务多少用户

43:01 我们的硬件能在同等交互性下带来一个数量级的并发提升

模型与未来

44:39 用wall clock time思考：一年任务缩到一个月

45:51 底层还有巨大的空间：chip间延迟从4000纳秒到几纳秒

47:24 最好的kernel仍然是人跟AI协作写出来的

48:54 “选择战场”：不去做任意图编译器

49:49 垂直整合的边界：生产即产品

50:49 谁生产的token最多，谁就会成为世界上最有价值的公司

融资的至暗时刻

57:01 2024年初，银行里只有1500万美元，需要1亿

57:51 开始琢磨回哈佛复学有多难

58:18 硅谷所有主流投资机构当场就拒了

59:43 深夜坐在办公室里，怎么算账都算不平

01:00:59 那就是我们的A轮：1.03亿美元软承诺

不可能问题的解决

53:43 chip回来后发现跨时钟域反压逻辑出问题

54:16 需要把时钟信号对齐到50皮秒以内

54:23 有人直接辞职了，说“祝你们好运”

55:08 黑暗的两周，但把它做出来了

01:07:43 第一片晶圆测试，全是红色方块

01:08:32 “谜题开始了”

下一代与终极愿景

01:09:24 做三件事：最多flops、最低延迟、尽可能多生产

01:10:51 核心就是简单：去掉大量部件

01:12:46 机器思考的方式跟人不一样

01:17:00 全球正在走向推理占全球GDP大头的时代

01:17:17 今年是劳动力以人类为主的倒数第二年

01:19:04 绝对会看到单个数据中心价值一万亿美元

收尾

01:21:23 别人为你做过的最善意的一件事

🌟 精彩内容

💡 “谁生产的token最多，谁就会成为世界上最有价值的公司”

Gavin和Robert对推理市场的判断极其清晰：推理将成为全球最大的市场，而token就是新时代的石油。他们所有的决策都围绕一个问题——怎么把最多的token产能上线。这个判断驱动了他们从芯片到整机柜的垂直整合策略。

“我们知道inference会是全球最大的市场。谁产出的token最多，谁就会是全球最有价值的公司。”

💡 “你得有点疯才愿意加入我们公司”

Etched的人才筛选机制几乎是自我运转的。两个24岁的创始人、没流片过的产品、要挑战全球最大公司、设计方案不是好10%而是好10倍——这些条件天然筛掉了机会主义者，留下的都是真正相信这件事的人。

“你得说服家人搬到圣何塞，加入一家半导体公司，老板是两个现在24岁的年轻人，要跟全球最大的公司对着干，而且他们拿出的设计方案不是说好个10%，而是要好10倍。”

💡 “最大的风险就是不承担风险”

在AI推理市场每天超过10亿美元收入的背景下，每推迟一天出货就等于把大量机会扔在桌上。Etched的“预取”哲学就是把所有不需要芯片的事都在芯片回来前做完——从软件栈到机柜部署到FPGA集群验证，这让他们的bring-up时间从行业标杆的10个月压缩到40天。

“这个领域每天有超过10亿美元的收入，其中很大一部分来自inference。所以我们每推迟一天出货，就等于把大量机会白白扔在桌上。”

💡 “最好的供应商就是没有供应商”

Etched是唯一一家既自己造芯片又自己造整机架的创业公司。他们从芯片到电路板、冷板、互联甚至生产环节都尽可能在内部完成，这既是为了性能，也是为了速度。这种极致的垂直整合让他们能并行推进所有事情。

“最好的零件就是没有零件。我觉得对我们来说，最好的供应商就是没有供应商。”

💡 “先假设它是可能的”

面对看似无解的技术难题——比如需要把时钟信号对齐到50皮秒以内——Etched的默认姿态是假设问题可解，然后倒推解决方案。有人辞职了，但留下的人找到了用漂移机制锁定相位的方法。这种心态贯穿了他们的整个创业历程。

“遇到这种问题，第一步是，好，我们先假设问题可解。那怎么解？”

💡 “生产即产品”

Gavin和Robert对业务边界的判断非常清晰：除非为了达到巨大规模非做不可，否则不去碰技术栈的其他环节。他们不做数据中心、不做模型，但做整机柜、做CM模式，因为不上规模不行。这种聚焦让他们把精力押在最关键的赌注上。

“我们所有的决策，都围绕一个问题：怎么把最多的token产能上线？”

💡 “今年是劳动力以人类为主的倒数第二年”

Gavin做出了一个大胆预测：到2027年，做知识工作的Agent数量将超过人类。他设想了一个世界，一个国家的能源大部分流向推理数据中心，而数据中心的能效决定了他们能有多少Agent，进而决定了劳动力规模。

“我认为今年是劳动力以人类为主的倒数第二年。我觉得到2027年，你会看到做知识工作的Agent数量超过人类。”

```

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的

使用 AI 进行翻译，因此可能会有一些地方不通顺；

如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight