#609.挑战英伟达:Etched AI推理芯片如何让token成本暴跌

#609.挑战英伟达:Etched AI推理芯片如何让token成本暴跌

83分钟 ·
播放数451
·
评论数0

📝 本期播客简介

本期我们克隆了:知名商业与投资播客《Invest Like The Best》Inside the $5B Company Building the Hardware to Make AI Cheap for Everyone

原内容更新时间:2026-06-30

本期嘉宾是AI芯片公司Etched的两位联合创始人Gavin Uberti和Robert Wachen。三年前,他们还是两个试图说服怀疑者的哈佛辍学生,声称自己能造出比全球最大半导体公司更好的推理硬件。今天,Etched已融资8亿美元,签下超过10亿美元的客户合同,并成功流片了一款为后ChatGPT时代设计的芯片。

这期节目不只是Etched的创业故事,更是一场关于AI推理市场未来的深度对谈。Gavin和Robert详细拆解了他们的核心技术路线——低电压推理和集群级内存,解释了为什么推理将成为全球最大的市场,以及他们为何选择造整机柜而非仅仅一颗芯片。如果你正在思考AI硬件的未来、创业公司如何挑战巨头、以及如何构建一家能持续产出顶尖产品的公司,这期会提供大量一手经验和高密度判断。

👨‍⚕️ 本期嘉宾

Gavin Uberti和Robert Wachen,AI芯片公司Etched的联合创始人。两人从哈佛退学,在短短几年内筹集了8亿美元,试图打造比行业巨头更高效的推理硬件。Gavin曾在高中时战胜骨癌,这段经历深刻塑造了他对生命和事业的看法;Robert从17岁起就在AI芯片公司做kernel开发,亲历了多家公司被收购的过程。他们带领Etched成为目前唯一一家既自己造芯片又自己造整机架的创业公司。

⏱️ 时间戳

开场与创业起点

01:15 推理将是全球最大的市场

01:56 三年前没人相信两个21岁的年轻人能做成芯片公司

03:03 需要一定程度的“天真”才能挑战巨头

04:52 两类人:凭经验否定 vs 愿意深入验证

06:59 不只是造芯片,而是做完整的推理解决方案

核心技术赌注

07:19 推理的两个关键环节:pre-fill和decode

08:29 认真研究过各种架构,发现天下没有免费的午餐

09:08 真正重要的指标:实际负载下的flops利用率

10:04 登纳德缩放定律与低电压推理的突破

11:27 decode完全是一场内存游戏

12:07 集群级内存:自建定制互联协议栈

12:55 这些架构都是在ChatGPT出现之前构建的

为什么推理如此重要

13:51 归根结底是生产力问题

14:35 今天让十亿人同时使用这些模型根本不可能

16:11 token还没有像iPhone那样的规模经济

17:03 有些产品如果太慢,根本没法用

创始人的个人故事

18:14 Gavin的高中经历:骨癌四期,存活率不到30%

19:29 GPT-4V一眼认出肿瘤,而医生花了六个月

20:44 运营创业孵化器,发现所有公司都在烧钱买算力

21:59 Robert的第一份工作:17岁做kernel开发

23:03 高中机器人比赛:两人团队拿下世界纪录

构建公司的哲学

24:26 赢是靠交付产品,不是靠最好的外联

25:10 最好的供应商就是没有供应商

27:10 人才理念:寻找“传奇人物”

27:47 第一次聊就说“好”的人很少,聊到第二十次之后说“好”的人很多

29:00 Brian在英伟达创立了HGX和DGX团队,占其收入大头

29:36 “肩上有chip,才能把chip装进数据中心”

30:48 自我筛选:机会主义者不会来我们这儿工作

31:16 你得有点疯才愿意加入我们公司

速度与风险

32:51 供应商进度落后,派十几名工程师飞班加罗尔住六个月

33:57 24小时不间断开发,两边各跑12小时接力

35:03 两个关键技巧:找到优秀的人,快速做决策

36:24 最大的风险就是不承担风险

36:56 “预取”概念:芯片回来前把所有能做的事都做完

37:59 从拿到硅片到跑通推理只用了40天,行业标杆是10个月

供应链与生态

39:39 供应链最被低估的一点:必须去合作

39:59 台积电真正的价值全在服务上

40:39 电力供应和通电时间是关键因素

42:02 客户关心的是:在给定功耗下能服务多少用户

43:01 我们的硬件能在同等交互性下带来一个数量级的并发提升

模型与未来

44:39 用wall clock time思考:一年任务缩到一个月

45:51 底层还有巨大的空间:chip间延迟从4000纳秒到几纳秒

47:24 最好的kernel仍然是人跟AI协作写出来的

48:54 “选择战场”:不去做任意图编译器

49:49 垂直整合的边界:生产即产品

50:49 谁生产的token最多,谁就会成为世界上最有价值的公司

融资的至暗时刻

57:01 2024年初,银行里只有1500万美元,需要1亿

57:51 开始琢磨回哈佛复学有多难

58:18 硅谷所有主流投资机构当场就拒了

59:43 深夜坐在办公室里,怎么算账都算不平

01:00:59 那就是我们的A轮:1.03亿美元软承诺

不可能问题的解决

53:43 chip回来后发现跨时钟域反压逻辑出问题

54:16 需要把时钟信号对齐到50皮秒以内

54:23 有人直接辞职了,说“祝你们好运”

55:08 黑暗的两周,但把它做出来了

01:07:43 第一片晶圆测试,全是红色方块

01:08:32 “谜题开始了”

下一代与终极愿景

01:09:24 做三件事:最多flops、最低延迟、尽可能多生产

01:10:51 核心就是简单:去掉大量部件

01:12:46 机器思考的方式跟人不一样

01:17:00 全球正在走向推理占全球GDP大头的时代

01:17:17 今年是劳动力以人类为主的倒数第二年

01:19:04 绝对会看到单个数据中心价值一万亿美元

收尾

01:21:23 别人为你做过的最善意的一件事

🌟 精彩内容

💡 “谁生产的token最多,谁就会成为世界上最有价值的公司”

Gavin和Robert对推理市场的判断极其清晰:推理将成为全球最大的市场,而token就是新时代的石油。他们所有的决策都围绕一个问题——怎么把最多的token产能上线。这个判断驱动了他们从芯片到整机柜的垂直整合策略。

“我们知道inference会是全球最大的市场。谁产出的token最多,谁就会是全球最有价值的公司。”

💡 “你得有点疯才愿意加入我们公司”

Etched的人才筛选机制几乎是自我运转的。两个24岁的创始人、没流片过的产品、要挑战全球最大公司、设计方案不是好10%而是好10倍——这些条件天然筛掉了机会主义者,留下的都是真正相信这件事的人。

“你得说服家人搬到圣何塞,加入一家半导体公司,老板是两个现在24岁的年轻人,要跟全球最大的公司对着干,而且他们拿出的设计方案不是说好个10%,而是要好10倍。”

💡 “最大的风险就是不承担风险”

在AI推理市场每天超过10亿美元收入的背景下,每推迟一天出货就等于把大量机会扔在桌上。Etched的“预取”哲学就是把所有不需要芯片的事都在芯片回来前做完——从软件栈到机柜部署到FPGA集群验证,这让他们的bring-up时间从行业标杆的10个月压缩到40天。

“这个领域每天有超过10亿美元的收入,其中很大一部分来自inference。所以我们每推迟一天出货,就等于把大量机会白白扔在桌上。”

💡 “最好的供应商就是没有供应商”

Etched是唯一一家既自己造芯片又自己造整机架的创业公司。他们从芯片到电路板、冷板、互联甚至生产环节都尽可能在内部完成,这既是为了性能,也是为了速度。这种极致的垂直整合让他们能并行推进所有事情。

“最好的零件就是没有零件。我觉得对我们来说,最好的供应商就是没有供应商。”

💡 “先假设它是可能的”

面对看似无解的技术难题——比如需要把时钟信号对齐到50皮秒以内——Etched的默认姿态是假设问题可解,然后倒推解决方案。有人辞职了,但留下的人找到了用漂移机制锁定相位的方法。这种心态贯穿了他们的整个创业历程。

“遇到这种问题,第一步是,好,我们先假设问题可解。那怎么解?”

💡 “生产即产品”

Gavin和Robert对业务边界的判断非常清晰:除非为了达到巨大规模非做不可,否则不去碰技术栈的其他环节。他们不做数据中心、不做模型,但做整机柜、做CM模式,因为不上规模不行。这种聚焦让他们把精力押在最关键的赌注上。

“我们所有的决策,都围绕一个问题:怎么把最多的token产能上线?”

💡 “今年是劳动力以人类为主的倒数第二年”

Gavin做出了一个大胆预测:到2027年,做知识工作的Agent数量将超过人类。他设想了一个世界,一个国家的能源大部分流向推理数据中心,而数据中心的能效决定了他们能有多少Agent,进而决定了劳动力规模。

“我认为今年是劳动力以人类为主的倒数第二年。我觉得到2027年,你会看到做知识工作的Agent数量超过人类。”

```

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的

使用 AI 进行翻译,因此可能会有一些地方不通顺;

如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight