#600.DeepMind预训练负责人:如何用“研究品味”敲开顶尖实验室大门

#600.DeepMind预训练负责人:如何用“研究品味”敲开顶尖实验室大门

49分钟 ·
播放数721
·
评论数2

📝 本期播客简介

本期我们克隆了:Ryan Peterman 主持的播客节目《Google DeepMind Distinguished Eng (L9): How To Land a Job at a Frontier Lab | Vlad Feinberg》

原内容更新时间:2026-06-15

本期嘉宾是 Google DeepMind 的预训练领域负责人 Vlad Feinberg,主持人是软件工程师兼创业者 Ryan Peterman。Vlad 在节目中系统性地拆解了进入 OpenAI、Anthropic、Google DeepMind 这类前沿 AI 实验室的路径,并深入探讨了预训练研究的本质。

这期节目不是泛泛的职业建议,而是一份来自一线技术领导者的硬核指南。Vlad 详细解释了前沿实验室真正需要的技能组合——从内核开发到底层工程,从阅读论文的“数学成熟度”到处理研究不确定性的“研究品味”。他还分享了 Gemini Flash 2.0 背后惊心动魄的工程故事,以及他个人从追求论文发表到投身产品影响的职业转折。如果你正在思考如何进入 AI 研究核心圈层,或者想理解大模型预训练的真实挑战,这期节目会提供极高密度的信息和罕见的内部视角。

👨‍⚕️ 本期嘉宾

Vlad Feinberg,Google DeepMind 预训练领域负责人,负责 Gemini Flash 和 Flash Lite 等模型的交付与研究。他长期专注于大语言模型的预训练、蒸馏、推理协同设计和量化压缩,是推动 Gemini 系列模型在性能和效率上达到顶尖水平的关键人物。在加入 DeepMind 之前,他在 Google Brain 从事纯研究工作,亲身经历了从学术导向到产品影响导向的职业转变。

⏱️ 时间戳

开场与节目介绍

00:00 本期克隆节目介绍:深度采访 Google DeepMind 预训练负责人 Vlad Feinberg

01:01 Vlad 的三句精彩原话预告

前沿实验室需要什么技能

01:54 前沿实验室现在到底需要哪些技能

02:42 内核开发和底层工程:跨实验室需求最旺盛的技能

03:34 应用团队 vs 研究团队的区别

05:40 软件工程师到 AI 研究员的技能光谱

05:51 蒸馏基础设施的迭代:从设计文档到 Flash 3.0

研究的本质:不确定性、品味与 MDP

08:38 研究的本质:更高风险、更高回报的尝试

09:00 研究品味:在随机的依赖图中选择路径

09:57 把研究看作马尔可夫决策过程

11:26 研究品味就是预判方法成功率的直觉

进入前沿实验室的硬技能

12:00 第一关:对研究领域建立正确的背景认知

12:40 如何高效遍历引用树,判断论文价值

13:45 缩放定律的核心:预测模型最终测试损失

15:04 LLM 预训练的特殊性:每次投入的算力都比以往更多

17:17 文献综述是建立研究观点的唯一途径

17:37 数学成熟度:读懂论文并提取研究想法的关键

19:08 其他值得深入钻研的领域:编程语言研究、强化学习、分布式系统

不同实验室的差异与 AI 时代的职业焦虑

21:21 不同前沿实验室的要求有差别吗

22:02 AI 会接手研究工作吗?研究技能组合会越来越重要

23:05 不要被 FUD 绑架:人类在组织中的核心是建立信任网络

24:14 写那篇文章的初衷:对抗末日论叙事

如何展示信号与内部转岗

25:21 最重要的信号:创造对别人有用的东西

25:41 给开源项目做贡献:极其积极的信号

26:51 内部转岗的建议:成为最有效应用模型的那个人

28:32 Vlad 的公开邀请:完成 Scaling Book 练习,录视频发给我

预训练的内部世界

30:04 预训练领域负责人的职责:交付 Flash 和 Flash Lite

31:06 预训练研究的三大支柱:蒸馏、推理协同设计、量化

31:59 量化:把 32 位浮点数压缩到 4 比特的奇迹

33:46 MFU 为什么看起来低,其实一点都不低

35:24 推理协同设计:协调芯片上所有不同能力

战斗故事与职业建议

37:01 Jeff Dean 给的 spot bonus:从纯研究到产品影响的转折

38:59 Flash 2.0 的战斗故事:MoE 架构的流水线预填充突破

45:29 给大学毕业时的自己的建议:追人们真正面临的问题

46:13 做一个别人希望看到你成功的人

🌟 精彩内容

💡 研究是一个随机的依赖图,不是确定性的工程路径

Vlad 用马尔可夫决策过程来框架化研究工作:软件工程的项目依赖图是确定性的,你可以单调推进;但研究中的节点可能成功也可能失败,甚至有些节点你一开始根本不知道。这需要一种完全不同的思维方式——在动手之前就凭直觉判断一个方法有多大可能成功,这就是研究品味。

"在软件工程里,你可能会把遍历这张图的所有路径都写清楚,然后找出通往目标的最短路径。但这种方法在研究里不是最优的。"

💡 每一次启动预训练,投入的算力都比以往任何一次都多

Vlad 指出 LLM 预训练的特殊性在于,你永远没机会像传统机器学习那样在小数据集上反复试错。这就像你只能在 MNIST 和 CIFAR 上练手,然后希望你的方法一上来就能在 ImageNet 上跑通。很多东西不会轻易地跨规模泛化,所以制定可预测的"配方"成了核心工作。

"每一次你要启动一轮预训练,你投入的算力都会比以往任何一次都多。所以从某种意义上说,这就像是 ImageNet 问题的一次性版本。"

💡 做一个别人希望看到你成功的人

Vlad 给出的最核心职业建议不是技术性的,而是关于人际协作的。他观察到那些特别善良、能帮别人在项目上取得成功的人,最终会创造出深度的协作氛围。这种氛围对于推动需要多个人、多种技能的大型项目越过终点线至关重要。

"如果你是这样一种人:帮别人在他们的项目上取得成功,提出一些能发挥别人互补技能、让他们大放异彩的项目,别人会注意到的。"

💡 你不能把责任推给 AI

面对"AI 会取代所有工作"的焦虑,Vlad 给出了一个犀利的反驳:LLM 可以帮你审合同,但它们不能代表你出庭,因为它们没法被吊销执照。人类在组织中的核心功能是建立信任网络,把资源分配到特定目标上,这件事永远需要归因到一个能做决定、能负责的人身上。

"我们做的一个重要事情,是把这些资源分配到特定目标上。就算我们能加速执行,但围绕资源怎么分配来做决策,这件事永远需要归因到一个做决定的人身上。"

💡 量化是奇迹:把 32 位浮点数压缩到 4 比特

Vlad 解释了量化研究的核心价值:一个用 32 位浮点数存储的神经网络权重,可以用相当简单的方法压缩到 4 比特,而且能维持网络质量。更神奇的是,把这种量化应用到运行时处理的激活值上,能显著降低计算所需的电力消耗——而 AI 硬件总运营成本里,99% 都来自电力。

"这本身就已经是个奇迹了。但更神奇的是,你可以把这种量化变换,应用到神经网络在运行时处理的激活值上。"

💡 流水线预填充:打破 MoE 延迟魔咒的关键创新

在 Flash 2.0 的开发中,团队面临一个核心矛盾:MoE 架构能提升模型容量,但专家数量增加会导致巨大的芯片间通信开销,延迟急剧上升。解决方案是把层并行分布到多台机器上,而不是把专家分布到多台机器上,从而把通信隐藏在计算背后。这个技术决策最终让 Gemini Flash 2.0 在排行榜上遥遥领先。

"这是一种打破 HBM 限制的方法,靠的是把层分布到不同机器上,而不是把专家分布到不同机器上。这样一来,通信开销就降下来了,MoE 的延迟突然变得非常有吸引力。"

💡 去追人们当下真正面临的问题

回顾自己的职业转折,Vlad 承认他曾经满脑子想的都是怎么在顶会上多发一作论文。但正是那次放下论文、卷起袖子做 SFT 超参数调优的经历,被 Jeff Dean 注意到,最终让他走到了今天的位置。他建议年轻人不要害怕处理问题里比较小、比较琐碎的部分。

"要相信,只要你在做重要的事,哪怕只是一个大项目里比较小的环节,你也会真正看到什么才是推动前沿进步的关键。"

```

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的

使用 AI 进行翻译,因此可能会有一些地方不通顺;

如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

展开Show Notes
恺恺O-O
恺恺O-O
6小时前
感谢主播,但是主播呀,你这个我经常在车上听你的节目。这个老外说中文太别扭了,经常听不清啊。我建议是不是,就是声纹可以模拟,但是没必要模拟这种老外说中文的感觉,还是中国人说中文的声音比较清晰啊。
yikai-
:
做不到完美克隆中文啊,能做到我肯定会做