#600.DeepMind预训练负责人：如何用“研究品味”敲开顶尖实验室大门

📝 本期播客简介

本期我们克隆了：Ryan Peterman 主持的播客节目《Google DeepMind Distinguished Eng (L9): How To Land a Job at a Frontier Lab | Vlad Feinberg》

原内容更新时间：2026-06-15

本期嘉宾是 Google DeepMind 的预训练领域负责人 Vlad Feinberg，主持人是软件工程师兼创业者 Ryan Peterman。Vlad 在节目中系统性地拆解了进入 OpenAI、Anthropic、Google DeepMind 这类前沿 AI 实验室的路径，并深入探讨了预训练研究的本质。

这期节目不是泛泛的职业建议，而是一份来自一线技术领导者的硬核指南。Vlad 详细解释了前沿实验室真正需要的技能组合——从内核开发到底层工程，从阅读论文的“数学成熟度”到处理研究不确定性的“研究品味”。他还分享了 Gemini Flash 2.0 背后惊心动魄的工程故事，以及他个人从追求论文发表到投身产品影响的职业转折。如果你正在思考如何进入 AI 研究核心圈层，或者想理解大模型预训练的真实挑战，这期节目会提供极高密度的信息和罕见的内部视角。

👨‍⚕️ 本期嘉宾

Vlad Feinberg，Google DeepMind 预训练领域负责人，负责 Gemini Flash 和 Flash Lite 等模型的交付与研究。他长期专注于大语言模型的预训练、蒸馏、推理协同设计和量化压缩，是推动 Gemini 系列模型在性能和效率上达到顶尖水平的关键人物。在加入 DeepMind 之前，他在 Google Brain 从事纯研究工作，亲身经历了从学术导向到产品影响导向的职业转变。

⏱️ 时间戳

开场与节目介绍

00:00 本期克隆节目介绍：深度采访 Google DeepMind 预训练负责人 Vlad Feinberg

01:01 Vlad 的三句精彩原话预告

前沿实验室需要什么技能

01:54 前沿实验室现在到底需要哪些技能

02:42 内核开发和底层工程：跨实验室需求最旺盛的技能

03:34 应用团队 vs 研究团队的区别

05:40 软件工程师到 AI 研究员的技能光谱

05:51 蒸馏基础设施的迭代：从设计文档到 Flash 3.0

研究的本质：不确定性、品味与 MDP

08:38 研究的本质：更高风险、更高回报的尝试

09:00 研究品味：在随机的依赖图中选择路径

09:57 把研究看作马尔可夫决策过程

11:26 研究品味就是预判方法成功率的直觉

进入前沿实验室的硬技能

12:00 第一关：对研究领域建立正确的背景认知

12:40 如何高效遍历引用树，判断论文价值

13:45 缩放定律的核心：预测模型最终测试损失

15:04 LLM 预训练的特殊性：每次投入的算力都比以往更多

17:17 文献综述是建立研究观点的唯一途径

17:37 数学成熟度：读懂论文并提取研究想法的关键

19:08 其他值得深入钻研的领域：编程语言研究、强化学习、分布式系统

不同实验室的差异与 AI 时代的职业焦虑

21:21 不同前沿实验室的要求有差别吗

22:02 AI 会接手研究工作吗？研究技能组合会越来越重要

23:05 不要被 FUD 绑架：人类在组织中的核心是建立信任网络

24:14 写那篇文章的初衷：对抗末日论叙事

如何展示信号与内部转岗

25:21 最重要的信号：创造对别人有用的东西

25:41 给开源项目做贡献：极其积极的信号

26:51 内部转岗的建议：成为最有效应用模型的那个人

28:32 Vlad 的公开邀请：完成 Scaling Book 练习，录视频发给我

预训练的内部世界

30:04 预训练领域负责人的职责：交付 Flash 和 Flash Lite

31:06 预训练研究的三大支柱：蒸馏、推理协同设计、量化

31:59 量化：把 32 位浮点数压缩到 4 比特的奇迹

33:46 MFU 为什么看起来低，其实一点都不低

35:24 推理协同设计：协调芯片上所有不同能力

战斗故事与职业建议

37:01 Jeff Dean 给的 spot bonus：从纯研究到产品影响的转折

38:59 Flash 2.0 的战斗故事：MoE 架构的流水线预填充突破

45:29 给大学毕业时的自己的建议：追人们真正面临的问题

46:13 做一个别人希望看到你成功的人

🌟 精彩内容

💡 研究是一个随机的依赖图，不是确定性的工程路径

Vlad 用马尔可夫决策过程来框架化研究工作：软件工程的项目依赖图是确定性的，你可以单调推进；但研究中的节点可能成功也可能失败，甚至有些节点你一开始根本不知道。这需要一种完全不同的思维方式——在动手之前就凭直觉判断一个方法有多大可能成功，这就是研究品味。

"在软件工程里，你可能会把遍历这张图的所有路径都写清楚，然后找出通往目标的最短路径。但这种方法在研究里不是最优的。"

💡 每一次启动预训练，投入的算力都比以往任何一次都多

Vlad 指出 LLM 预训练的特殊性在于，你永远没机会像传统机器学习那样在小数据集上反复试错。这就像你只能在 MNIST 和 CIFAR 上练手，然后希望你的方法一上来就能在 ImageNet 上跑通。很多东西不会轻易地跨规模泛化，所以制定可预测的"配方"成了核心工作。

"每一次你要启动一轮预训练，你投入的算力都会比以往任何一次都多。所以从某种意义上说，这就像是 ImageNet 问题的一次性版本。"

💡 做一个别人希望看到你成功的人

Vlad 给出的最核心职业建议不是技术性的，而是关于人际协作的。他观察到那些特别善良、能帮别人在项目上取得成功的人，最终会创造出深度的协作氛围。这种氛围对于推动需要多个人、多种技能的大型项目越过终点线至关重要。

"如果你是这样一种人：帮别人在他们的项目上取得成功，提出一些能发挥别人互补技能、让他们大放异彩的项目，别人会注意到的。"

💡 你不能把责任推给 AI

面对"AI 会取代所有工作"的焦虑，Vlad 给出了一个犀利的反驳：LLM 可以帮你审合同，但它们不能代表你出庭，因为它们没法被吊销执照。人类在组织中的核心功能是建立信任网络，把资源分配到特定目标上，这件事永远需要归因到一个能做决定、能负责的人身上。

"我们做的一个重要事情，是把这些资源分配到特定目标上。就算我们能加速执行，但围绕资源怎么分配来做决策，这件事永远需要归因到一个做决定的人身上。"

💡 量化是奇迹：把 32 位浮点数压缩到 4 比特

Vlad 解释了量化研究的核心价值：一个用 32 位浮点数存储的神经网络权重，可以用相当简单的方法压缩到 4 比特，而且能维持网络质量。更神奇的是，把这种量化应用到运行时处理的激活值上，能显著降低计算所需的电力消耗——而 AI 硬件总运营成本里，99% 都来自电力。

"这本身就已经是个奇迹了。但更神奇的是，你可以把这种量化变换，应用到神经网络在运行时处理的激活值上。"

💡 流水线预填充：打破 MoE 延迟魔咒的关键创新

在 Flash 2.0 的开发中，团队面临一个核心矛盾：MoE 架构能提升模型容量，但专家数量增加会导致巨大的芯片间通信开销，延迟急剧上升。解决方案是把层并行分布到多台机器上，而不是把专家分布到多台机器上，从而把通信隐藏在计算背后。这个技术决策最终让 Gemini Flash 2.0 在排行榜上遥遥领先。

"这是一种打破 HBM 限制的方法，靠的是把层分布到不同机器上，而不是把专家分布到不同机器上。这样一来，通信开销就降下来了，MoE 的延迟突然变得非常有吸引力。"

💡 去追人们当下真正面临的问题

回顾自己的职业转折，Vlad 承认他曾经满脑子想的都是怎么在顶会上多发一作论文。但正是那次放下论文、卷起袖子做 SFT 超参数调优的经历，被 Jeff Dean 注意到，最终让他走到了今天的位置。他建议年轻人不要害怕处理问题里比较小、比较琐碎的部分。

"要相信，只要你在做重要的事，哪怕只是一个大项目里比较小的环节，你也会真正看到什么才是推动前沿进步的关键。"

```

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的

使用 AI 进行翻译，因此可能会有一些地方不通顺；

如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight