📝 本期播客简介
本期我们克隆了:Ryan Peterman 主持的播客节目《Google DeepMind Distinguished Eng (L9): How To Land a Job at a Frontier Lab | Vlad Feinberg》
原内容更新时间:2026-06-15
本期嘉宾是 Google DeepMind 的预训练领域负责人 Vlad Feinberg,主持人是软件工程师兼创业者 Ryan Peterman。Vlad 在节目中系统性地拆解了进入 OpenAI、Anthropic、Google DeepMind 这类前沿 AI 实验室的路径,并深入探讨了预训练研究的本质。
这期节目不是泛泛的职业建议,而是一份来自一线技术领导者的硬核指南。Vlad 详细解释了前沿实验室真正需要的技能组合——从内核开发到底层工程,从阅读论文的“数学成熟度”到处理研究不确定性的“研究品味”。他还分享了 Gemini Flash 2.0 背后惊心动魄的工程故事,以及他个人从追求论文发表到投身产品影响的职业转折。如果你正在思考如何进入 AI 研究核心圈层,或者想理解大模型预训练的真实挑战,这期节目会提供极高密度的信息和罕见的内部视角。
👨⚕️ 本期嘉宾
Vlad Feinberg,Google DeepMind 预训练领域负责人,负责 Gemini Flash 和 Flash Lite 等模型的交付与研究。他长期专注于大语言模型的预训练、蒸馏、推理协同设计和量化压缩,是推动 Gemini 系列模型在性能和效率上达到顶尖水平的关键人物。在加入 DeepMind 之前,他在 Google Brain 从事纯研究工作,亲身经历了从学术导向到产品影响导向的职业转变。
⏱️ 时间戳
开场与节目介绍
本期克隆节目介绍:深度采访 Google DeepMind 预训练负责人 Vlad Feinberg
Vlad 的三句精彩原话预告
前沿实验室需要什么技能
前沿实验室现在到底需要哪些技能
内核开发和底层工程:跨实验室需求最旺盛的技能
应用团队 vs 研究团队的区别
软件工程师到 AI 研究员的技能光谱
蒸馏基础设施的迭代:从设计文档到 Flash 3.0
研究的本质:不确定性、品味与 MDP
研究的本质:更高风险、更高回报的尝试
研究品味:在随机的依赖图中选择路径
把研究看作马尔可夫决策过程
研究品味就是预判方法成功率的直觉
进入前沿实验室的硬技能
第一关:对研究领域建立正确的背景认知
如何高效遍历引用树,判断论文价值
缩放定律的核心:预测模型最终测试损失
LLM 预训练的特殊性:每次投入的算力都比以往更多
文献综述是建立研究观点的唯一途径
数学成熟度:读懂论文并提取研究想法的关键
其他值得深入钻研的领域:编程语言研究、强化学习、分布式系统
不同实验室的差异与 AI 时代的职业焦虑
不同前沿实验室的要求有差别吗
AI 会接手研究工作吗?研究技能组合会越来越重要
不要被 FUD 绑架:人类在组织中的核心是建立信任网络
写那篇文章的初衷:对抗末日论叙事
如何展示信号与内部转岗
最重要的信号:创造对别人有用的东西
给开源项目做贡献:极其积极的信号
内部转岗的建议:成为最有效应用模型的那个人
Vlad 的公开邀请:完成 Scaling Book 练习,录视频发给我
预训练的内部世界
预训练领域负责人的职责:交付 Flash 和 Flash Lite
预训练研究的三大支柱:蒸馏、推理协同设计、量化
量化:把 32 位浮点数压缩到 4 比特的奇迹
MFU 为什么看起来低,其实一点都不低
推理协同设计:协调芯片上所有不同能力
战斗故事与职业建议
Jeff Dean 给的 spot bonus:从纯研究到产品影响的转折
Flash 2.0 的战斗故事:MoE 架构的流水线预填充突破
给大学毕业时的自己的建议:追人们真正面临的问题
做一个别人希望看到你成功的人
🌟 精彩内容
💡 研究是一个随机的依赖图,不是确定性的工程路径
Vlad 用马尔可夫决策过程来框架化研究工作:软件工程的项目依赖图是确定性的,你可以单调推进;但研究中的节点可能成功也可能失败,甚至有些节点你一开始根本不知道。这需要一种完全不同的思维方式——在动手之前就凭直觉判断一个方法有多大可能成功,这就是研究品味。
"在软件工程里,你可能会把遍历这张图的所有路径都写清楚,然后找出通往目标的最短路径。但这种方法在研究里不是最优的。"
💡 每一次启动预训练,投入的算力都比以往任何一次都多
Vlad 指出 LLM 预训练的特殊性在于,你永远没机会像传统机器学习那样在小数据集上反复试错。这就像你只能在 MNIST 和 CIFAR 上练手,然后希望你的方法一上来就能在 ImageNet 上跑通。很多东西不会轻易地跨规模泛化,所以制定可预测的"配方"成了核心工作。
"每一次你要启动一轮预训练,你投入的算力都会比以往任何一次都多。所以从某种意义上说,这就像是 ImageNet 问题的一次性版本。"
💡 做一个别人希望看到你成功的人
Vlad 给出的最核心职业建议不是技术性的,而是关于人际协作的。他观察到那些特别善良、能帮别人在项目上取得成功的人,最终会创造出深度的协作氛围。这种氛围对于推动需要多个人、多种技能的大型项目越过终点线至关重要。
"如果你是这样一种人:帮别人在他们的项目上取得成功,提出一些能发挥别人互补技能、让他们大放异彩的项目,别人会注意到的。"
💡 你不能把责任推给 AI
面对"AI 会取代所有工作"的焦虑,Vlad 给出了一个犀利的反驳:LLM 可以帮你审合同,但它们不能代表你出庭,因为它们没法被吊销执照。人类在组织中的核心功能是建立信任网络,把资源分配到特定目标上,这件事永远需要归因到一个能做决定、能负责的人身上。
"我们做的一个重要事情,是把这些资源分配到特定目标上。就算我们能加速执行,但围绕资源怎么分配来做决策,这件事永远需要归因到一个做决定的人身上。"
💡 量化是奇迹:把 32 位浮点数压缩到 4 比特
Vlad 解释了量化研究的核心价值:一个用 32 位浮点数存储的神经网络权重,可以用相当简单的方法压缩到 4 比特,而且能维持网络质量。更神奇的是,把这种量化应用到运行时处理的激活值上,能显著降低计算所需的电力消耗——而 AI 硬件总运营成本里,99% 都来自电力。
"这本身就已经是个奇迹了。但更神奇的是,你可以把这种量化变换,应用到神经网络在运行时处理的激活值上。"
💡 流水线预填充:打破 MoE 延迟魔咒的关键创新
在 Flash 2.0 的开发中,团队面临一个核心矛盾:MoE 架构能提升模型容量,但专家数量增加会导致巨大的芯片间通信开销,延迟急剧上升。解决方案是把层并行分布到多台机器上,而不是把专家分布到多台机器上,从而把通信隐藏在计算背后。这个技术决策最终让 Gemini Flash 2.0 在排行榜上遥遥领先。
"这是一种打破 HBM 限制的方法,靠的是把层分布到不同机器上,而不是把专家分布到不同机器上。这样一来,通信开销就降下来了,MoE 的延迟突然变得非常有吸引力。"
💡 去追人们当下真正面临的问题
回顾自己的职业转折,Vlad 承认他曾经满脑子想的都是怎么在顶会上多发一作论文。但正是那次放下论文、卷起袖子做 SFT 超参数调优的经历,被 Jeff Dean 注意到,最终让他走到了今天的位置。他建议年轻人不要害怕处理问题里比较小、比较琐碎的部分。
"要相信,只要你在做重要的事,哪怕只是一个大项目里比较小的环节,你也会真正看到什么才是推动前沿进步的关键。"
```
🌐 播客信息补充
本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的
使用 AI 进行翻译,因此可能会有一些地方不通顺;
如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
