本次分享内容来自Gemini 3 Flash模型发布后的2025年12月19日,Google AI的几位核心人物——DeepMind研究副总裁Oriol Vinyals、谷歌首席科学家Jeff Dean和Noam Shazeer,以及Google AI Studio产品负责人Logan Kilpatrick的一次同台对谈。地址:x.com
主要内容:
1. Gemini 项目的起源与团队融合
- 统一战线: Jeff Dean 提到 Gemini 起源于对 Google 内部资源碎片化的观察。为了集中算力和顶尖人才,Google 将原有的 Brain 团队和 DeepMind 合并,形成了统一的 Gemini 团队。
- 文化互补: 团队结合了 Brain 团队“自下而上”的创新风格与 DeepMind 针对宏大目标(如 AlphaFold)“自上而下”的严谨执行力。
2. Gemini 3 的核心技术逻辑
- “双重按钮”: 成功的秘诀在于同时加大预训练(Pre-training)和后训练(Post-training)的投入。
- 蒸馏技术(Distillation): Gemini 3 Flash 的成功很大程度上归功于完美的蒸馏技术,使得较小的模型能达到甚至超越前代 Pro 模型的智能水平。
- 全栈优势: Google 自研的 TPU 基础设施是支撑 Gemini 大规模训练与低延迟推理的关键,解决了算力瓶颈。
3. 突破性进展:从基础到竞赛级智能
- 可验证领域的飞跃: 负责人指出,在数学(IMO 金牌)和编程等“可验证领域”,通过强化学习(RL)和后训练,模型取得了惊人的进步。
- 延迟即质量: Jeff 强调低延迟对用户体验至关重要。Flash 模型通过架构优化实现了极速响应,这不仅提升了用户留存,也为未来的机器人控制奠定了基础。
4. 未来五年:迈向 AGI 的关键路径
- 持续学习(Continual Learning): 现有的模型在部署后权重即冻结。Oriol 认为未来的模型应该像人类一样,在交互中持续学习和进化。
- 超越“预测下一个词”: Jeff 提出目前的预训练效率较低(人类只需 10 亿 token 就能变得聪明,而模型需要数万亿)。未来研究将探索让模型在环境中通过“采取行动并观察结果”来学习,而非仅仅是被动地流式读取数据。
- 长上下文(Long Context): 团队正在探索如何让用户感知到“无限”的上下文,使模型能够同时处理和理解互联网规模的数据或海量视频。
