DeepMind Sebastian 揭秘 Gemini 3:AI 从模型进化为系统

DeepMind Sebastian 揭秘 Gemini 3:AI 从模型进化为系统

16分钟 ·
播放数375
·
评论数0

Show Notes:深度对话 Google DeepMind——Gemini 3 背后的 AI 进化革命

核心主题

AI 行业从 “模型竞赛” 迈入 “系统为王” 的新纪元,揭秘 Gemini 3 技术内核与行业未来趋势

嘉宾与主持人

  • 嘉宾:Sebastian Bourjou(Google DeepMind 预训练负责人,Gemini 3 核心推手,“Metas List” 顶尖 AI 专家)
  • 主持人:Matt Turck(知名风投家,Mad Podcast 主持人)

关键要点

一、开场:Gemini 3 的 “成功密码”

  1. 外界疑问:Oriol Vinyals 称 Gemini 3 秘密是 “更优预训练 + 更优后训练”,是否过于谦虚?
  2. 核心回应:无单一 “银弹” 技术,成功源于数千个小改进的叠加与团队集体协作
  3. 行业信号:AI 竞争已从 “算法发现” 转向 “工程化细节优化”,变量管理能力成胜负关键

二、范式转移:从 “模型” 到 “系统” 的进化

  1. 核心区别:模型:静态神经网络参数
    系统:含动态数据流、基础设施、评估反馈环、工具深度集成(如搜索、代码执行器)
  2. 进步体现:DeepMind 内部研发人员使用模型辅助工作的时间逐年激增,实现 “研究加速”(非单纯刷榜单)
  3. 行业判断:AI 进步暂无天花板,每天都能发现新的能力提升方法

三、嘉宾成长轨迹:从 “幸运儿” 到 AI 顶尖研究员

  1. 多元背景:荷兰出生→7 岁移居瑞士→意大利读高中,10 岁随技术背景父亲学编程
  2. 学术转折:19 岁偶然申请剑桥→硕士毕业后主动索要 DeepMind 研究员推荐信→2018 年加入 DeepMind(当时未冠 “Google” 之名)
  3. 初期研究:2019-2020 年涉足大语言模型,曾对缩放定律的落地效果持谨慎态度

四、职业历程:从强化学习到预训练掌舵人

  1. 初期工作:Atari 游戏环境下训练无监督网络(强化学习方向),后转向表征学习(研究 BERT、XLNET 等)
  2. 关键项目:Gopher 项目:DeepMind 首个大模型论文,10-12 人团队训练 2800 亿参数模型
    Chinchilla 研究:重新定义模型大小与数据量关系,主张 “计算有限时优先增数据而非扩参数”(行业金科玉律)
    Retro 架构:通过检索增强解决模型参数有限导致的知识存储问题

五、Gemini 3 技术内核:MoE 与原生多模态

  1. 基础架构:基于 Transformer,采用混合专家架构(MoE)MoE 优势:像 “专科医生医院”,动态路由任务给对应 “专家” 模块,兼顾大参数量(知识库)与低推理成本
  2. 核心特征:原生多模态(非多模型拼接),底层神经网络同时处理视觉、听觉、文字,理解跨模态关联
  3. 全栈整合:完全基于 Google 自研 TPU(张量处理单元)训练,实现硬件到架构的端到端优化

六、行业新范式:迎接 “数据受限” 时代

  1. 对 “缩放定律已死” 的回应:规模仍关键且提升可预测,但需适应 “数据受限机制”
  2. 竞争核心:从 “无限数据堆算力” 转向 “有限数据榨取更多智能”
  3. 合成数据:重要性凸显,但需警惕 “自我复制导致智能退化”,核心是生成比当前模型更优质的数据

七、管理艺术:150-200 人团队的决策逻辑

  1. 核心原则:看重 “研究品味”兼容性:研究需与团队其他工作无缝整合,拒绝 “提效 5% 却增繁 10 倍” 的方案
    复杂性过敏:优先选择低复杂度方案,为未来迭代留空间
  2. 关键动作:大规模架构扩张前,投入大量精力 “去风险”,修复微小 Bug(避免大规模训练中被放大)

八、Q&A:未来、机会与建议

  1. 未来突破口(2-3 年):科学发现领域或现诺贝尔奖级突破;长上下文(Long Context)持续优化,高效处理超长代码库 / 复杂文档
  2. 初创公司机会:外推模型能力(预测未来可解决的问题),聚焦 “模型脚手架”(鲁棒性、自我纠错)与垂直应用,避开短期可被模型覆盖的任务
  3. 对 AI 入门学生的建议:成为 “全栈研究员”,贯通底层 TPU 硬件、上层软件系统与前沿算法
  4. DeepThink 模型核心:计算从 “深度” 转向 “序列长度”,允许输出前进行假设测试、工具调用与自我验证(AI “沉思” 能力)

结语

AI 竞赛已从 “草莽淘金期” 进入 “智能炼油厂期”,通过系统集成与数据精炼,人类可创造的 “智慧总量” 暂无天花板