#539. 手搓AlphaGo:前DeepMind科学家拆解AI围棋核心原理,以及对LLM强化学习的深远启示

#539. 手搓AlphaGo:前DeepMind科学家拆解AI围棋核心原理,以及对LLM强化学习的深远启示

130分钟 ·
播放数958
·
评论数1

📝 本期播客简介

本期我们克隆了知名科技播客《Dwarkesh Patel 播客》的一期深度对谈 What rebuilding AlphaGo teaches us about self-play, RL, and future of LLMs - Eric Jang

主持人 Dwarkesh Patel 与嘉宾 Eric Jang 展开了一场精彩纷呈的技术深潜,从零开始重建了 AlphaGo 的思想宫殿。

Eric Jang 曾担任 1X Technologies 的 AI 副总裁,此前是谷歌 DeepMind Robotics 的高级研究科学家。他在休假期间做了一个让极客们热血沸腾的项目:用当今的开源工具和极低的预算,从头重建、改进并深入理解了 AlphaGo。在这期节目里,Eric 手把手地拆解了 AlphaGo 的核心组件——蒙特卡洛树搜索(MCTS)、策略网络与价值网络如何协同工作,以及为什么这套组合拳如此优雅且强大。但这远不止是一堂围棋 AI 历史课。Eric 更进一步,将 AlphaGo 的算法与现代 LLM 的强化学习进行了直接对比,深刻揭示了后者在方差、信用分配和样本效率上的根本困境,并展望了将搜索思想引入大模型推理的前景。此外,他还分享了自己用自动化 AI 辅助研究的实践经验,探讨了围棋作为“AI 科学家”孵化器的可能性。整期节目信息密度极高,从算法直觉到宏观哲学,将彻底刷新你对强化学习、搜索和智能本质的认知。

👨‍🔬 本期嘉宾

Eric Jang,前 1X Technologies AI 副总裁,前谷歌 DeepMind Robotics 高级研究科学家。他在机器人学习、深度强化学习领域有深厚积累。近期,他在休假期间独立完成了从头复现和改进 AlphaGo 的项目,并撰写了详细的技术教程,引发了社区广泛关注。他以对 alphaGo 核心机制的独到洞见,以及对自动化 AI 研究的先锋思考而闻名。

⏱️ 时间戳

00:00 开场 & 播客简介

从零开始理解 AlphaGo

02:05 为何 AlphaGo 令人着迷:用一个神经网络摊销几乎不可解的搜索

03:43 围棋规则速通:从吃子到 Trump-Taylor 计分

08:38 搜索树与组合爆炸:361的300次方,比宇宙原子数还大

蒙特卡洛树搜索(MCTS)核心原理

11:16 UCB 与 PUCT:如何边建树边决定探索哪条路

15:59 价值函数登场:人类“一眼定输赢”的直觉,AI 也能拥有

21:02 策略网络:先猜一把哪儿值得搜,大幅剪枝

神经网络与搜索的完美联姻

24:54 MCTS 四步流程:选择、扩展、评估、回传

27:28 架构选择:为什么 ResNet 在小预算下仍优于 Transformer

34:23 初始化的魔力:先用人类棋谱教会模型什么是好棋

42:21 Self-play 闭环:让搜索反哺网络,实现策略迭代

强化学习的优雅与残酷对比

47:41 MCTS 作为改进算子:永远给你一个比当前策略更好的答案

52:00 知识蒸馏:把几千步搜索的成果内化到网络的一次前传里

57:04 价值函数训练技巧:小棋盘预训练与终局标签的重要性

01:03:01 深度震撼:10 层神经网络如何摊销 NP 难问题

01:11:35 对比 LLM RL:方差为何爆炸,“吸管里吸信号”的困境

01:22:21 MCTS 能直接用于 LLM 推理吗?广度、深度与动作空间的挑战

计算效率与自动化研究

01:28:41 算力缩放亲历:从千万美元到几千块,AlphaGo 变廉价了

01:38:08 Off-policy 训练与回放缓冲区:如何复用旧数据

01:47:04 信息论视角:监督学习每样本比特数远超 RL,软标签有多重要

01:55:36 围棋作为 AI 科学家孵化器:用外循环验证研究直觉

02:05:12 研究品味与可验证性:如何设计正确的 RL 环境

02:08:03 结尾 & 资源推荐

🌟 精彩内容

💡 10 层网络,摊销 NP 难题

Eric 指出 AlphaGo 最深远的贡献并非围棋本身,而是一个概念突破:区区 10 层神经网络,通过一次前向传播,就能以极高精度近似一个几乎不可解的深层搜索问题。这暗示了宏观特征可以瓦解我们对计算复杂度的传统认知,类似的现象也出现在 AlphaFold 等模型中。

“这是一个突破,我觉得今天大多数人都没能完全领会它有多么深远。”

🛠️ MCTS 的优雅:永远不用从 0% 开始

与今天 LLM 使用的朴素策略梯度方法不同,AlphaGo 的 MCTS 永远能基于当前状态给出一个改进后的策略标签。这意味着它的学习过程从未陷入“所有信号都是零”的荒漠,每一步都有明确的监督目标,从而实现了惊人的采样效率和稳定性。

“AlphaGo 之所以优雅,就是你永远不需要从一个 0% 的成功率开始,也不需要解决怎么拿到非零成功率的探索问题。”

🚀 监督学习信息效率完胜

Eric 与 Dwarkesh 从信息论角度对比了监督学习和 RL。在低 pass rate 区域,RL 每个样本只能提供极少的学习比特,而监督学习通过软标签(整个概率分布)可以提供高得多的信息量。这也解释了为何蒸馏如此强大——MCTS 的访问计数分布作为软目标,传递了远超单个动作标签的“暗知识”。

“在一个软标签里,每样本的信息量,以比特计,要大得多。这就是为什么蒸馏这么有效。”

⚖️ 成为第一,算力永远最贵

Eric 分享了自己仅用一万美元算力就重建 AlphaGo 的经历,对比当年 DeepMind 动辄百万美元的投入和定制 TPU 集群。他强调:“成为第一个做成一件事所需的算力,永远比后来追上来所需的算力大得多。”这个规律在 LLM 时代同样成立,先行者必须为探索未知付出巨大溢价。

🧪 围棋作为 AI 科学家的训练场

Eric 正在将围棋打造成一个“外循环”,用于训练自动化 AI 研究智能体。因为围棋验证快速、胜负明确,可以低成本地检验智能体提出假设、设计实验、解释结果的能力,最终有望迁移到更复杂的科学发现任务中。

“我搭建这个围棋环境的动机之一,就是觉得围棋承载了大量非常有趣的研究问题,而且验证速度很快。”

🌐 播客信息补充

翻译克隆自:《Dwarkesh Patel 播客》(Dwarkesh Patel Podcast)

本播客采用 AI 声纹克隆技术将原主持人和嘉宾的声音翻译成中文,可能听起来略有差异。

使用 AI 进行翻译,因此可能会有一些地方不通顺;

如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

展开Show Notes
这个真该看视频版