#539. 手搓AlphaGo：前DeepMind科学家拆解AI围棋核心原理，以及对LLM强化学习的深远启示

📝 本期播客简介

本期我们克隆了知名科技播客《Dwarkesh Patel 播客》的一期深度对谈 What rebuilding AlphaGo teaches us about self-play, RL, and future of LLMs - Eric Jang

主持人 Dwarkesh Patel 与嘉宾 Eric Jang 展开了一场精彩纷呈的技术深潜，从零开始重建了 AlphaGo 的思想宫殿。

Eric Jang 曾担任 1X Technologies 的 AI 副总裁，此前是谷歌 DeepMind Robotics 的高级研究科学家。他在休假期间做了一个让极客们热血沸腾的项目：用当今的开源工具和极低的预算，从头重建、改进并深入理解了 AlphaGo。在这期节目里，Eric 手把手地拆解了 AlphaGo 的核心组件——蒙特卡洛树搜索（MCTS）、策略网络与价值网络如何协同工作，以及为什么这套组合拳如此优雅且强大。但这远不止是一堂围棋 AI 历史课。Eric 更进一步，将 AlphaGo 的算法与现代 LLM 的强化学习进行了直接对比，深刻揭示了后者在方差、信用分配和样本效率上的根本困境，并展望了将搜索思想引入大模型推理的前景。此外，他还分享了自己用自动化 AI 辅助研究的实践经验，探讨了围棋作为“AI 科学家”孵化器的可能性。整期节目信息密度极高，从算法直觉到宏观哲学，将彻底刷新你对强化学习、搜索和智能本质的认知。

👨‍🔬 本期嘉宾

Eric Jang，前 1X Technologies AI 副总裁，前谷歌 DeepMind Robotics 高级研究科学家。他在机器人学习、深度强化学习领域有深厚积累。近期，他在休假期间独立完成了从头复现和改进 AlphaGo 的项目，并撰写了详细的技术教程，引发了社区广泛关注。他以对 alphaGo 核心机制的独到洞见，以及对自动化 AI 研究的先锋思考而闻名。

⏱️ 时间戳

00:00 开场 & 播客简介

从零开始理解 AlphaGo

02:05 为何 AlphaGo 令人着迷：用一个神经网络摊销几乎不可解的搜索

03:43 围棋规则速通：从吃子到 Trump-Taylor 计分

08:38 搜索树与组合爆炸：361的300次方，比宇宙原子数还大

蒙特卡洛树搜索（MCTS）核心原理

11:16 UCB 与 PUCT：如何边建树边决定探索哪条路

15:59 价值函数登场：人类“一眼定输赢”的直觉，AI 也能拥有

21:02 策略网络：先猜一把哪儿值得搜，大幅剪枝

神经网络与搜索的完美联姻

24:54 MCTS 四步流程：选择、扩展、评估、回传

27:28 架构选择：为什么 ResNet 在小预算下仍优于 Transformer

34:23 初始化的魔力：先用人类棋谱教会模型什么是好棋

42:21 Self-play 闭环：让搜索反哺网络，实现策略迭代

强化学习的优雅与残酷对比

47:41 MCTS 作为改进算子：永远给你一个比当前策略更好的答案

52:00 知识蒸馏：把几千步搜索的成果内化到网络的一次前传里

57:04 价值函数训练技巧：小棋盘预训练与终局标签的重要性

01:03:01 深度震撼：10 层神经网络如何摊销 NP 难问题

01:11:35 对比 LLM RL：方差为何爆炸，“吸管里吸信号”的困境

01:22:21 MCTS 能直接用于 LLM 推理吗？广度、深度与动作空间的挑战

计算效率与自动化研究

01:28:41 算力缩放亲历：从千万美元到几千块，AlphaGo 变廉价了

01:38:08 Off-policy 训练与回放缓冲区：如何复用旧数据

01:47:04 信息论视角：监督学习每样本比特数远超 RL，软标签有多重要

01:55:36 围棋作为 AI 科学家孵化器：用外循环验证研究直觉

02:05:12 研究品味与可验证性：如何设计正确的 RL 环境

02:08:03 结尾 & 资源推荐

🌟 精彩内容

💡 10 层网络，摊销 NP 难题

Eric 指出 AlphaGo 最深远的贡献并非围棋本身，而是一个概念突破：区区 10 层神经网络，通过一次前向传播，就能以极高精度近似一个几乎不可解的深层搜索问题。这暗示了宏观特征可以瓦解我们对计算复杂度的传统认知，类似的现象也出现在 AlphaFold 等模型中。

“这是一个突破，我觉得今天大多数人都没能完全领会它有多么深远。”

🛠️ MCTS 的优雅：永远不用从 0% 开始

与今天 LLM 使用的朴素策略梯度方法不同，AlphaGo 的 MCTS 永远能基于当前状态给出一个改进后的策略标签。这意味着它的学习过程从未陷入“所有信号都是零”的荒漠，每一步都有明确的监督目标，从而实现了惊人的采样效率和稳定性。

“AlphaGo 之所以优雅，就是你永远不需要从一个 0% 的成功率开始，也不需要解决怎么拿到非零成功率的探索问题。”

🚀 监督学习信息效率完胜

Eric 与 Dwarkesh 从信息论角度对比了监督学习和 RL。在低 pass rate 区域，RL 每个样本只能提供极少的学习比特，而监督学习通过软标签（整个概率分布）可以提供高得多的信息量。这也解释了为何蒸馏如此强大——MCTS 的访问计数分布作为软目标，传递了远超单个动作标签的“暗知识”。

“在一个软标签里，每样本的信息量，以比特计，要大得多。这就是为什么蒸馏这么有效。”

⚖️ 成为第一，算力永远最贵

Eric 分享了自己仅用一万美元算力就重建 AlphaGo 的经历，对比当年 DeepMind 动辄百万美元的投入和定制 TPU 集群。他强调：“成为第一个做成一件事所需的算力，永远比后来追上来所需的算力大得多。”这个规律在 LLM 时代同样成立，先行者必须为探索未知付出巨大溢价。

🧪 围棋作为 AI 科学家的训练场

Eric 正在将围棋打造成一个“外循环”，用于训练自动化 AI 研究智能体。因为围棋验证快速、胜负明确，可以低成本地检验智能体提出假设、设计实验、解释结果的能力，最终有望迁移到更复杂的科学发现任务中。

“我搭建这个围棋环境的动机之一，就是觉得围棋承载了大量非常有趣的研究问题，而且验证速度很快。”

🌐 播客信息补充

翻译克隆自：《Dwarkesh Patel 播客》（Dwarkesh Patel Podcast）

本播客采用 AI 声纹克隆技术将原主持人和嘉宾的声音翻译成中文，可能听起来略有差异。

使用 AI 进行翻译，因此可能会有一些地方不通顺；

如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight