横扫棋坛，玩转 Atari：MuZero 的通用学习秘籍

大家好，欢迎收听播客「听懂 100 篇 AI 经典论文」

我们今天要聊的是一篇关于 MuZero 算法的论文，以前的 AI 高手，比如下棋的Deep Blue 或下围棋的 AlphaZero，虽然厉害，但它们都需要提前知道游戏规则或有一个模拟器来规划下一步怎么走。这就像给你一本详细的规则书，告诉你每一步棋会导致什么结果。但现实世界的问题往往没有这样的“规则书”。机器人、工业控制、智能助手等领域，环境动态复杂且未知。这时就轮到 MuZero 登场了~

本期播客中你将听到 (Outline):

核心亮点：

一个AI 不知道规则，但通过自己玩，竟然成了围棋、国际象棋和经典视频游戏 Atari 的世界级高手！这就是 MuZero 带来的震撼突破。

MuZero 的核心创新在于：它不像前辈AI那样依赖预先知道的规则或精确的模拟器，而是自己学习一个“规划专用”的模型。

与前辈的对比：

之前的顶级 AI，比如战胜国际象棋世界冠军的 Deep Blue4 和横扫围棋、国际象棋、将棋的 AlphaZero5，虽然强大，但它们都需要提前知道游戏规则或有一个精确的模拟器来规划每一步。

这限制了它们在规则未知或难以精确模拟的现实世界问题中的应用，例如机器人、工业控制等。

MuZero 如何做到“无规则”学习？

MuZero 不试图去理解环境的真实、完整的状态，也不重建像素级的画面。

它学习的“规划模型”内部维护一个抽象的“隐藏状态”。这个状态不是环境的真实拷贝，而是它自己学出来的、对预测规划所需信息最有用的表示。

这个模型只专注于预测对规划最重要的三件事:
- 1.即时奖励 (Reward): 走这一步能立刻得到什么好处或坏处
- 2.最优策略 (Policy): 当前状态下，下一步怎么走最有前途
- 3.价值函数 (Value): 从当前状态看，未来总共能拿到多少分数或回报

通过一个“动态函数”，MuZero 可以基于当前的隐藏状态和假设的行动，预测出下一个隐藏状态和即时奖励，再通过“预测函数”，根据隐藏状态预测策略和价值

MuZero 利用这个学习到的模型，进行强大的蒙特卡洛树搜索 (MCTS)，但在搜索过程中，它用的不是真实规则，而是它自己预测的奖励和状态转移

令人惊叹的成果：

在围棋、国际象棋、将棋上，MuZero 在不知道规则的情况下，达到了与已知规则的 AlphaZero 比肩甚至略微超越的超人表现。

在视觉复杂、规则不易建模的 Atari 游戏上 (57款)，MuZero 取得了新的最先进成果，超越了之前最强的模型。这尤其重要，因为以往基于模型的方法在这类领域表现不佳。

关键概念速查 (Key Concepts Explained):

强化学习 (Reinforcement Learning, RL): 一种让AI通过与环境互动、尝试行动并根据收到的“奖励”或“惩罚”来学习最优行为策略的方法。

模型基强化学习 (Model-Based RL): 强化学习的一种方法，它会尝试先学习一个环境的“模型”（理解环境如何响应行动），然后利用这个模型来规划或预测未来的结果。MuZero 属于这一类，但它的模型更特别。

模型无关强化学习 (Model-Free RL): 强化学习的另一种方法，它不显式地学习环境的模型，而是直接学习如何从状态映射到最优行动（策略），或者直接学习评估状态或行动的价值。AlphaZero 在知道规则时可以被视为某种模型基方法（规则就是模型），而许多Atari游戏上的SOTA方法是模型无关的。

规划 (Planning): 利用对环境的知识（无论是预设的规则、模拟器，还是学习到的模型），来思考未来的行动序列及其可能导致的结果，从而选择当前最优的行动。

蒙特卡洛树搜索 (Monte-Carlo Tree Search, MCTS): 一种基于树结构的搜索算法，常用于游戏AI。它通过模拟大量的游戏路径（即“搜索模拟”）来评估不同行动的潜力，并逐渐构建一棵搜索树，指导决策。AlphaZero 和 MuZero 都使用 MCTS 进行规划

MuZero 的学习模型 (MuZero's Learned Model): MuZero 自主学习的一个预测未来关键信息的内部模型，用于代替传统的环境模拟器或规则知识，这个模型不关心环境的真实状态细节，只关心预测奖励、策略和价值。它包含三个主要部分：表示函数、动态函数和预测函数。

隐藏状态 (Hidden State): MuZero 模型内部用来抽象表示当前环境信息的一种内部状态3.... 它不是环境的真实物理状态，而是模型学习到的、对预测规划所需信息（奖励、策略、价值）最有用的一个“中间表示”

即时奖励 (Immediate Reward): 在环境中执行一个行动后立刻获得的得分或惩罚，MuZero 的模型会预测它

策略 (Policy): 描述在某个状态下，选择不同行动的可能性分布，MuZero 的模型会预测它。

价值函数 (Value Function): 预测从某个状态开始，未来能获得的累计总回报，MuZero 的模型会预测它。

AlphaZero: MuZero 的重要前辈，是DeepMind开发的另一个强大的AI，在围棋、国际象棋和将棋上达到超人水平。它的成功基于已知游戏规则的MCTS和神经网络，是 MuZero 的重要基础和对比对象。

Atari (雅达利游戏): 指 Atari 2600 游戏机上的经典电子游戏集合 (如 Ms. Pacman, Breakout 等)，它们是强化学习领域常用的benchmark，特别是用于测试AI在处理视觉信息复杂、规则可能不完全显式的环境中的能力。

了解更多 (Where to Learn More):

论文名称：Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model

原文链接：arxiv.org