第8期丨机器学习（下）：三大主流门派

摘要本期我们来拜访机器学习世界的三大主流门派。他们就像三位武功各异的宗师，定义了AI学习世界的基本规则。

1. 监督学习：为什么AI能精准预测房价？我们将揭示“严格老师”如何拿着“标准答案”（标签和特征）给机器“刷题”，以及“分类”和“回归”两大考场。
2. 无监督学习：如果没有标准答案，机器如何自学？我们将跟随“探险家”，看它如何在混沌数据中“物以类聚”（聚类）和洞察本质（降维）。
3. 强化学习：机器如何学会在动态环境中“试错”并做出最优决策？从超级马里奥到AlphaGo，我们将了解“实战教练”如何利用“奖励与惩罚”机制，训练出超越人类的智能。

欢迎来到《白话大模型》科普系列。在之前的讨论中，我们提到机器学习有三大主流门派，他们如同三位性格迥异、各怀绝技的武林宗师。今天，我们就将逐一拜访这三位宗师，探寻他们各自的武功秘籍。

一、监督学习

第一个门派叫监督学习 (Supervised Learning)。这个门派就像一位严格的老师，拿着一本带有标准答案的练习册进行教学。

这位老师的练习册（教材）是什么样的呢？在监督学习中，我们喂给机器的是大量的标注数据 (Labeled Data)。这份教材类似于一份模拟题库，包含了成千上万道考题以及它们对应的标准答案。

我们来仔细分析一道典型的“考题”：预测链家上每套房子的价格。为了解决这个问题，题库为每一套房子都提供了两样东西：

特征 (Features)： 也就是我们提供给机器的、用来描述一个事物的所有相关信息。这相当于考题中的“线索”或“已知条件”。对于房价预测问题，线索可能包括：每套房子的面积、卧室数量、所在楼层、地理位置、建造年份等等。所有这些具体信息就是特征，它们是机器做判断时能够利用的全部已知条件。

标签 (Label)： 这就是我们希望机器通过学习，最终能够自己预测出来的那个“正确结果”，相当于考题的“标准答案”。在房价预测任务中，标准答案就是每套房子真实的历史成交价格。

明确了任务、特征和标签后，机器如何学习呢？我们将历史上成交过的100万套房子的特征（面积、卧室、位置等）及其对应的标签（真实成交价）都喂给机器。机器会像一个勤奋的学生一样，反复观察这100万套房子的特征和标签之间的关系，最终学习到一个通用的规律或模型 (Model)。这个过程，我们称之为模型训练 (Model Training)。这就相当于刷完了100万道模拟题（训练完成）之后，就可以上考场了。

当遇到一个新房子时，你只需要输入它的特征（面积、卧室、位置等），机器就能利用学到的模型计算出一个预测价格，以供决策参考。这个利用模型对新数据进行计算的过程，我们称之为模型推理 (Model Inference)。

监督学习这位“老师”训练学生，主要是为了应对两大类考试：

分类，Classification

分类的目标是根据输入数据的特征，将其分配到预先定义好的几个类别中的某一个。模型的输出是一个离散的、表示类别的标签。

典型的分类任务有：

垃圾邮件过滤： 判断一封邮件是“垃圾邮件”还是“非垃圾邮件”（二选一）。

图像内容识别： 判别图片中的物体是“汽车”、“行人”还是“交通信号灯”（三选一）。

情感分析： 判断一段用户评论表达的情感是“正面”、“负面”还是“中性”（三选一）。

回归，Regression

与分类不同，回归的目标是根据输入数据的特征，来计算出一个连续的、数值型的输出。
典型的回归任务有：

房价预测： 正如我们刚才介绍的，根据房屋特征预测具体的房屋价格。

股票价格预测： 根据历史数据和市场指标，预测某只股票今天的收盘价。

天气预报： 根据当前的气象数据，预测未来的具体气温值。

监督学习这个门派历史悠久、高手辈出，发展出了众多成熟的“武林秘籍”（算法），例如最基础的线性回归、逻辑回归，非常直观的决策树，理论优美的支持向量机（SVM）等等，当然，也包括我们后面会详细介绍的神经网络。

二、无监督学习

如果说监督学习是拿着标准答案刷题，那么无监督学习 (Unsupervised Learning) 就像是在一片广漠无垠、没有任何地图或向导的未知大陆上进行探索。

在无监督学习的世界里，不存在标准答案。探险者（机器）需要像一位考古学家，在面对一堆看似杂乱无章的出土文物碎片时，通过仔细观察它们的材质、纹理、形状，自主地对它们进行分类整理，发现它们之间隐藏的某种规律。

这位探险家的主要任务也有两大类：

聚类，Clustering

聚类的目标就是“物以类聚、人以群分”。它要将一个数据集中的所有样本，根据它们彼此之间的某种相似性，自动划分成若干个组。

这在商业世界中应用非常广泛，最典型的例子就是客户分层。比如，一家电商平台拥有数百万用户的海量行为数据，但并不知道该如何对这些用户进行有效分类。此时，聚类算法就像一个智能分拣员，它会自动分析用户的购买历史、浏览行为、活跃时间等海量特征，最终可能会自动将用户分成几个鲜明的群体，例如：“高价值活跃用户”、“价格敏感型用户”、“沉睡待唤醒用户”等。

在这个过程中，我们不需要预先给任何一个用户打上标签，算法自己就能从数据中发现隐藏的客群结构。另一个例子是：新闻网站自动将相似内容的新闻聚合在一起，形成体育、财经等不同的话题频道。

降维，Dimension reduction

降维听起来有些抽象，但它的思想其实我们每天都在用。在机器学习中，我们描述一个事物用到的特征越多，数据的维度就越高。降维的目的，就是在尽可能保留核心信息的前提下，减少特征的数量。

举个例子：你如何向一位没见过大象的朋友描述大象？大象有无数特征：长鼻子、大耳朵、粗壮的四条腿、庞大的身躯、灰色的皮肤……可能有成百上千个细节。但如果你想让朋友快速抓住大象最与众不同的核心特征，你可能会说：“它有能喷水的长鼻子，和两片像扇子一样的大耳朵。” 你刚刚就进行了一次精彩的降维——从众多特征中，提取出了两个最具有代表性、最能区分大象的关键特征。

我们之所以要降维，一个直观的目标是为了数据可视化。我们人类的大脑很难想象超过3维的世界，但现实中的数据动辄就有成百上千个维度。通过降维，我们可以把高维数据压缩或投影到我们能理解的2维或3维空间，从而直观地发现数据中隐藏的规律或模式。

总而言之，无监督学习这位“探险家”，其巨大的价值在于“探索未知、洞察本质”的能力。它常常被用作我们理解和分析数据的第一站，帮助我们从看似混沌的数据中梳理出脉络，发现新的知识。

三、强化学习

最后一个门派是强化学习 (Reinforcement Learning)，这个门派独具魅力，也稍微有些复杂。如果说监督和无监督学习更多的是从静态的数据中学习模式；那么强化学习则侧重于让机器在一个动态变化的环境中，通过持续的实践和试错，来学习如何做出最优的决策序列，以达成某个长远目标。

它的核心思想来源于人类和动物学习行为的一个基本原理：趋利避害。如果一个行为带来了奖励，那么未来就更加倾向于采取这个行为；如果导致了惩罚，未来就会尽量避免它。

强化学习就像一位经验丰富的实战教练。它不直接教你固定的招式，而是为你设定一个目标，并明确奖励和惩罚机制，然后让你自己“下场”去领悟。

为了理解强化学习，我们可以把它想象成一个完整的游戏。我们用经典游戏《超级马里奥》来说明它的几个核心元素：

智能体 (Agent)： 也就是学习者。在游戏中，就是马里奥本人。

环境 (Environment)： 智能体需要与之互动的一切。在游戏中，就是整个关卡，包括砖头、管道、悬崖和各种敌人。

状态 (State)： 环境在某一特定时刻的完整描述。在游戏中，就是当前的游戏画面：马里奥的位置、他面前是否有敌人、是否有障碍物或金币等。

动作 (Action)： 智能体在感知到当前状态后，可以执行的操作。在游戏中，就是手柄按键：向左、向右、跳跃等。

奖励 (Reward)： 强化学习的驱动力与指挥棒。当智能体执行一个动作后，环境会反馈一个奖励信号（可正可负）。比如：吃到一个金币（+10分），踩死一个小蘑菇（+100分），碰到敌人受伤或掉下悬崖（-100分）。

强化学习的目标，就是在环境中尽可能地最大化自己获得的总奖励。

介绍完所有角色，我们来看马里奥是如何通过强化学习从新手成长为通关高手的。这是一个持续的互动循环：

观察： 智能体（马里奥）观察到当前的游戏画面（当前状态）。

行动： 根据他当前的策略，马里奥决定执行一个动作（例如“跳跃”）。

反馈： 环境接收到这个动作后发生变化（马里奥跳起来，吃到一枚金币）。

学习： 环境反馈一个即时的奖励（+10分）。马里奥接收到这个信号，完成一次学习。如果这个动作带来了正向奖励，他将来就会更倾向于采用它；如果带来的是惩罚，他未来就会改进策略。

这个“观察->行动->接收反馈->学习改进”的循环会不断重复。通过成千上万次的尝试、犯错以及获得奖励的体验，智能体最终会学到一套最优策略。他会知道，在任何复杂的局面下，如何做出最佳决策，来最大化自己能获得的长期总奖励。

这个“从试错中学习”的思想，在现实世界取得了革命性的成就。最广为人知的例子莫过于2016年DeepMind开发的AlphaGo击败了人类围棋世界冠军。在AlphaGo的背后，没有一位人类导师为它准备所有的“棋谱练习册”（监督学习）。AlphaGo真正的“师傅”，正是强化学习这个机制。

它通过和自己进行数亿盘的自我对弈，在代表着“赢”（奖励）或“输”（惩罚）的信号引导下，独立探索并发现了超越人类数千年围棋知识的全新策略，最终击败了世界冠军。强化学习这位“实战教练”，最擅长解决需要在连续互动中做出最优决策的复杂问题。

到这里，我们就拜访完了机器学习的三大门派。我们认识了监督学习、无监督学习和强化学习这三大主流范式。

但是，一个更深层次的问题浮现了：无论是哪种学习方式，机器内部究竟是凭借怎样的一种具体“器官”或运行机制，来实现这些神奇的学习能力的呢？在众多的实现方法中，有一个模型，因其独特的、源于对我们人类大脑结构和功能的仿生灵感，以及其强大的潜力，最终成为了引领AI新一轮浪潮的核心力量。

下一期，我们将正式进入现代AI的心脏地带，去认识那个最闪亮的明星——神经网络 (Neural Networks)。

欢迎你关注【星科技】，收藏《白话大模型》系列，我们下期见！

-- THE END --