第8期丨机器学习(下):三大主流门派白话-大模型

第8期丨机器学习(下):三大主流门派

11分钟 ·
播放数378
·
评论数0

摘要本期我们来拜访机器学习世界的三大主流门派。他们就像三位武功各异的宗师,定义了AI学习世界的基本规则。

1. 监督学习:为什么AI能精准预测房价?我们将揭示“严格老师”如何拿着“标准答案”(标签和特征)给机器“刷题”,以及“分类”和“回归”两大考场。
2. 无监督学习:如果没有标准答案,机器如何自学?我们将跟随“探险家”,看它如何在混沌数据中“物以类聚”(聚类)和洞察本质(降维)。
3. 强化学习:机器如何学会在动态环境中“试错”并做出最优决策?从超级马里奥到AlphaGo,我们将了解“实战教练”如何利用“奖励与惩罚”机制,训练出超越人类的智能。

欢迎来到《白话大模型》科普系列。在之前的讨论中,我们提到机器学习有三大主流门派,他们如同三位性格迥异、各怀绝技的武林宗师。今天,我们就将逐一拜访这三位宗师,探寻他们各自的武功秘籍。

一、监督学习

第一个门派叫监督学习 (Supervised Learning)。这个门派就像一位严格的老师,拿着一本带有标准答案的练习册进行教学。

这位老师的练习册(教材)是什么样的呢?在监督学习中,我们喂给机器的是大量的标注数据 (Labeled Data)。这份教材类似于一份模拟题库,包含了成千上万道考题以及它们对应的标准答案。

我们来仔细分析一道典型的“考题”:预测链家上每套房子的价格。为了解决这个问题,题库为每一套房子都提供了两样东西:

  1. 特征 (Features): 也就是我们提供给机器的、用来描述一个事物的所有相关信息。这相当于考题中的“线索”或“已知条件”。对于房价预测问题,线索可能包括:每套房子的面积、卧室数量、所在楼层、地理位置、建造年份等等。所有这些具体信息就是特征,它们是机器做判断时能够利用的全部已知条件。
  2. 标签 (Label): 这就是我们希望机器通过学习,最终能够自己预测出来的那个“正确结果”,相当于考题的“标准答案”。在房价预测任务中,标准答案就是每套房子真实的历史成交价格。

明确了任务、特征和标签后,机器如何学习呢?我们将历史上成交过的100万套房子的特征(面积、卧室、位置等)及其对应的标签(真实成交价)都喂给机器。机器会像一个勤奋的学生一样,反复观察这100万套房子的特征和标签之间的关系,最终学习到一个通用的规律或模型 (Model)。这个过程,我们称之为模型训练 (Model Training)。这就相当于刷完了100万道模拟题(训练完成)之后,就可以上考场了。

当遇到一个新房子时,你只需要输入它的特征(面积、卧室、位置等),机器就能利用学到的模型计算出一个预测价格,以供决策参考。这个利用模型对新数据进行计算的过程,我们称之为模型推理 (Model Inference)

监督学习这位“老师”训练学生,主要是为了应对两大类考试:

分类,Classification

分类的目标是根据输入数据的特征,将其分配到预先定义好的几个类别中的某一个。模型的输出是一个离散的、表示类别的标签。

典型的分类任务有:

  • 垃圾邮件过滤: 判断一封邮件是“垃圾邮件”还是“非垃圾邮件”(二选一)。
  • 图像内容识别: 判别图片中的物体是“汽车”、“行人”还是“交通信号灯”(三选一)。
  • 情感分析: 判断一段用户评论表达的情感是“正面”、“负面”还是“中性”(三选一)。

回归,Regression

与分类不同,回归的目标是根据输入数据的特征,来计算出一个连续的、数值型的输出。
典型的回归任务有:

  • 房价预测: 正如我们刚才介绍的,根据房屋特征预测具体的房屋价格。
  • 股票价格预测: 根据历史数据和市场指标,预测某只股票今天的收盘价。
  • 天气预报: 根据当前的气象数据,预测未来的具体气温值。

监督学习这个门派历史悠久、高手辈出,发展出了众多成熟的“武林秘籍”(算法),例如最基础的线性回归、逻辑回归,非常直观的决策树,理论优美的支持向量机(SVM)等等,当然,也包括我们后面会详细介绍的神经网络

二、无监督学习

如果说监督学习是拿着标准答案刷题,那么无监督学习 (Unsupervised Learning) 就像是在一片广漠无垠、没有任何地图或向导的未知大陆上进行探索。

在无监督学习的世界里,不存在标准答案。探险者(机器)需要像一位考古学家,在面对一堆看似杂乱无章的出土文物碎片时,通过仔细观察它们的材质、纹理、形状,自主地对它们进行分类整理,发现它们之间隐藏的某种规律。

这位探险家的主要任务也有两大类:

聚类,Clustering

聚类的目标就是“物以类聚、人以群分”。它要将一个数据集中的所有样本,根据它们彼此之间的某种相似性,自动划分成若干个组。

这在商业世界中应用非常广泛,最典型的例子就是客户分层。比如,一家电商平台拥有数百万用户的海量行为数据,但并不知道该如何对这些用户进行有效分类。此时,聚类算法就像一个智能分拣员,它会自动分析用户的购买历史、浏览行为、活跃时间等海量特征,最终可能会自动将用户分成几个鲜明的群体,例如:“高价值活跃用户”、“价格敏感型用户”、“沉睡待唤醒用户”等。

在这个过程中,我们不需要预先给任何一个用户打上标签,算法自己就能从数据中发现隐藏的客群结构。另一个例子是:新闻网站自动将相似内容的新闻聚合在一起,形成体育、财经等不同的话题频道。

降维,Dimension reduction

降维听起来有些抽象,但它的思想其实我们每天都在用。在机器学习中,我们描述一个事物用到的特征越多,数据的维度就越高。降维的目的,就是在尽可能保留核心信息的前提下,减少特征的数量。

举个例子:你如何向一位没见过大象的朋友描述大象?大象有无数特征:长鼻子、大耳朵、粗壮的四条腿、庞大的身躯、灰色的皮肤……可能有成百上千个细节。但如果你想让朋友快速抓住大象最与众不同的核心特征,你可能会说:“它有能喷水的长鼻子,和两片像扇子一样的大耳朵。” 你刚刚就进行了一次精彩的降维——从众多特征中,提取出了两个最具有代表性、最能区分大象的关键特征。

我们之所以要降维,一个直观的目标是为了数据可视化。我们人类的大脑很难想象超过3维的世界,但现实中的数据动辄就有成百上千个维度。通过降维,我们可以把高维数据压缩或投影到我们能理解的2维或3维空间,从而直观地发现数据中隐藏的规律或模式。

总而言之,无监督学习这位“探险家”,其巨大的价值在于“探索未知、洞察本质”的能力。它常常被用作我们理解和分析数据的第一站,帮助我们从看似混沌的数据中梳理出脉络,发现新的知识。

三、强化学习

最后一个门派是强化学习 (Reinforcement Learning),这个门派独具魅力,也稍微有些复杂。如果说监督和无监督学习更多的是从静态的数据中学习模式;那么强化学习则侧重于让机器在一个动态变化的环境中,通过持续的实践和试错,来学习如何做出最优的决策序列,以达成某个长远目标。

它的核心思想来源于人类和动物学习行为的一个基本原理:趋利避害。如果一个行为带来了奖励,那么未来就更加倾向于采取这个行为;如果导致了惩罚,未来就会尽量避免它。

强化学习就像一位经验丰富的实战教练。它不直接教你固定的招式,而是为你设定一个目标,并明确奖励和惩罚机制,然后让你自己“下场”去领悟。

为了理解强化学习,我们可以把它想象成一个完整的游戏。我们用经典游戏《超级马里奥》来说明它的几个核心元素:

  1. 智能体 (Agent): 也就是学习者。在游戏中,就是马里奥本人。
  2. 环境 (Environment): 智能体需要与之互动的一切。在游戏中,就是整个关卡,包括砖头、管道、悬崖和各种敌人。
  3. 状态 (State): 环境在某一特定时刻的完整描述。在游戏中,就是当前的游戏画面:马里奥的位置、他面前是否有敌人、是否有障碍物或金币等。
  4. 动作 (Action): 智能体在感知到当前状态后,可以执行的操作。在游戏中,就是手柄按键:向左、向右、跳跃等。
  5. 奖励 (Reward): 强化学习的驱动力与指挥棒。当智能体执行一个动作后,环境会反馈一个奖励信号(可正可负)。比如:吃到一个金币(+10分),踩死一个小蘑菇(+100分),碰到敌人受伤或掉下悬崖(-100分)。

强化学习的目标,就是在环境中尽可能地最大化自己获得的总奖励

介绍完所有角色,我们来看马里奥是如何通过强化学习从新手成长为通关高手的。这是一个持续的互动循环:

  1. 观察: 智能体(马里奥)观察到当前的游戏画面(当前状态)。
  2. 行动: 根据他当前的策略,马里奥决定执行一个动作(例如“跳跃”)。
  3. 反馈: 环境接收到这个动作后发生变化(马里奥跳起来,吃到一枚金币)。
  4. 学习: 环境反馈一个即时的奖励(+10分)。马里奥接收到这个信号,完成一次学习。如果这个动作带来了正向奖励,他将来就会更倾向于采用它;如果带来的是惩罚,他未来就会改进策略。

这个“观察->行动->接收反馈->学习改进”的循环会不断重复。通过成千上万次的尝试、犯错以及获得奖励的体验,智能体最终会学到一套最优策略。他会知道,在任何复杂的局面下,如何做出最佳决策,来最大化自己能获得的长期总奖励。

这个“从试错中学习”的思想,在现实世界取得了革命性的成就。最广为人知的例子莫过于2016年DeepMind开发的AlphaGo击败了人类围棋世界冠军。在AlphaGo的背后,没有一位人类导师为它准备所有的“棋谱练习册”(监督学习)。AlphaGo真正的“师傅”,正是强化学习这个机制。

它通过和自己进行数亿盘的自我对弈,在代表着“赢”(奖励)或“输”(惩罚)的信号引导下,独立探索并发现了超越人类数千年围棋知识的全新策略,最终击败了世界冠军。强化学习这位“实战教练”,最擅长解决需要在连续互动中做出最优决策的复杂问题。

到这里,我们就拜访完了机器学习的三大门派。我们认识了监督学习、无监督学习和强化学习这三大主流范式。

但是,一个更深层次的问题浮现了:无论是哪种学习方式,机器内部究竟是凭借怎样的一种具体“器官”或运行机制,来实现这些神奇的学习能力的呢?在众多的实现方法中,有一个模型,因其独特的、源于对我们人类大脑结构和功能的仿生灵感,以及其强大的潜力,最终成为了引领AI新一轮浪潮的核心力量。

下一期,我们将正式进入现代AI的心脏地带,去认识那个最闪亮的明星——神经网络 (Neural Networks)

欢迎你关注【星科技】,收藏《白话大模型》系列,我们下期见!



-- THE END --