

第21期丨ResNet突破深度极限【第21期】自从2012年AlexNet开启了深度学习的狂欢,整个AI界都坚信网络越深模型越强。可是当层数堆叠到三五十层时,大家却撞上了一堵令人绝望的叹息之墙,也就是网络退化。模型非但没有变聪明,反而越学越笨。 本期星科技将带你认识这位打破僵局的中国天才学者何恺明。我们将用一个极其接地气的职场企划案审批比喻,为你硬核拆解他那大道至简的天才设计,ResNet残差网络。看一条极简的VIP直达电梯通道,如何保住深层网络的信息不丢失,并在2015年的ImageNet大赛上以152层的恐怖深度历史性地超越人类肉眼识别率。 更重要的是,这套跨越时代的钢铁骨架,至今依然流淌在ChatGPT和DeepSeek等前沿大语言模型的血液中。 期待你在评论区留下你的思考,咱们一起探讨。 * 00:00 深度学习的新信仰:回顾AlexNet开启的“网络越深,模型越强”时代。 * 00:25 2014年ImageNet双雄会:VGG与GoogLeNet的巅峰对决,离人类水平仅一步之遥。 * 01:22 撞向“叹息之墙”:当层数堆叠,模型为何在训练集上离奇“变笨”? * 02:32 状元何恺明的硬核人生:从广东满分状元到计算机视觉领域的顶级学者。 * 04:09 解密ResNet核心逻辑:抛弃H(x),改学“残差”F(x)的天才变通。 * 05:10 大白话拆解:如果模型训练是“解方程”,参数规模到底有多恐怖? * 09:02 职场视角看退化:当CEO遇上层层加戏的“中间层”,原稿的闪光点是如何丢掉的? * 10:18 恒等映射与保底机制:ResNet如何为深度网络建立性能的“绝对下限”。 * 11:49 152层的神迹:AI首次在准确率上超越人类,残差思想如何渗透进今天的Transformer。 * 13:35 下期预告:从静态空间到流动时间,开启RNN与序列数据的新篇章。
第20期丨AlexNet一战封神、深度学习崛起欢迎来到《白话大模型》的第20期 。 2012年的 ImageNet 图像识别大赛,原本在一片波澜不惊中拉开序幕,却因为一支名为“SuperVision”的神秘三人小队彻底改变了人类科技的走向 。65岁的“AI守夜人” Geoffrey Hinton 带着两名天才学生——Alex Krizhevsky 和后来声名大噪的 Ilya Sutskever,用两块普通玩家用来打游戏的显卡,以及一直被主流学界质疑的神经网络算法,以碾压所有对手40%的恐怖成绩完成了“屠榜” 。 本期播客,我们将一半讲故事,一半讲技术,带你重温这场宣告深度学习正式降临的破局之战 。我们将硬核拆解有着6000多万参数的超级怪兽 AlexNet,看看“双GPU并行”的工程奇迹是如何诞生的,以及 ReLU 和 Dropout 这两个看似简单却极其伟大的算法创新是如何运作的 。准备好,让我们一起回到那个AI技术突然“起飞”的历史奇点 。 * 00:00:00 惊艳世界的破局之战: 回顾最初两届平淡无奇的 ImageNet 挑战赛,以及2012年那支将错误率断崖式降低到15.3%的神秘团队“SuperVision” 。 * 00:02:21 穿越26年寒冬的守夜人: 65岁的 Hinton 老爷子带着学生重返赛场,证明了神经网络从来不是方向错误,只是“时候未到” 。 * 00:04:03 幕后的两位天才门徒: 榨干两块英伟达显卡算力、事了拂衣去的 Alex,以及后来名满天下的 OpenAI 首席科学家 Ilya 。 * 00:06:46 逼出来的工程奇迹: 面对装不下整个模型的硬件困境,AlexNet 如何巧妙地将网络劈成两半,实现双 GPU 独立并行计算与跨卡融合 。 * 00:09:24 逐层解构超级怪兽: 深度拆解5个卷积层与3个全连接层,看模型如何从11x11大卷积核的轮廓扫描,一步步汇聚成最终的“猫”的概念判断 。 * 00:13:55 大道至简的算法创新: 抛弃 Sigmoid 全面启用 ReLU 彻底解决梯度消失问题,以及通过“随机让一半神经元休息”的 Dropout 机制巧妙战胜过拟合 。 * 00:16:38 一声发令枪响: AlexNet 的大获全胜如何引爆硅谷巨头的抢人战,催生“网络越深,模型越强”的新信仰,并为下一代神级模型 ResNet 埋下伏笔 。
第19期丨离经叛道的AI教母【第19期】在深度学习震撼世界之前,人工智能曾经历过漫长的寒冬。当全世界都在传统算法里钻牛角尖时,华裔女科学家李飞飞敏锐地发现,限制AI发展的根本不是算法,而是数据。 本期视频,星科技将带你回到深度学习大爆发的前夜。看李飞飞如何顶住学术界的冷眼,动用全球5万名网友,完成给1400万张图片打标签的疯狂挑战。你能想象AI要在120种长相极其相似的狗中准确区分出某一种吗?正是这个史无前例的超级数据集,化作了引爆AI革命的最强燃料。 而在2012年的赛场上,一场惊心动魄的降维打击即将上演。 #AI科普 #李飞飞 #ImageNet #深度学习 #人工智能 #科技史 #白话大模型 #星科技 时间轴: * 00:00:18 神经网络陷入漫长低谷 缺乏数据与算力的炼金术时代 * 00:01:03 从新泽西干洗店到斯坦福讲台 华裔女孩李飞飞的硬核逆袭 * 00:02:40 算法不够好还是数据不够多 巧妇难为无米之炊的第一性思考 * 00:04:19 让工程师绝望的疯狂计划 挑战一千四百万张图片的数字化索引 * 00:05:28 土耳其机器人与数字时代的蚂蚁雄兵 众包模式完成不可能的任务 * 00:07:46 计算机视觉领域的奥林匹克大赛 极其变态的测试规则与细分类别 * 00:10:48 传统机器学习遭遇绝望天花板 连李飞飞自己都开始怀疑人生 * 00:12:34 属于深度学习的寒武纪大爆发 多伦多师徒掀翻牌桌的降维打击
第18期丨Meta往事,最后一位理想主义者的出走白话大模型丨第18期丨ChatGPT 时代的逆行者:为什么深度学习之父杨立昆坚持说 LLM 是条死胡同? 当全世界都在为 Transformer 和 ChatGPT 欢呼时,有一位“巨人”却泼了一盆冷水。 他是卷积神经网络之父,是图灵奖得主,是一手缔造了 Facebook AI 帝国(FAIR)和 PyTorch 的传奇人物——杨立昆(Yann LeCun)。但在 AI 的高光时刻,他却被视作“保守派”甚至是“异见者”。 本期节目,我们将跨越 2013 到 2026 年的时光,重现硅谷 AI 权力的更迭。从扎克伯格“三顾茅庐”的许诺,到 PyTorch 的野蛮生长;从 Llama 4 的“造假丑闻”到计算学派与数据学派的终极对决。这不仅是杨立昆一个人的战斗,更是关于 AI 究竟该通往“统计学概率”还是“世界模型因果”的路线之争。 让我们拨开商业喧嚣,去看看这位 65 岁老兵最后的冲锋。 详细时间轴 * 01:06 扎克伯格的豪赌与“不平等条约”为了对抗 Google 垄断 AI 大脑,扎克伯格答应了杨立昆三个苛刻条件:不搬家、不保密、不背 KPI。 * 02:53 硅谷的理想国:FAIR 实验室一个反公司的存在。在这里,衡量成功的标准不是日活和营收,而是论文数量与对人类智能本质的探索。 * 04:30 PyTorch 封神之路:屠龙少年的胜利对比“德国重型机床”般的 TensorFlow,PyTorch 如何凭借“动态图”哲学,成为全球研究员的通用语言。 * 07:13 “随机鹦鹉”论战:两种哲学的决裂杨立昆为何鄙视自回归模型?详解“世界模型”(World Model)与 JEPA 架构,AI 不应只是概率的统计,而应理解物理因果。 * 10:48 2025 年的转折点:Llama 4 造假丑闻(高能剧情) 为了商业变现,Meta 在基准测试中“拼接”试卷。这一事件彻底击碎了 FAIR 曾经的学术荣誉体系。 * 12:39 暴力美学的上位:当 Data becomes New Code28 岁的 Scale AI 创始人空降 Meta,科学家派系被大清洗。以“大力出奇迹”为信条的工程文化彻底取代了探索精神。 * 14:53 最后的出走:道不同,不相为谋杨立昆离职 Meta。那个以开源和探索为荣的“贝尔实验室”式时代,正式宣告落幕。 * 15:17 巴黎重生:AMI Labs 与最后的豪赌65 岁再创业。这一次,他选择在医疗和物理网络系统中,继续证明“世界模型”才是通往 AGI 的正途。 本期金句 “我不想做改善你新闻流排序的算法,我要做的是破解智能的本质。” “他(杨立昆)不是造剑的人,但他给了铸剑师最纯净的火焰。”——评 PyTorch 的诞生 “这个模型读了 1 万亿个单词,却不知道手松开水杯会掉在地上……因为书本里只写了水杯掉落的结果,没写重力的因果。” “现在的 AI 仍然被困在屏幕跟服务器里,而真正的智能必须要拥有身体。” “如果 AI 掌握在少数几家科技巨头手里,这将是人类的灾难。” 制作手记 本期内容由于涉及大量技术流派演变(静态图 vs 动态图,Transformer vs JEPA),我们在文案中尽量采用了比喻手法(如“德国机床”、“拼凑试卷”),力求让非技术背景的听众也能感受到那场惊心动魄的路线之争。杨立昆的故事,本质上是科学精神与商业资本永恒博弈的缩影。
第17期丨现代CNN的鼻祖【第17期】80年代的巴黎,年轻的杨立昆拿着焊枪闯入被符号主义统治的学术界,是个彻头彻尾的异类。 直到在阿尔卑斯山的雪夜偶遇同样孤独的辛顿,这场宿命般的会面改变了AI的历史。本期我们将跟随他的脚步,从多伦多穿越到贝尔实验室,深度拆解两大传奇: MNIST数据集:杨立昆为何要把高中生和普查员的字混在一起?这个28x28的小方格如何成为AI界的度量衡? LeNet-5模型:在算力贫瘠的1998年,他如何用稀疏连接的天才设计,让机器读懂了全美20%的支票?这不是枯燥的技术史,而是一部关于偏执与坚守的微电影。翻开CNN的第一页,致敬那位寒冬中的点火者。 #白话大模型 #AI #人工智能 #CNN #卷积神经网络 #AI科普 #杨立昆 #LeNet #深度学习 #MNIST
第16期丨CNN的思想源头【白话大模型丨16】为什么摄像头拍下的只是像素,而人类大脑看到的却是世界? 在人工智能漫长的进化史上,让机器学会看见曾是一道难以逾越的天堑。早期的神经网络面对复杂的图像信息,往往会陷入参数灾难与信息碎片化的泥潭,就像试图通过研究一堆颜料粉末来理解《蒙娜丽莎的微笑》。 本期《白话大模型》,我们将翻开第三章《机器之眼》的序幕。故事要从 1959 年哈佛大学实验室里的一只猫讲起——两位神经生理学家偶然间捕捉到的噼里啪啦声,不仅为他们赢得了诺贝尔奖,更向 AI 研究者们揭示了生物视觉的终极奥秘:局部感知与层级抽象。 从福岛邦彦设计的原始骨架,到卷积(Convolution)与池化(Pooling)的精妙协作,我们将深入浅出地拆解 CNN 的仿生学原理。你会发现,所谓的卷积计算其实就是拿着手电筒寻找线索,而池化则是为了抓住关键而难得糊涂。 让我们一起跨越这道技术门槛,领取通往现代人工智能世界的 VIP 门票。 #AI #AI科普 #人工智能 #白话大模型 #CNN #卷积神经网络 #卷积 #池化 #福岛邦彦
第15期丨反向传播(下)【第15期】微积分里的链式法则早在牛顿时代就有了,为什么反向传播算法却让全世界最聪明的科学家整整迟到了20年?🤔 本期视频,我们继续拆解神经网络的演进史。这不仅仅是算法的迭代,更是一场关于打破偏见、跨越低谷的英雄史诗。从1943年的MCP模型到2012年的AlexNet爆发,我们看看这“消失的20年”里到底发生了什么。 📺 本期硬核知识点: * 三重思想钢印: 是什么锁死了AI发展的咽喉?(生物学执念、局部最优恐惧、学术偏见) * 激活函数进化史: 为什么神经网络必须“弯”一下?从Sigmoid的梯度消失,到ReLU的简单粗暴,数学上的“不完美”如何成就了工程上的奇迹? * AI守夜人: 杰弗里·辛顿(Geoffrey Hinton)如何带领杨立昆、本吉奥穿越寒冬?OpenAI首席科学家Ilya当年的高光时刻。 📚 关于《白话大模型》系列: 我是数据科学家、科技公司CTO。这是我正在撰写的一本AI科普书的视频版,旨在用最通俗的语言,把大模型掰开揉碎讲给你听。 🎉 特别预告: 书稿终于写完了!最后一章关于Diffusion和Transformer的内容写得很过瘾,预计明年春天面世。感谢大家长久以来的陪伴! 如果觉得内容硬核且有用,请一键三连支持一下!这期20分钟的长视频,需要你的鼓励!🙌 #AI科普 #深度学习 #大模型 #辛顿 #激活函数 #ReLU #反向传播 #人工智能史
第14期丨反向传播(上)白话大模型 | 第14期丨反向传播(上) 简介:【第14期】上一期我们讲到,因为分锅难题(CAP),多层神经网络在理论的囚笼里被关了20年 。 是谁在寒冬中点燃了火种?🔥 1986年,反向传播算法(Backpropagation)横空出世,彻底解开了封印! 本期视频,带你拆解这个AI史上最伟大的算法之一。别被名字吓到,它的核心其实只是微积分里最简单的链式法则”!看完这集,你也能懂神经网络是如何“学习”的。 #AI #白话大模型 #AI科普 #反向传播 #神经网络 #辛顿 #Transformer
第13期丨信用分配问题与AI寒冬守夜人【第13期】上期我们讲到,明斯基用XOR谜题宣判了感知机的死刑,AI坠入寒冬。但罗森布拉特早已预见多层网络才是未来,那为什么连接主义还是失败了?因为一个比XOR更根本、更致命的难题 —— 信用分配问题(CAP)。 本期《白话大模型》,我们将深入AI寒冬的核心,看懂这个困扰了学界近20年的分锅难题: 1. CEO的烦恼:用一个“万人公司项目失败”的比喻,彻底理解什么是“信用分配问题”。 2. 寒冬的绝望:为什么当时全世界都认为多层神经网络根本无法训练? 3. 黑暗中的守夜人:是谁在学术西伯利亚赌上学术生命?认识AI教父辛顿 (Hinton)和被时代埋没的天才韦伯斯。 理解了这个世纪难题,你才能真正体会到下一期反向传播算法的伟大之处。 #AI #白话大模型 #神经网络 #信用分配 #AI寒冬 #科技史 #人工智能 #辛顿 #Hinton
第12期丨感知机之殇【第12期】1958年,感知机的诞生引爆AI热潮,人们以为AGI近在眼前。但仅仅11年后,AI泰斗、符号主义领袖马文·明斯基,用一本著名的黑皮书和一个简单到极致的“XOR谜题”,给神经网络整个领域判了死刑,开启长达十年的AI寒冬。 本期《白话大模型》,我们将重回那场AI史上的世纪审判: * 宿敌之战:明斯基如何狙击他的高中校友罗森布拉特? * 致命谜题:为什么感知机连最简单的异或逻辑都无法解决?用“蛋糕比喻看懂“线性不可分”。 * 天才悲剧:罗森布拉特的意外身亡与他未竟的多层网络遗产。 #AI #人工智能 #神经网络 #感知机 #XOR #AI寒冬 #白话大模型 #明斯基 #罗森布拉特
第11期丨现代AI的引擎:梯度下降法【第11期】AI的学习过程,本质上就是在寻找一个复杂方程的最优解。但面对拥有数千亿参数的方程,机器是如何猜到正确答案的? 本期《白话大模型》,我们将用一个浓雾中下山的比喻为你彻底讲透现代AI的灵魂算法——梯度下降法 (Gradient Descent) 。你将了解: * 为什么说AI找规律的本质,其实是在求函数最小值? * 什么是“度?为什么朝着它的反方向走,就是最快的下山路径? * 这个诞生于1847年的古老数学思想 ,是如何成为驱动今天所有大模型的引擎的? 这可能是全网最通俗易懂的梯度下降讲解。掌握了它,你就掌握了理解AI学习机制的万能钥匙。
第10期丨第一个会学习的神经网络:感知机本期,我们将认识“神经网络之父”弗兰克·罗森布拉特 ,见证他如何创造出第一个会学习的神经网络——感知机 (Perceptron) 。你将看到AI最核心的几个“黑话”——学习、权重、偏置、参数量,如何用一个初中数学题就解释得明明白白。我们还会一步步拆解感知机的学习过程,你将了解到,今天万亿参数的大模型,其核心学习范式就源自于60多年前的感知机。
第9期丨神经网络起源:MP模型【第9期】上期我们知道了AI有三大“门派”,但机器究竟是如何“学习”的?我们必须从AI的心脏——神经网络——开始。 本期,我们将回到1943年,认识一对“最强怪才组合”:42岁的全能学者麦卡洛克,和18岁的流浪数学天才皮茨。看他们如何从生物大脑中获得灵感,设计出AI的第一个“神经元”——MCP模型。这个简单的“开关”,如何证明了“机器思维”的可能性?它又为何只是一个“无法学习”的天才蓝图? #AI #AI科普 #白话大模型 #神经网络 #MCP模型 #科技史 #MP模型
第8期丨机器学习(下):三大主流门派摘要本期我们来拜访机器学习世界的三大主流门派。他们就像三位武功各异的宗师,定义了AI学习世界的基本规则。 1. 监督学习:为什么AI能精准预测房价?我们将揭示“严格老师”如何拿着“标准答案”(标签和特征)给机器“刷题”,以及“分类”和“回归”两大考场。 2. 无监督学习:如果没有标准答案,机器如何自学?我们将跟随“探险家”,看它如何在混沌数据中“物以类聚”(聚类)和洞察本质(降维)。 3. 强化学习:机器如何学会在动态环境中“试错”并做出最优决策?从超级马里奥到AlphaGo,我们将了解“实战教练”如何利用“奖励与惩罚”机制,训练出超越人类的智能。 欢迎来到《白话大模型》科普系列。在之前的讨论中,我们提到机器学习有三大主流门派,他们如同三位性格迥异、各怀绝技的武林宗师。今天,我们就将逐一拜访这三位宗师,探寻他们各自的武功秘籍。 一、监督学习 第一个门派叫监督学习 (Supervised Learning)。这个门派就像一位严格的老师,拿着一本带有标准答案的练习册进行教学。 这位老师的练习册(教材)是什么样的呢?在监督学习中,我们喂给机器的是大量的标注数据 (Labeled Data)。这份教材类似于一份模拟题库,包含了成千上万道考题以及它们对应的标准答案。 我们来仔细分析一道典型的“考题”:预测链家上每套房子的价格。为了解决这个问题,题库为每一套房子都提供了两样东西: 1. 特征 (Features): 也就是我们提供给机器的、用来描述一个事物的所有相关信息。这相当于考题中的“线索”或“已知条件”。对于房价预测问题,线索可能包括:每套房子的面积、卧室数量、所在楼层、地理位置、建造年份等等。所有这些具体信息就是特征,它们是机器做判断时能够利用的全部已知条件。 2. 标签 (Label): 这就是我们希望机器通过学习,最终能够自己预测出来的那个“正确结果”,相当于考题的“标准答案”。在房价预测任务中,标准答案就是每套房子真实的历史成交价格。 明确了任务、特征和标签后,机器如何学习呢?我们将历史上成交过的100万套房子的特征(面积、卧室、位置等)及其对应的标签(真实成交价)都喂给机器。机器会像一个勤奋的学生一样,反复观察这100万套房子的特征和标签之间的关系,最终学习到一个通用的规律或模型 (Model)。这个过程,我们称之为模型训练 (Model Training)。这就相当于刷完了100万道模拟题(训练完成)之后,就可以上考场了。 当遇到一个新房子时,你只需要输入它的特征(面积、卧室、位置等),机器就能利用学到的模型计算出一个预测价格,以供决策参考。这个利用模型对新数据进行计算的过程,我们称之为模型推理 (Model Inference)。 监督学习这位“老师”训练学生,主要是为了应对两大类考试: 分类,Classification 分类的目标是根据输入数据的特征,将其分配到预先定义好的几个类别中的某一个。模型的输出是一个离散的、表示类别的标签。 典型的分类任务有: * 垃圾邮件过滤: 判断一封邮件是“垃圾邮件”还是“非垃圾邮件”(二选一)。 * 图像内容识别: 判别图片中的物体是“汽车”、“行人”还是“交通信号灯”(三选一)。 * 情感分析: 判断一段用户评论表达的情感是“正面”、“负面”还是“中性”(三选一)。 回归,Regression 与分类不同,回归的目标是根据输入数据的特征,来计算出一个连续的、数值型的输出。 典型的回归任务有: * 房价预测: 正如我们刚才介绍的,根据房屋特征预测具体的房屋价格。 * 股票价格预测: 根据历史数据和市场指标,预测某只股票今天的收盘价。 * 天气预报: 根据当前的气象数据,预测未来的具体气温值。 监督学习这个门派历史悠久、高手辈出,发展出了众多成熟的“武林秘籍”(算法),例如最基础的线性回归、逻辑回归,非常直观的决策树,理论优美的支持向量机(SVM)等等,当然,也包括我们后面会详细介绍的神经网络。 二、无监督学习 如果说监督学习是拿着标准答案刷题,那么无监督学习 (Unsupervised Learning) 就像是在一片广漠无垠、没有任何地图或向导的未知大陆上进行探索。 在无监督学习的世界里,不存在标准答案。探险者(机器)需要像一位考古学家,在面对一堆看似杂乱无章的出土文物碎片时,通过仔细观察它们的材质、纹理、形状,自主地对它们进行分类整理,发现它们之间隐藏的某种规律。 这位探险家的主要任务也有两大类: 聚类,Clustering 聚类的目标就是“物以类聚、人以群分”。它要将一个数据集中的所有样本,根据它们彼此之间的某种相似性,自动划分成若干个组。 这在商业世界中应用非常广泛,最典型的例子就是客户分层。比如,一家电商平台拥有数百万用户的海量行为数据,但并不知道该如何对这些用户进行有效分类。此时,聚类算法就像一个智能分拣员,它会自动分析用户的购买历史、浏览行为、活跃时间等海量特征,最终可能会自动将用户分成几个鲜明的群体,例如:“高价值活跃用户”、“价格敏感型用户”、“沉睡待唤醒用户”等。 在这个过程中,我们不需要预先给任何一个用户打上标签,算法自己就能从数据中发现隐藏的客群结构。另一个例子是:新闻网站自动将相似内容的新闻聚合在一起,形成体育、财经等不同的话题频道。 降维,Dimension reduction 降维听起来有些抽象,但它的思想其实我们每天都在用。在机器学习中,我们描述一个事物用到的特征越多,数据的维度就越高。降维的目的,就是在尽可能保留核心信息的前提下,减少特征的数量。 举个例子:你如何向一位没见过大象的朋友描述大象?大象有无数特征:长鼻子、大耳朵、粗壮的四条腿、庞大的身躯、灰色的皮肤……可能有成百上千个细节。但如果你想让朋友快速抓住大象最与众不同的核心特征,你可能会说:“它有能喷水的长鼻子,和两片像扇子一样的大耳朵。” 你刚刚就进行了一次精彩的降维——从众多特征中,提取出了两个最具有代表性、最能区分大象的关键特征。 我们之所以要降维,一个直观的目标是为了数据可视化。我们人类的大脑很难想象超过3维的世界,但现实中的数据动辄就有成百上千个维度。通过降维,我们可以把高维数据压缩或投影到我们能理解的2维或3维空间,从而直观地发现数据中隐藏的规律或模式。 总而言之,无监督学习这位“探险家”,其巨大的价值在于“探索未知、洞察本质”的能力。它常常被用作我们理解和分析数据的第一站,帮助我们从看似混沌的数据中梳理出脉络,发现新的知识。 三、强化学习 最后一个门派是强化学习 (Reinforcement Learning),这个门派独具魅力,也稍微有些复杂。如果说监督和无监督学习更多的是从静态的数据中学习模式;那么强化学习则侧重于让机器在一个动态变化的环境中,通过持续的实践和试错,来学习如何做出最优的决策序列,以达成某个长远目标。 它的核心思想来源于人类和动物学习行为的一个基本原理:趋利避害。如果一个行为带来了奖励,那么未来就更加倾向于采取这个行为;如果导致了惩罚,未来就会尽量避免它。 强化学习就像一位经验丰富的实战教练。它不直接教你固定的招式,而是为你设定一个目标,并明确奖励和惩罚机制,然后让你自己“下场”去领悟。 为了理解强化学习,我们可以把它想象成一个完整的游戏。我们用经典游戏《超级马里奥》来说明它的几个核心元素: 1. 智能体 (Agent): 也就是学习者。在游戏中,就是马里奥本人。 2. 环境 (Environment): 智能体需要与之互动的一切。在游戏中,就是整个关卡,包括砖头、管道、悬崖和各种敌人。 3. 状态 (State): 环境在某一特定时刻的完整描述。在游戏中,就是当前的游戏画面:马里奥的位置、他面前是否有敌人、是否有障碍物或金币等。 4. 动作 (Action): 智能体在感知到当前状态后,可以执行的操作。在游戏中,就是手柄按键:向左、向右、跳跃等。 5. 奖励 (Reward): 强化学习的驱动力与指挥棒。当智能体执行一个动作后,环境会反馈一个奖励信号(可正可负)。比如:吃到一个金币(+10分),踩死一个小蘑菇(+100分),碰到敌人受伤或掉下悬崖(-100分)。 强化学习的目标,就是在环境中尽可能地最大化自己获得的总奖励。 介绍完所有角色,我们来看马里奥是如何通过强化学习从新手成长为通关高手的。这是一个持续的互动循环: 1. 观察: 智能体(马里奥)观察到当前的游戏画面(当前状态)。 2. 行动: 根据他当前的策略,马里奥决定执行一个动作(例如“跳跃”)。 3. 反馈: 环境接收到这个动作后发生变化(马里奥跳起来,吃到一枚金币)。 4. 学习: 环境反馈一个即时的奖励(+10分)。马里奥接收到这个信号,完成一次学习。如果这个动作带来了正向奖励,他将来就会更倾向于采用它;如果带来的是惩罚,他未来就会改进策略。 这个“观察->行动->接收反馈->学习改进”的循环会不断重复。通过成千上万次的尝试、犯错以及获得奖励的体验,智能体最终会学到一套最优策略。他会知道,在任何复杂的局面下,如何做出最佳决策,来最大化自己能获得的长期总奖励。 这个“从试错中学习”的思想,在现实世界取得了革命性的成就。最广为人知的例子莫过于2016年DeepMind开发的AlphaGo击败了人类围棋世界冠军。在AlphaGo的背后,没有一位人类导师为它准备所有的“棋谱练习册”(监督学习)。AlphaGo真正的“师傅”,正是强化学习这个机制。 它通过和自己进行数亿盘的自我对弈,在代表着“赢”(奖励)或“输”(惩罚)的信号引导下,独立探索并发现了超越人类数千年围棋知识的全新策略,最终击败了世界冠军。强化学习这位“实战教练”,最擅长解决需要在连续互动中做出最优决策的复杂问题。 到这里,我们就拜访完了机器学习的三大门派。我们认识了监督学习、无监督学习和强化学习这三大主流范式。 但是,一个更深层次的问题浮现了:无论是哪种学习方式,机器内部究竟是凭借怎样的一种具体“器官”或运行机制,来实现这些神奇的学习能力的呢?在众多的实现方法中,有一个模型,因其独特的、源于对我们人类大脑结构和功能的仿生灵感,以及其强大的潜力,最终成为了引领AI新一轮浪潮的核心力量。 下一期,我们将正式进入现代AI的心脏地带,去认识那个最闪亮的明星——神经网络 (Neural Networks)。 欢迎你关注【星科技】,收藏《白话大模型》系列,我们下期见! -- THE END --
第7期丨AI的灵魂:机器学习(上)你好,欢迎来到AI科普系列《白话大模型》的第7期。 上一期我们讲到,AI的第一次路线之争,最终让早期过于乐观的研究者们撞上了现实的冰山。人们意识到,想靠人类专家写下全世界所有的规则来教会机器思考,几乎是一条走不通的路。 正是在这种深刻的反思中,一个更加务实、也更加强大的思想逐渐走向了舞台中央。它继承了连接主义“从数据中学习”的精神内核,并最终将彻底改变人工智能的技术版图。 这个思想,就是机器学习。 AI知识大陆的地图 不过,在我们正式进入机器学习的世界之前,咱们先理清几个概念。 我相信很多朋友都听说过人工智能、机器学习、神经网络、深度学习、大模型等等这些热词,它们听起来好像差不多,经常被混着用,这个让很多刚入门的爱好者非常困惑。它们之间到底是什么关系呢? 为了彻底搞清楚,我们就来看这张“AI知识大陆的层次结构图”。这可以说是我们探索AI世界最重要的一张地图图例。你看,这几个概念的关系就像一组“俄罗斯套娃”: * 最外层:人工智能 (AI):这是研究者们最宏大的目标,就是要让机器变得像人一样聪明,甚至比人更聪明。 * 第二层:机器学习 (ML):这是实现人工智能这个宏大目标最主流、也最成功的一条路径。它的核心不是靠人去编写所有规则,而是让机器自己从数据中学习。 * 第三层:神经网络 (NN):它是机器学习当中,受到我们人脑结构启发而设计出来的一类非常强大的模型。它是机器学习的一个分支,当前也绝对是最闪亮的明星之一。 * 最内层:深度学习 (DL):它是神经网络的一个分支,是指那些结构非常复杂、层次非常非常多的神经网络。正是这些“深度”的网络,才让AI在最近十年取得了革命性的突破。咱们今天用的DeepSeek、豆包、即梦AI这些工具,都是深度学习这个领域当中的成功应用。 所以简单总结一下:深度学习是一种复杂的神经网络,神经网络是一类重要的机器学习算法,而机器学习,则是实现人工智能当前最核心的手段。 好,有了这张地图,我们就不会迷路了。现在,我们回到对机器学习的介绍。 一个经典问题 我们先看一个经典问题:如何让计算机来识别一张图片里有没有猫? 如果采用传统的思路,我们需要绞尽脑汁,写下成百上千条规则。比如说,“如果图片里有两只尖尖的耳朵”、“如果图片里有圆圆的眼睛”、“如果图片里有细长的胡须”,那它可能是一只猫。 这种方法不但极其繁琐,而且面对现实世界中猫的千姿百态、不同品种、各种光线跟背景的干扰,规则几乎不可能做到完备和准确。 而机器学习则另辟蹊径,提供了一个全新的思路。它说:“我们换个活法!”。我们不需要像教一个学徒工那样,手把手告诉计算机每一步怎么做。取而代之的是,我们收集成千上万张各种各样的图片,其中有些是猫的图片,我们给它打上【这是猫】的标记;其他的各种不是猫的图片,我们给它打上【这不是猫】的标记。 然后,我们把这些海量的、带着标记的数据“喂”给机器学习算法。算法会自动地、反复分析这些图片,试图从猫的图片中,找出它们共同具有的、而那些非猫图片所不具备的视觉模式跟统计规律。最终,算法自己会“悟”出猫和非猫的区别。 这是一个深刻的范式革命,它代表了从“授人以鱼”到“授人以渔”的根本性转变。 会下棋的程序 让“机器可以学习”这个理念第一次走出纯粹的理论思辨,并且得到令人信服验证的,是一位伟大的先驱——阿瑟·萨缪尔 (Arthur Samuel)。 故事要从20世纪50年代说起。那时的计算机是占据整个房间的庞然大物,运算速度也慢如蜗牛。当时担任IBM工程师的萨缪尔却萌生了一个在当时看起来既不切实际、又有些不务正业的想法:教计算机下西洋跳棋。 那么,萨缪尔的跳棋程序是如何实现“学习”的呢?他巧妙地设计了两种核心机制: 1. 死记硬背 (Rote Learning):程序会记住遇到的每一个棋盘局面,以及从这个局面开始最终是赢、是输还是平局的结果。这个就像是我们背熟了乘法口诀表,以后看到 5*6 就脱口而出是30,而不需要从头计算。 2. 自我对弈、提升棋感 (Self-Play & Evaluation):这更是萨缪尔程序中最具创新性的部分。程序与自己进行了成千上万次的对弈,通过分析这些对弈的结果(比如哪些策略更容易导向胜利),程序可以不断优化内部的一个“评估函数”。这个过程就像专业棋手通过大量的实战和复盘,来不断打磨自己的棋艺。 通过这个学习机制,萨缪尔的跳棋程序不断精进。在1962年,它甚至击败了美国康涅狄格州的跳棋冠军罗伯特·尼利。这个在当时引起了不小的轰动,因为它非常生动地向公众展示了:机器确实可以从经验中学习,并完全可能超越其创造者。 正是在这项开创性的工作基础上,萨缪尔在1959年为机器学习下了一个经典的定义: 机器学习这个研究领域,赋予了计算机无需明确编程即可学习的能力。 工程学的蓝图:E/T/P框架 萨缪尔的定义非常直观,富有启发性。但是为了在学术和工程实践中更加精确地去描述和度量学习过程,卡内基梅隆大学的汤姆·米切尔 (Tom Mitchell) 教授,在他1997年的经典著作《机器学习》中,提出了一个更加形式化、也更具操作性的定义,如今已成为该领域的标准。 它清晰地指出了构成一个机器学习过程的三个核心要素,我们称之为E/T/P框架: * E (Experience, 经验):指的是程序用来学习的数据,或者与环境交互的过程。比如一个包含大量已标记邮件的数据集,就是经验。 * T (Task, 任务):指的是程序需要完成的具体工作。比如将邮件分类成“垃圾邮件”和“非垃圾邮件”,就是一个任务。 * P (Performance Measure, 性能度量):指的是衡量程序在执行任务时表现好坏的标准。比如被正确分类的邮件所占的百分比,就是一个性能度量。 所以,米切尔对机器学习的完整定义是: 一个计算机程序从经验E中学习,以解决某类任务T,并用性能度量P来衡量。如果以P衡量的、它在任务T上的性能随着经验E的增加而提高,那么我们就说这个程序具备了学习能力。 这个E/T/P框架的价值远不止于一个理论定义,它为我们思考、设计跟评估任何一个机器学习项目,都提供了一个非常实用和清晰的工程学指导蓝图。可以说,E/T/P框架是每一位AI从业者在项目启动之初,都应该牢记于心的“黄金三问”。 为什么大器晚成? 当然,你可能会问,机器学习这个思想既然在上世纪50年代就有,为什么直到最近一二十年,我们才真正感受到了它的威力? 这并非因为先驱们的想法不够深刻,而是因为机器学习的潜力被当时的客观技术条件压制了数十年。直到进入21世纪,驱动它的“三驾马车”才终于齐备: 1. 数据 (Data):互联网的普及带来了前所未有的海量数据资源,让机器学习有了充足的“养料”。 2. 算力 (Compute):摩尔定律推动着硬件芯片技术的持续进步,为复杂模型的训练提供了强大的算力保障。 3. 算法 (Algorithms):许多更高级、更强大的学习算法,也是在几十年的研究当中才逐步被提出和完善的。 所以,正是数据、算力、算法这三驾马车的齐头并进、相互促进,才在最近一二十年共同点燃了机器学习的引擎,迎来了我们今天所看到的蓬勃发展时期。 好,今天我们初步揭开了机器学习的神秘面纱,通过萨缪尔的跳棋程序理解了“从经验中学习”的灵魂,也通过米切尔的E/T/P框架掌握了定义一个学习任务的工程蓝图。 机器学习的核心,就是“从经验中学习,以改善在特定任务上的性能”。这个过程其实与我们人类的学习非常相似。 回忆一下我们是如何学会骑自行车的:父母不会给我们讲解牛顿力学,而是让我们自己去尝试、去摔倒、去调整。我们会在一次次的尝试中逐渐“悟”出平衡的诀窍,骑得也越来越稳,这也就相当于机器学习算法的性能越来越提升。 就像人类学习知识有不同的方法,机器学习经过几十年的发展,也逐步形成了三大主流的门派,它们就像三位性格迥异但各怀绝技的武林宗师: * 第一位是监督学习,他就像一位严格的老师,手把手带着标准答案来教学。 * 第二位是无监督学习,他就像是一位独立的导师,放手让AI自行去探索未知。 * 第三位叫强化学习,这个就像是一位实战教练,在奖惩试炼当中带你悟出真谛。 下一期,我们就将拜访这三位武林宗师,完整了解机器学习的三大流派。 欢迎你关注【星科技】,收藏《白话大模型》系列,我们下期见! -- THE END --