白话-大模型

778已订阅

白话-大模型

TechAstra星科技

单集更新

节目详情

第21期丨ResNet突破深度极限
【第21期】自从2012年AlexNet开启了深度学习的狂欢，整个AI界都坚信网络越深模型越强。可是当层数堆叠到三五十层时，大家却撞上了一堵令人绝望的叹息之墙，也就是网络退化。模型非但没有变聪明，反而越学越笨。本期星科技将带你认识这位打破僵局的中国天才学者何恺明。我们将用一个极其接地气的职场企划案审批比喻，为你硬核拆解他那大道至简的天才设计，ResNet残差网络。看一条极简的VIP直达电梯通道，如何保住深层网络的信息不丢失，并在2015年的ImageNet大赛上以152层的恐怖深度历史性地超越人类肉眼识别率。更重要的是，这套跨越时代的钢铁骨架，至今依然流淌在ChatGPT和DeepSeek等前沿大语言模型的血液中。期待你在评论区留下你的思考，咱们一起探讨。 * 00:00 深度学习的新信仰：回顾AlexNet开启的“网络越深，模型越强”时代。 * 00:25 2014年ImageNet双雄会：VGG与GoogLeNet的巅峰对决，离人类水平仅一步之遥。 * 01:22 撞向“叹息之墙”：当层数堆叠，模型为何在训练集上离奇“变笨”？ * 02:32 状元何恺明的硬核人生：从广东满分状元到计算机视觉领域的顶级学者。 * 04:09 解密ResNet核心逻辑：抛弃H(x)，改学“残差”F(x)的天才变通。 * 05:10 大白话拆解：如果模型训练是“解方程”，参数规模到底有多恐怖？ * 09:02 职场视角看退化：当CEO遇上层层加戏的“中间层”，原稿的闪光点是如何丢掉的？ * 10:18 恒等映射与保底机制：ResNet如何为深度网络建立性能的“绝对下限”。 * 11:49 152层的神迹：AI首次在准确率上超越人类，残差思想如何渗透进今天的Transformer。 * 13:35 下期预告：从静态空间到流动时间，开启RNN与序列数据的新篇章。
14分钟 · 8天前
64
0
第20期丨AlexNet一战封神、深度学习崛起
欢迎来到《白话大模型》的第20期。 2012年的 ImageNet 图像识别大赛，原本在一片波澜不惊中拉开序幕，却因为一支名为“SuperVision”的神秘三人小队彻底改变了人类科技的走向。65岁的“AI守夜人” Geoffrey Hinton 带着两名天才学生——Alex Krizhevsky 和后来声名大噪的 Ilya Sutskever，用两块普通玩家用来打游戏的显卡，以及一直被主流学界质疑的神经网络算法，以碾压所有对手40%的恐怖成绩完成了“屠榜” 。本期播客，我们将一半讲故事，一半讲技术，带你重温这场宣告深度学习正式降临的破局之战。我们将硬核拆解有着6000多万参数的超级怪兽 AlexNet，看看“双GPU并行”的工程奇迹是如何诞生的，以及 ReLU 和 Dropout 这两个看似简单却极其伟大的算法创新是如何运作的。准备好，让我们一起回到那个AI技术突然“起飞”的历史奇点。 * 00:00:00 惊艳世界的破局之战：回顾最初两届平淡无奇的 ImageNet 挑战赛，以及2012年那支将错误率断崖式降低到15.3%的神秘团队“SuperVision” 。 * 00:02:21 穿越26年寒冬的守夜人： 65岁的 Hinton 老爷子带着学生重返赛场，证明了神经网络从来不是方向错误，只是“时候未到” 。 * 00:04:03 幕后的两位天才门徒：榨干两块英伟达显卡算力、事了拂衣去的 Alex，以及后来名满天下的 OpenAI 首席科学家 Ilya 。 * 00:06:46 逼出来的工程奇迹：面对装不下整个模型的硬件困境，AlexNet 如何巧妙地将网络劈成两半，实现双 GPU 独立并行计算与跨卡融合。 * 00:09:24 逐层解构超级怪兽：深度拆解5个卷积层与3个全连接层，看模型如何从11x11大卷积核的轮廓扫描，一步步汇聚成最终的“猫”的概念判断。 * 00:13:55 大道至简的算法创新：抛弃 Sigmoid 全面启用 ReLU 彻底解决梯度消失问题，以及通过“随机让一半神经元休息”的 Dropout 机制巧妙战胜过拟合。 * 00:16:38 一声发令枪响： AlexNet 的大获全胜如何引爆硅谷巨头的抢人战，催生“网络越深，模型越强”的新信仰，并为下一代神级模型 ResNet 埋下伏笔。
20分钟 · 1 个月前
118
2
第19期丨离经叛道的AI教母
【第19期】在深度学习震撼世界之前，人工智能曾经历过漫长的寒冬。当全世界都在传统算法里钻牛角尖时，华裔女科学家李飞飞敏锐地发现，限制AI发展的根本不是算法，而是数据。本期视频，星科技将带你回到深度学习大爆发的前夜。看李飞飞如何顶住学术界的冷眼，动用全球5万名网友，完成给1400万张图片打标签的疯狂挑战。你能想象AI要在120种长相极其相似的狗中准确区分出某一种吗？正是这个史无前例的超级数据集，化作了引爆AI革命的最强燃料。而在2012年的赛场上，一场惊心动魄的降维打击即将上演。 #AI科普 #李飞飞 #ImageNet #深度学习 #人工智能 #科技史 #白话大模型 #星科技时间轴： * 00:00:18 神经网络陷入漫长低谷缺乏数据与算力的炼金术时代 * 00:01:03 从新泽西干洗店到斯坦福讲台华裔女孩李飞飞的硬核逆袭 * 00:02:40 算法不够好还是数据不够多巧妇难为无米之炊的第一性思考 * 00:04:19 让工程师绝望的疯狂计划挑战一千四百万张图片的数字化索引 * 00:05:28 土耳其机器人与数字时代的蚂蚁雄兵众包模式完成不可能的任务 * 00:07:46 计算机视觉领域的奥林匹克大赛极其变态的测试规则与细分类别 * 00:10:48 传统机器学习遭遇绝望天花板连李飞飞自己都开始怀疑人生 * 00:12:34 属于深度学习的寒武纪大爆发多伦多师徒掀翻牌桌的降维打击
15分钟 · 1 个月前
172
9
第18期丨Meta往事，最后一位理想主义者的出走
白话大模型丨第18期丨ChatGPT 时代的逆行者：为什么深度学习之父杨立昆坚持说 LLM 是条死胡同？当全世界都在为 Transformer 和 ChatGPT 欢呼时，有一位“巨人”却泼了一盆冷水。他是卷积神经网络之父，是图灵奖得主，是一手缔造了 Facebook AI 帝国（FAIR）和 PyTorch 的传奇人物——杨立昆（Yann LeCun）。但在 AI 的高光时刻，他却被视作“保守派”甚至是“异见者”。本期节目，我们将跨越 2013 到 2026 年的时光，重现硅谷 AI 权力的更迭。从扎克伯格“三顾茅庐”的许诺，到 PyTorch 的野蛮生长；从 Llama 4 的“造假丑闻”到计算学派与数据学派的终极对决。这不仅是杨立昆一个人的战斗，更是关于 AI 究竟该通往“统计学概率”还是“世界模型因果”的路线之争。让我们拨开商业喧嚣，去看看这位 65 岁老兵最后的冲锋。详细时间轴 * 01:06 扎克伯格的豪赌与“不平等条约”为了对抗 Google 垄断 AI 大脑，扎克伯格答应了杨立昆三个苛刻条件：不搬家、不保密、不背 KPI。 * 02:53 硅谷的理想国：FAIR 实验室一个反公司的存在。在这里，衡量成功的标准不是日活和营收，而是论文数量与对人类智能本质的探索。 * 04:30 PyTorch 封神之路：屠龙少年的胜利对比“德国重型机床”般的 TensorFlow，PyTorch 如何凭借“动态图”哲学，成为全球研究员的通用语言。 * 07:13 “随机鹦鹉”论战：两种哲学的决裂杨立昆为何鄙视自回归模型？详解“世界模型”（World Model）与 JEPA 架构，AI 不应只是概率的统计，而应理解物理因果。 * 10:48 2025 年的转折点：Llama 4 造假丑闻（高能剧情）为了商业变现，Meta 在基准测试中“拼接”试卷。这一事件彻底击碎了 FAIR 曾经的学术荣誉体系。 * 12:39 暴力美学的上位：当 Data becomes New Code28 岁的 Scale AI 创始人空降 Meta，科学家派系被大清洗。以“大力出奇迹”为信条的工程文化彻底取代了探索精神。 * 14:53 最后的出走：道不同，不相为谋杨立昆离职 Meta。那个以开源和探索为荣的“贝尔实验室”式时代，正式宣告落幕。 * 15:17 巴黎重生：AMI Labs 与最后的豪赌65 岁再创业。这一次，他选择在医疗和物理网络系统中，继续证明“世界模型”才是通往 AGI 的正途。本期金句 “我不想做改善你新闻流排序的算法，我要做的是破解智能的本质。” “他（杨立昆）不是造剑的人，但他给了铸剑师最纯净的火焰。”——评 PyTorch 的诞生 “这个模型读了 1 万亿个单词，却不知道手松开水杯会掉在地上……因为书本里只写了水杯掉落的结果，没写重力的因果。” “现在的 AI 仍然被困在屏幕跟服务器里，而真正的智能必须要拥有身体。” “如果 AI 掌握在少数几家科技巨头手里，这将是人类的灾难。” 制作手记本期内容由于涉及大量技术流派演变（静态图 vs 动态图，Transformer vs JEPA），我们在文案中尽量采用了比喻手法（如“德国机床”、“拼凑试卷”），力求让非技术背景的听众也能感受到那场惊心动魄的路线之争。杨立昆的故事，本质上是科学精神与商业资本永恒博弈的缩影。
18分钟 · 2个月前
99
1
第17期丨现代CNN的鼻祖
【第17期】80年代的巴黎，年轻的杨立昆拿着焊枪闯入被符号主义统治的学术界，是个彻头彻尾的异类。直到在阿尔卑斯山的雪夜偶遇同样孤独的辛顿，这场宿命般的会面改变了AI的历史。本期我们将跟随他的脚步，从多伦多穿越到贝尔实验室，深度拆解两大传奇： MNIST数据集：杨立昆为何要把高中生和普查员的字混在一起？这个28x28的小方格如何成为AI界的度量衡？ LeNet-5模型：在算力贫瘠的1998年，他如何用稀疏连接的天才设计，让机器读懂了全美20%的支票？这不是枯燥的技术史，而是一部关于偏执与坚守的微电影。翻开CNN的第一页，致敬那位寒冬中的点火者。 #白话大模型 #AI #人工智能 #CNN #卷积神经网络 #AI科普 #杨立昆 #LeNet #深度学习 #MNIST
20分钟 · 3个月前
114
1
第16期丨CNN的思想源头
【白话大模型丨16】为什么摄像头拍下的只是像素，而人类大脑看到的却是世界？在人工智能漫长的进化史上，让机器学会看见曾是一道难以逾越的天堑。早期的神经网络面对复杂的图像信息，往往会陷入参数灾难与信息碎片化的泥潭，就像试图通过研究一堆颜料粉末来理解《蒙娜丽莎的微笑》。本期《白话大模型》，我们将翻开第三章《机器之眼》的序幕。故事要从 1959 年哈佛大学实验室里的一只猫讲起——两位神经生理学家偶然间捕捉到的噼里啪啦声，不仅为他们赢得了诺贝尔奖，更向 AI 研究者们揭示了生物视觉的终极奥秘：局部感知与层级抽象。从福岛邦彦设计的原始骨架，到卷积（Convolution）与池化（Pooling）的精妙协作，我们将深入浅出地拆解 CNN 的仿生学原理。你会发现，所谓的卷积计算其实就是拿着手电筒寻找线索，而池化则是为了抓住关键而难得糊涂。让我们一起跨越这道技术门槛，领取通往现代人工智能世界的 VIP 门票。 #AI #AI科普 #人工智能 #白话大模型 #CNN #卷积神经网络 #卷积 #池化 #福岛邦彦
13分钟 · 3个月前
151
4
第15期丨反向传播（下）
【第15期】微积分里的链式法则早在牛顿时代就有了，为什么反向传播算法却让全世界最聪明的科学家整整迟到了20年？🤔 本期视频，我们继续拆解神经网络的演进史。这不仅仅是算法的迭代，更是一场关于打破偏见、跨越低谷的英雄史诗。从1943年的MCP模型到2012年的AlexNet爆发，我们看看这“消失的20年”里到底发生了什么。 📺 本期硬核知识点： * 三重思想钢印：是什么锁死了AI发展的咽喉？（生物学执念、局部最优恐惧、学术偏见） * 激活函数进化史：为什么神经网络必须“弯”一下？从Sigmoid的梯度消失，到ReLU的简单粗暴，数学上的“不完美”如何成就了工程上的奇迹？ * AI守夜人：杰弗里·辛顿（Geoffrey Hinton）如何带领杨立昆、本吉奥穿越寒冬？OpenAI首席科学家Ilya当年的高光时刻。 📚 关于《白话大模型》系列：我是数据科学家、科技公司CTO。这是我正在撰写的一本AI科普书的视频版，旨在用最通俗的语言，把大模型掰开揉碎讲给你听。 🎉 特别预告：书稿终于写完了！最后一章关于Diffusion和Transformer的内容写得很过瘾，预计明年春天面世。感谢大家长久以来的陪伴！如果觉得内容硬核且有用，请一键三连支持一下！这期20分钟的长视频，需要你的鼓励！🙌 #AI科普 #深度学习 #大模型 #辛顿 #激活函数 #ReLU #反向传播 #人工智能史
19分钟 · 4个月前
122
5
第14期丨反向传播（上）
白话大模型 | 第14期丨反向传播（上）简介：【第14期】上一期我们讲到，因为分锅难题（CAP），多层神经网络在理论的囚笼里被关了20年。是谁在寒冬中点燃了火种？🔥 1986年，反向传播算法（Backpropagation）横空出世，彻底解开了封印！本期视频，带你拆解这个AI史上最伟大的算法之一。别被名字吓到，它的核心其实只是微积分里最简单的链式法则”！看完这集，你也能懂神经网络是如何“学习”的。 #AI #白话大模型 #AI科普 #反向传播 #神经网络 #辛顿 #Transformer
22分钟 · 5个月前
235
4
第13期丨信用分配问题与AI寒冬守夜人
【第13期】上期我们讲到，明斯基用XOR谜题宣判了感知机的死刑，AI坠入寒冬。但罗森布拉特早已预见多层网络才是未来，那为什么连接主义还是失败了？因为一个比XOR更根本、更致命的难题 —— 信用分配问题(CAP)。本期《白话大模型》，我们将深入AI寒冬的核心，看懂这个困扰了学界近20年的分锅难题： 1. CEO的烦恼：用一个“万人公司项目失败”的比喻，彻底理解什么是“信用分配问题”。 2. 寒冬的绝望：为什么当时全世界都认为多层神经网络根本无法训练？ 3. 黑暗中的守夜人：是谁在学术西伯利亚赌上学术生命？认识AI教父辛顿 (Hinton)和被时代埋没的天才韦伯斯。理解了这个世纪难题，你才能真正体会到下一期反向传播算法的伟大之处。 #AI #白话大模型 #神经网络 #信用分配 #AI寒冬 #科技史 #人工智能 #辛顿 #Hinton
13分钟 · 5个月前
145
2
第12期丨感知机之殇
【第12期】1958年，感知机的诞生引爆AI热潮，人们以为AGI近在眼前。但仅仅11年后，AI泰斗、符号主义领袖马文·明斯基，用一本著名的黑皮书和一个简单到极致的“XOR谜题”，给神经网络整个领域判了死刑，开启长达十年的AI寒冬。本期《白话大模型》，我们将重回那场AI史上的世纪审判： * 宿敌之战：明斯基如何狙击他的高中校友罗森布拉特？ * 致命谜题：为什么感知机连最简单的异或逻辑都无法解决？用“蛋糕比喻看懂“线性不可分”。 * 天才悲剧：罗森布拉特的意外身亡与他未竟的多层网络遗产。 #AI #人工智能 #神经网络 #感知机 #XOR #AI寒冬 #白话大模型 #明斯基 #罗森布拉特
13分钟 · 6个月前
138
0
第11期丨现代AI的引擎：梯度下降法
【第11期】AI的学习过程，本质上就是在寻找一个复杂方程的最优解。但面对拥有数千亿参数的方程，机器是如何猜到正确答案的？本期《白话大模型》，我们将用一个浓雾中下山的比喻为你彻底讲透现代AI的灵魂算法——梯度下降法 (Gradient Descent) 。你将了解： * 为什么说AI找规律的本质，其实是在求函数最小值？ * 什么是“度？为什么朝着它的反方向走，就是最快的下山路径？ * 这个诞生于1847年的古老数学思想，是如何成为驱动今天所有大模型的引擎的？这可能是全网最通俗易懂的梯度下降讲解。掌握了它，你就掌握了理解AI学习机制的万能钥匙。
12分钟 · 6个月前
168
0
第10期丨第一个会学习的神经网络：感知机
本期，我们将认识“神经网络之父”弗兰克·罗森布拉特，见证他如何创造出第一个会学习的神经网络——感知机 (Perceptron) 。你将看到AI最核心的几个“黑话”——学习、权重、偏置、参数量，如何用一个初中数学题就解释得明明白白。我们还会一步步拆解感知机的学习过程，你将了解到，今天万亿参数的大模型，其核心学习范式就源自于60多年前的感知机。
11分钟 · 6个月前
192
4
第9期丨神经网络起源：MP模型
【第9期】上期我们知道了AI有三大“门派”，但机器究竟是如何“学习”的？我们必须从AI的心脏——神经网络——开始。本期，我们将回到1943年，认识一对“最强怪才组合”：42岁的全能学者麦卡洛克，和18岁的流浪数学天才皮茨。看他们如何从生物大脑中获得灵感，设计出AI的第一个“神经元”——MCP模型。这个简单的“开关”，如何证明了“机器思维”的可能性？它又为何只是一个“无法学习”的天才蓝图？ #AI #AI科普 #白话大模型 #神经网络 #MCP模型 #科技史 #MP模型
7分钟 · 7个月前
225
2
第8期丨机器学习（下）：三大主流门派
摘要本期我们来拜访机器学习世界的三大主流门派。他们就像三位武功各异的宗师，定义了AI学习世界的基本规则。 1. 监督学习：为什么AI能精准预测房价？我们将揭示“严格老师”如何拿着“标准答案”（标签和特征）给机器“刷题”，以及“分类”和“回归”两大考场。 2. 无监督学习：如果没有标准答案，机器如何自学？我们将跟随“探险家”，看它如何在混沌数据中“物以类聚”（聚类）和洞察本质（降维）。 3. 强化学习：机器如何学会在动态环境中“试错”并做出最优决策？从超级马里奥到AlphaGo，我们将了解“实战教练”如何利用“奖励与惩罚”机制，训练出超越人类的智能。欢迎来到《白话大模型》科普系列。在之前的讨论中，我们提到机器学习有三大主流门派，他们如同三位性格迥异、各怀绝技的武林宗师。今天，我们就将逐一拜访这三位宗师，探寻他们各自的武功秘籍。一、监督学习第一个门派叫监督学习 (Supervised Learning)。这个门派就像一位严格的老师，拿着一本带有标准答案的练习册进行教学。这位老师的练习册（教材）是什么样的呢？在监督学习中，我们喂给机器的是大量的标注数据 (Labeled Data)。这份教材类似于一份模拟题库，包含了成千上万道考题以及它们对应的标准答案。我们来仔细分析一道典型的“考题”：预测链家上每套房子的价格。为了解决这个问题，题库为每一套房子都提供了两样东西： 1. 特征 (Features)：也就是我们提供给机器的、用来描述一个事物的所有相关信息。这相当于考题中的“线索”或“已知条件”。对于房价预测问题，线索可能包括：每套房子的面积、卧室数量、所在楼层、地理位置、建造年份等等。所有这些具体信息就是特征，它们是机器做判断时能够利用的全部已知条件。 2. 标签 (Label)：这就是我们希望机器通过学习，最终能够自己预测出来的那个“正确结果”，相当于考题的“标准答案”。在房价预测任务中，标准答案就是每套房子真实的历史成交价格。明确了任务、特征和标签后，机器如何学习呢？我们将历史上成交过的100万套房子的特征（面积、卧室、位置等）及其对应的标签（真实成交价）都喂给机器。机器会像一个勤奋的学生一样，反复观察这100万套房子的特征和标签之间的关系，最终学习到一个通用的规律或模型 (Model)。这个过程，我们称之为模型训练 (Model Training)。这就相当于刷完了100万道模拟题（训练完成）之后，就可以上考场了。当遇到一个新房子时，你只需要输入它的特征（面积、卧室、位置等），机器就能利用学到的模型计算出一个预测价格，以供决策参考。这个利用模型对新数据进行计算的过程，我们称之为模型推理 (Model Inference)。监督学习这位“老师”训练学生，主要是为了应对两大类考试：分类，Classification 分类的目标是根据输入数据的特征，将其分配到预先定义好的几个类别中的某一个。模型的输出是一个离散的、表示类别的标签。典型的分类任务有： * 垃圾邮件过滤：判断一封邮件是“垃圾邮件”还是“非垃圾邮件”（二选一）。 * 图像内容识别：判别图片中的物体是“汽车”、“行人”还是“交通信号灯”（三选一）。 * 情感分析：判断一段用户评论表达的情感是“正面”、“负面”还是“中性”（三选一）。回归，Regression 与分类不同，回归的目标是根据输入数据的特征，来计算出一个连续的、数值型的输出。典型的回归任务有： * 房价预测：正如我们刚才介绍的，根据房屋特征预测具体的房屋价格。 * 股票价格预测：根据历史数据和市场指标，预测某只股票今天的收盘价。 * 天气预报：根据当前的气象数据，预测未来的具体气温值。监督学习这个门派历史悠久、高手辈出，发展出了众多成熟的“武林秘籍”（算法），例如最基础的线性回归、逻辑回归，非常直观的决策树，理论优美的支持向量机（SVM）等等，当然，也包括我们后面会详细介绍的神经网络。二、无监督学习如果说监督学习是拿着标准答案刷题，那么无监督学习 (Unsupervised Learning) 就像是在一片广漠无垠、没有任何地图或向导的未知大陆上进行探索。在无监督学习的世界里，不存在标准答案。探险者（机器）需要像一位考古学家，在面对一堆看似杂乱无章的出土文物碎片时，通过仔细观察它们的材质、纹理、形状，自主地对它们进行分类整理，发现它们之间隐藏的某种规律。这位探险家的主要任务也有两大类：聚类，Clustering 聚类的目标就是“物以类聚、人以群分”。它要将一个数据集中的所有样本，根据它们彼此之间的某种相似性，自动划分成若干个组。这在商业世界中应用非常广泛，最典型的例子就是客户分层。比如，一家电商平台拥有数百万用户的海量行为数据，但并不知道该如何对这些用户进行有效分类。此时，聚类算法就像一个智能分拣员，它会自动分析用户的购买历史、浏览行为、活跃时间等海量特征，最终可能会自动将用户分成几个鲜明的群体，例如：“高价值活跃用户”、“价格敏感型用户”、“沉睡待唤醒用户”等。在这个过程中，我们不需要预先给任何一个用户打上标签，算法自己就能从数据中发现隐藏的客群结构。另一个例子是：新闻网站自动将相似内容的新闻聚合在一起，形成体育、财经等不同的话题频道。降维，Dimension reduction 降维听起来有些抽象，但它的思想其实我们每天都在用。在机器学习中，我们描述一个事物用到的特征越多，数据的维度就越高。降维的目的，就是在尽可能保留核心信息的前提下，减少特征的数量。举个例子：你如何向一位没见过大象的朋友描述大象？大象有无数特征：长鼻子、大耳朵、粗壮的四条腿、庞大的身躯、灰色的皮肤……可能有成百上千个细节。但如果你想让朋友快速抓住大象最与众不同的核心特征，你可能会说：“它有能喷水的长鼻子，和两片像扇子一样的大耳朵。” 你刚刚就进行了一次精彩的降维——从众多特征中，提取出了两个最具有代表性、最能区分大象的关键特征。我们之所以要降维，一个直观的目标是为了数据可视化。我们人类的大脑很难想象超过3维的世界，但现实中的数据动辄就有成百上千个维度。通过降维，我们可以把高维数据压缩或投影到我们能理解的2维或3维空间，从而直观地发现数据中隐藏的规律或模式。总而言之，无监督学习这位“探险家”，其巨大的价值在于“探索未知、洞察本质”的能力。它常常被用作我们理解和分析数据的第一站，帮助我们从看似混沌的数据中梳理出脉络，发现新的知识。三、强化学习最后一个门派是强化学习 (Reinforcement Learning)，这个门派独具魅力，也稍微有些复杂。如果说监督和无监督学习更多的是从静态的数据中学习模式；那么强化学习则侧重于让机器在一个动态变化的环境中，通过持续的实践和试错，来学习如何做出最优的决策序列，以达成某个长远目标。它的核心思想来源于人类和动物学习行为的一个基本原理：趋利避害。如果一个行为带来了奖励，那么未来就更加倾向于采取这个行为；如果导致了惩罚，未来就会尽量避免它。强化学习就像一位经验丰富的实战教练。它不直接教你固定的招式，而是为你设定一个目标，并明确奖励和惩罚机制，然后让你自己“下场”去领悟。为了理解强化学习，我们可以把它想象成一个完整的游戏。我们用经典游戏《超级马里奥》来说明它的几个核心元素： 1. 智能体 (Agent)：也就是学习者。在游戏中，就是马里奥本人。 2. 环境 (Environment)：智能体需要与之互动的一切。在游戏中，就是整个关卡，包括砖头、管道、悬崖和各种敌人。 3. 状态 (State)：环境在某一特定时刻的完整描述。在游戏中，就是当前的游戏画面：马里奥的位置、他面前是否有敌人、是否有障碍物或金币等。 4. 动作 (Action)：智能体在感知到当前状态后，可以执行的操作。在游戏中，就是手柄按键：向左、向右、跳跃等。 5. 奖励 (Reward)：强化学习的驱动力与指挥棒。当智能体执行一个动作后，环境会反馈一个奖励信号（可正可负）。比如：吃到一个金币（+10分），踩死一个小蘑菇（+100分），碰到敌人受伤或掉下悬崖（-100分）。强化学习的目标，就是在环境中尽可能地最大化自己获得的总奖励。介绍完所有角色，我们来看马里奥是如何通过强化学习从新手成长为通关高手的。这是一个持续的互动循环： 1. 观察：智能体（马里奥）观察到当前的游戏画面（当前状态）。 2. 行动：根据他当前的策略，马里奥决定执行一个动作（例如“跳跃”）。 3. 反馈：环境接收到这个动作后发生变化（马里奥跳起来，吃到一枚金币）。 4. 学习：环境反馈一个即时的奖励（+10分）。马里奥接收到这个信号，完成一次学习。如果这个动作带来了正向奖励，他将来就会更倾向于采用它；如果带来的是惩罚，他未来就会改进策略。这个“观察->行动->接收反馈->学习改进”的循环会不断重复。通过成千上万次的尝试、犯错以及获得奖励的体验，智能体最终会学到一套最优策略。他会知道，在任何复杂的局面下，如何做出最佳决策，来最大化自己能获得的长期总奖励。这个“从试错中学习”的思想，在现实世界取得了革命性的成就。最广为人知的例子莫过于2016年DeepMind开发的AlphaGo击败了人类围棋世界冠军。在AlphaGo的背后，没有一位人类导师为它准备所有的“棋谱练习册”（监督学习）。AlphaGo真正的“师傅”，正是强化学习这个机制。它通过和自己进行数亿盘的自我对弈，在代表着“赢”（奖励）或“输”（惩罚）的信号引导下，独立探索并发现了超越人类数千年围棋知识的全新策略，最终击败了世界冠军。强化学习这位“实战教练”，最擅长解决需要在连续互动中做出最优决策的复杂问题。到这里，我们就拜访完了机器学习的三大门派。我们认识了监督学习、无监督学习和强化学习这三大主流范式。但是，一个更深层次的问题浮现了：无论是哪种学习方式，机器内部究竟是凭借怎样的一种具体“器官”或运行机制，来实现这些神奇的学习能力的呢？在众多的实现方法中，有一个模型，因其独特的、源于对我们人类大脑结构和功能的仿生灵感，以及其强大的潜力，最终成为了引领AI新一轮浪潮的核心力量。下一期，我们将正式进入现代AI的心脏地带，去认识那个最闪亮的明星——神经网络 (Neural Networks)。欢迎你关注【星科技】，收藏《白话大模型》系列，我们下期见！ -- THE END --
11分钟 · 7个月前
379
2
第7期丨AI的灵魂：机器学习（上）
你好，欢迎来到AI科普系列《白话大模型》的第7期。上一期我们讲到，AI的第一次路线之争，最终让早期过于乐观的研究者们撞上了现实的冰山。人们意识到，想靠人类专家写下全世界所有的规则来教会机器思考，几乎是一条走不通的路。正是在这种深刻的反思中，一个更加务实、也更加强大的思想逐渐走向了舞台中央。它继承了连接主义“从数据中学习”的精神内核，并最终将彻底改变人工智能的技术版图。这个思想，就是机器学习。 AI知识大陆的地图不过，在我们正式进入机器学习的世界之前，咱们先理清几个概念。我相信很多朋友都听说过人工智能、机器学习、神经网络、深度学习、大模型等等这些热词，它们听起来好像差不多，经常被混着用，这个让很多刚入门的爱好者非常困惑。它们之间到底是什么关系呢？为了彻底搞清楚，我们就来看这张“AI知识大陆的层次结构图”。这可以说是我们探索AI世界最重要的一张地图图例。你看，这几个概念的关系就像一组“俄罗斯套娃”： * 最外层：人工智能 (AI)：这是研究者们最宏大的目标，就是要让机器变得像人一样聪明，甚至比人更聪明。 * 第二层：机器学习 (ML)：这是实现人工智能这个宏大目标最主流、也最成功的一条路径。它的核心不是靠人去编写所有规则，而是让机器自己从数据中学习。 * 第三层：神经网络 (NN)：它是机器学习当中，受到我们人脑结构启发而设计出来的一类非常强大的模型。它是机器学习的一个分支，当前也绝对是最闪亮的明星之一。 * 最内层：深度学习 (DL)：它是神经网络的一个分支，是指那些结构非常复杂、层次非常非常多的神经网络。正是这些“深度”的网络，才让AI在最近十年取得了革命性的突破。咱们今天用的DeepSeek、豆包、即梦AI这些工具，都是深度学习这个领域当中的成功应用。所以简单总结一下：深度学习是一种复杂的神经网络，神经网络是一类重要的机器学习算法，而机器学习，则是实现人工智能当前最核心的手段。好，有了这张地图，我们就不会迷路了。现在，我们回到对机器学习的介绍。一个经典问题我们先看一个经典问题：如何让计算机来识别一张图片里有没有猫？如果采用传统的思路，我们需要绞尽脑汁，写下成百上千条规则。比如说，“如果图片里有两只尖尖的耳朵”、“如果图片里有圆圆的眼睛”、“如果图片里有细长的胡须”，那它可能是一只猫。这种方法不但极其繁琐，而且面对现实世界中猫的千姿百态、不同品种、各种光线跟背景的干扰，规则几乎不可能做到完备和准确。而机器学习则另辟蹊径，提供了一个全新的思路。它说：“我们换个活法！”。我们不需要像教一个学徒工那样，手把手告诉计算机每一步怎么做。取而代之的是，我们收集成千上万张各种各样的图片，其中有些是猫的图片，我们给它打上【这是猫】的标记；其他的各种不是猫的图片，我们给它打上【这不是猫】的标记。然后，我们把这些海量的、带着标记的数据“喂”给机器学习算法。算法会自动地、反复分析这些图片，试图从猫的图片中，找出它们共同具有的、而那些非猫图片所不具备的视觉模式跟统计规律。最终，算法自己会“悟”出猫和非猫的区别。这是一个深刻的范式革命，它代表了从“授人以鱼”到“授人以渔”的根本性转变。会下棋的程序让“机器可以学习”这个理念第一次走出纯粹的理论思辨，并且得到令人信服验证的，是一位伟大的先驱——阿瑟·萨缪尔 (Arthur Samuel)。故事要从20世纪50年代说起。那时的计算机是占据整个房间的庞然大物，运算速度也慢如蜗牛。当时担任IBM工程师的萨缪尔却萌生了一个在当时看起来既不切实际、又有些不务正业的想法：教计算机下西洋跳棋。那么，萨缪尔的跳棋程序是如何实现“学习”的呢？他巧妙地设计了两种核心机制： 1. 死记硬背 (Rote Learning)：程序会记住遇到的每一个棋盘局面，以及从这个局面开始最终是赢、是输还是平局的结果。这个就像是我们背熟了乘法口诀表，以后看到 5*6 就脱口而出是30，而不需要从头计算。 2. 自我对弈、提升棋感 (Self-Play & Evaluation)：这更是萨缪尔程序中最具创新性的部分。程序与自己进行了成千上万次的对弈，通过分析这些对弈的结果（比如哪些策略更容易导向胜利），程序可以不断优化内部的一个“评估函数”。这个过程就像专业棋手通过大量的实战和复盘，来不断打磨自己的棋艺。通过这个学习机制，萨缪尔的跳棋程序不断精进。在1962年，它甚至击败了美国康涅狄格州的跳棋冠军罗伯特·尼利。这个在当时引起了不小的轰动，因为它非常生动地向公众展示了：机器确实可以从经验中学习，并完全可能超越其创造者。正是在这项开创性的工作基础上，萨缪尔在1959年为机器学习下了一个经典的定义：机器学习这个研究领域，赋予了计算机无需明确编程即可学习的能力。工程学的蓝图：E/T/P框架萨缪尔的定义非常直观，富有启发性。但是为了在学术和工程实践中更加精确地去描述和度量学习过程，卡内基梅隆大学的汤姆·米切尔 (Tom Mitchell) 教授，在他1997年的经典著作《机器学习》中，提出了一个更加形式化、也更具操作性的定义，如今已成为该领域的标准。它清晰地指出了构成一个机器学习过程的三个核心要素，我们称之为E/T/P框架： * E (Experience, 经验)：指的是程序用来学习的数据，或者与环境交互的过程。比如一个包含大量已标记邮件的数据集，就是经验。 * T (Task, 任务)：指的是程序需要完成的具体工作。比如将邮件分类成“垃圾邮件”和“非垃圾邮件”，就是一个任务。 * P (Performance Measure, 性能度量)：指的是衡量程序在执行任务时表现好坏的标准。比如被正确分类的邮件所占的百分比，就是一个性能度量。所以，米切尔对机器学习的完整定义是：一个计算机程序从经验E中学习，以解决某类任务T，并用性能度量P来衡量。如果以P衡量的、它在任务T上的性能随着经验E的增加而提高，那么我们就说这个程序具备了学习能力。这个E/T/P框架的价值远不止于一个理论定义，它为我们思考、设计跟评估任何一个机器学习项目，都提供了一个非常实用和清晰的工程学指导蓝图。可以说，E/T/P框架是每一位AI从业者在项目启动之初，都应该牢记于心的“黄金三问”。为什么大器晚成？当然，你可能会问，机器学习这个思想既然在上世纪50年代就有，为什么直到最近一二十年，我们才真正感受到了它的威力？这并非因为先驱们的想法不够深刻，而是因为机器学习的潜力被当时的客观技术条件压制了数十年。直到进入21世纪，驱动它的“三驾马车”才终于齐备： 1. 数据 (Data)：互联网的普及带来了前所未有的海量数据资源，让机器学习有了充足的“养料”。 2. 算力 (Compute)：摩尔定律推动着硬件芯片技术的持续进步，为复杂模型的训练提供了强大的算力保障。 3. 算法 (Algorithms)：许多更高级、更强大的学习算法，也是在几十年的研究当中才逐步被提出和完善的。所以，正是数据、算力、算法这三驾马车的齐头并进、相互促进，才在最近一二十年共同点燃了机器学习的引擎，迎来了我们今天所看到的蓬勃发展时期。好，今天我们初步揭开了机器学习的神秘面纱，通过萨缪尔的跳棋程序理解了“从经验中学习”的灵魂，也通过米切尔的E/T/P框架掌握了定义一个学习任务的工程蓝图。机器学习的核心，就是“从经验中学习，以改善在特定任务上的性能”。这个过程其实与我们人类的学习非常相似。回忆一下我们是如何学会骑自行车的：父母不会给我们讲解牛顿力学，而是让我们自己去尝试、去摔倒、去调整。我们会在一次次的尝试中逐渐“悟”出平衡的诀窍，骑得也越来越稳，这也就相当于机器学习算法的性能越来越提升。就像人类学习知识有不同的方法，机器学习经过几十年的发展，也逐步形成了三大主流的门派，它们就像三位性格迥异但各怀绝技的武林宗师： * 第一位是监督学习，他就像一位严格的老师，手把手带着标准答案来教学。 * 第二位是无监督学习，他就像是一位独立的导师，放手让AI自行去探索未知。 * 第三位叫强化学习，这个就像是一位实战教练，在奖惩试炼当中带你悟出真谛。下一期，我们就将拜访这三位武林宗师，完整了解机器学习的三大流派。欢迎你关注【星科技】，收藏《白话大模型》系列，我们下期见！ -- THE END --
8分钟 · 7个月前
255
0

从今天开始，我希望能以每周或每两周一期左右的频率，来做一个AI工程科普的系列。起因是这样的，我从事AI相关的工作超过20年了，两三个月前，也就是2025年4月份，一位知名出版社的编辑建议我写一本AI科普书。我当然有自知之明，又不什么学术大家，写不了学术著作，但是说到科普，我很愿意尝试一下。这会是这是一本什么样的书？首先，我希望是一本“故事驱动”的书。在我看来，技术的演进并非一连串冰冷算法的迭代，而是一群鲜活的、天才的、甚至偏执的人，在一次次思想碰撞、路线之争、乃至人生沉浮中推动的。其次，我希望这是一张“能看懂的地图”。我们不会回避硬核的技术，但我们会尽最大努力，把它们拆解成一个个更小的、更容易理解的模块。我们会聚焦于这些技术“为什么会出现”、“解决了什么关键问题”，而不是陷入它们内部复杂的数学细节。你可能会问，写书就写书，怎么今天就开始整播客了？辛苦写书倒不怕，我担心的是写完了才发现这不是你需要的。所以打算一边写书，一边基于书的内容做一个AI科普的系列短视频和播客，对我来说这是分享，是梳理，更是一次学习和交流的机会。准备好了吗？那就让我们一起启程吧。