#180. AI Engineer研讨会:强化学习、核方法、推理、量化与智能体 — Daniel Han

#180. AI Engineer研讨会:强化学习、核方法、推理、量化与智能体 — Daniel Han

121分钟 ·
播放数854
·
评论数0

📝 本期播客简介

本期克隆了 AI Engineer 的一场关于强化学习的 Workshop

 他们邀请到了 Unsloth 的作者 Daniel Han,为我们深入浅出地拆解了当下大语言模型训练中最前沿、也最复杂的领域:强化学习(RL)。Daniel 从 Llama 模型泄露引发的开源浪潮讲起,回顾了开源社区在追赶闭源模型时经历的“开源之旱”,并详细阐述了从预训练、监督微调(SFT)到强化学习(RLHF/GRPO)的完整技术路径。他用 Yann LeCun 著名的“蛋糕比喻”生动解释了不同训练阶段的意义,并核心拆解了 PPO 与 DeepSeek-R1 所使用的 GRPO 算法的异同,揭示了后者如何通过扔掉“价值模型”实现效率翻倍。更重要的是,他反复强调了一个反直觉的观点:强化学习的成功很大程度上“全靠运气”,而真正的难点在于设计精巧的“奖励函数”。最后,他还分享了关于模型量化的独到见解,并提出了一个惊人论断:由于数值精度的物理限制,我们可能正迎来 GPU 性能飞跃的“终局之战”。这不仅是一堂硬核的技术课,更是一场充满洞见的行业观察。

👨‍⚕️ 本期嘉宾

Daniel Han,开源项目 Unsloth 的作者。Unsloth 是一个广受欢迎的开源库,致力于让大语言模型的微调训练速度提升 2 倍,内存占用减少 70%,极大地降低了个人和小型团队进行模型训练的门槛。Unsloth 在 Hugging Face 上每月下载量超过千万次,并与 Google、Meta、Mistral 等顶级团队合作,为 Llama、Gemma、Phi 等主流开源模型提供修复与优化。

📒 文字版精华

微信公众号(点击跳转)

🌟 精彩内容

🎂 AI 蛋糕论:预训练是蛋糕,SFT 是糖霜,强化学习是樱桃

Daniel 引用 Yann LeCun 的经典比喻,形象地解释了当前大模型训练的三个核心阶段:海量数据无监督预训练构成了模型能力的基础(蛋糕);高质量的指令微调让模型变得有用且听话(糖霜);而强化学习则是那颗最顶端的、能带来能力飞跃的樱桃。

“无监督学习或者说预训练,就是蛋糕本身,没那么好吃。然后监督微调是蛋糕上的糖霜,就好一点了。而强化学习则是那颗樱桃。”

🏜️ 开源之旱:从 O1 预览的绝望到 DeepSeek-R1 的希望

Daniel 回顾了开源社区的一段“黑暗时期”:2024年9月 OpenAI 发布 O-1 预览版,其强大的能力让整个开源社区陷入了长达四个月的“万念俱灰”,不知如何追赶。直到 DeepSeek-R1 的出现,才证明了通过强化学习等开源方法,同样可以训练出世界一流的模型。

“接下来的四个月里,开源社区可以说是万念俱灰,因为我们什么也做不了...然后,就在2025 年 1月,DeepSeek R1 横空出世...整个世界对开源的看法才因此改变。”

💡 更聪明的强化学习 GRPO:扔掉价值模型,效率翻倍

Daniel 核心拆解了 PPO 和 GRPO 两种强化学习算法的区别。他指出,GRPO 最聪明的创新在于彻底移除了计算成本高昂的“价值模型”,转而通过对单次推理进行多次采样(rollout)并计算统计数据(Z-score)来作为基线,极大地节省了计算资源和参数,提高了训练效率。

“而 GRPO,就是 DeepSeek R1里定义的算法,很聪明地删掉了一个东西——价值模型。直接不要了...你就节省了参数,节省了计算资源,效率也高得多。”

🎲 强化学习的玄学:我们只是在祈祷,全靠运气

Daniel 反复强调,强化学习的初始阶段充满不确定性,模型可能长时间输出无意义的结果(零奖励)。突破的关键往往在于“运气”——模型凭着极小的概率随机生成了一个好的答案,算法捕捉到这个信号后,再通过最大化其出现概率来强化这种行为。

“就凭运气,就凭运气,你知道,你会有那么一点点小小的概率...突然模型就说出了‘四’...我们就让这个概率变得更高。就这样。这就是 GRPO 的全部。”

📉 GPU 速度的终局:为什么 Blackwell 可能是最后一代性能飞跃?

在谈到量化时,Daniel 提出了一个大胆的预测:GPU 的性能飞跃即将终结。他认为,过去 GPU 速度的大幅提升主要源于数值精度的降低(从 32 位到 4 位浮点数)。如今我们已逼近这个方法的物理极限,未来很难再通过类似方式获得指数级的性能增长。

“未来,GPU 不会再变快了。所以,也许,如果有人想买 Blackwell GPU,那可能……你可能应该买。它很可能不会再变快了。”

🌐 播客信息补充

翻译克隆自:[Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han

本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的

使用 AI 进行翻译,因此可能会有一些地方不通顺;

如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight