AI下一帧 EP006 | 强化学习: 从“玩游戏”到“懂世界”的进化史 - AI下一帧

前游戏开发者，现海外云厂商架构师 [反向弯曲] 主理的 [AI×游戏] 播客！

帮助互联网｜游戏从业人员拆解全球游戏 AI 前沿动态，深挖技术落地干货。

让你轻松拿捏行业脉搏，预判 AI + 游戏的 “下一帧”。

对未来好奇？速戳订阅！

小红书b站同名：反向弯曲

=====================================

聚焦强化学习技术，以“四幕逆袭史”（1950s-2015理论萌芽沉睡、2016-2018 AlphaGo一战封神、2019-2022游戏练兵场成长、2023-2025自主进化落地）为主线，通俗拆解其“试错+奖励”的核心逻辑，揭秘游戏为何是其关键练兵场，重点解读2025年国产DeepSeek-R1模型无人类标准答案仍追平顶尖模型的高光突破的核心价值；

同时分析技术优势与现存瓶颈（样本效率低、奖励难定等），展望多感官协同、离线RL降本、全能游戏AI、中式陪伴型AI等未来方向；最后以开放性问题引发互动，引导听众直观感受强化学习魅力，兼具技术科普性与互动共鸣感。

=====================================

03:40 强化学习，以及有监督和无监督学习

07:36 沉睡的种子

10:27 一战封神alphgo打败李世石

15:25 游戏练兵场，gym和unity ml-agent

22:46 Deepseek R1大拆解

29:15 强化学习的优缺点

33:45 未来强化学习会解锁哪些技能？

=====================================

DeepSeek R1 Explained to your grandma

NitroGen: A Foundation Model for Generalist Gaming Agents

DeepSeek 把R1论文又更新了60多页，V4呼之欲出了吧

AlphaGo 与 AlphaZero 系列算法：技术原理与应用详解