AI下一帧 EP006 | 强化学习: 从“玩游戏”到“懂世界”的进化史AI下一帧

AI下一帧 EP006 | 强化学习: 从“玩游戏”到“懂世界”的进化史

40分钟 ·
播放数51
·
评论数0

前游戏开发者,现海外云厂商架构师 [反向弯曲] 主理的 [AI×游戏] 播客!

帮助互联网|游戏从业人员 拆解全球游戏 AI 前沿动态,深挖技术落地干货。

让你轻松拿捏行业脉搏,预判 AI + 游戏的 “下一帧”。

对未来好奇?速戳订阅!

小红书b站同名:反向弯曲

=====================================

聚焦强化学习技术,以“四幕逆袭史”(1950s-2015理论萌芽沉睡、2016-2018 AlphaGo一战封神、2019-2022游戏练兵场成长、2023-2025自主进化落地)为主线,通俗拆解其“试错+奖励”的核心逻辑,揭秘游戏为何是其关键练兵场,重点解读2025年国产DeepSeek-R1模型无人类标准答案仍追平顶尖模型的高光突破的核心价值;

同时分析技术优势与现存瓶颈(样本效率低、奖励难定等),展望多感官协同、离线RL降本、全能游戏AI、中式陪伴型AI等未来方向;最后以开放性问题引发互动,引导听众直观感受强化学习魅力,兼具技术科普性与互动共鸣感。

=====================================

03:40 强化学习,以及有监督和无监督学习

07:36 沉睡的种子

10:27 一战封神alphgo打败李世石

15:25 游戏练兵场,gym和unity ml-agent

22:46 Deepseek R1大拆解

29:15 强化学习的优缺点

33:45 未来强化学习会解锁哪些技能?

=====================================