前游戏开发者,现海外云厂商架构师 [反向弯曲] 主理的 [AI×游戏] 播客!
帮助互联网|游戏从业人员 拆解全球游戏 AI 前沿动态,深挖技术落地干货。
让你轻松拿捏行业脉搏,预判 AI + 游戏的 “下一帧”。
对未来好奇?速戳订阅!
小红书b站同名:反向弯曲
=====================================
聚焦强化学习技术,以“四幕逆袭史”(1950s-2015理论萌芽沉睡、2016-2018 AlphaGo一战封神、2019-2022游戏练兵场成长、2023-2025自主进化落地)为主线,通俗拆解其“试错+奖励”的核心逻辑,揭秘游戏为何是其关键练兵场,重点解读2025年国产DeepSeek-R1模型无人类标准答案仍追平顶尖模型的高光突破的核心价值;
同时分析技术优势与现存瓶颈(样本效率低、奖励难定等),展望多感官协同、离线RL降本、全能游戏AI、中式陪伴型AI等未来方向;最后以开放性问题引发互动,引导听众直观感受强化学习魅力,兼具技术科普性与互动共鸣感。
=====================================
03:40 强化学习,以及有监督和无监督学习
07:36 沉睡的种子
10:27 一战封神alphgo打败李世石
15:25 游戏练兵场,gym和unity ml-agent
22:46 Deepseek R1大拆解
29:15 强化学习的优缺点
33:45 未来强化学习会解锁哪些技能?

=====================================

