与“超级马里奥”一起“强化学习”#问学

如何让机器学会在复杂环境中放弃短期利益、做出长期最优决策？本期“开挂”带你深入了解“强化学习”~

想象一台电脑如同儿时的我们，紧盯屏幕中灵活的马里奥，在游戏世界上下探索；通过不断学习和尝试，电脑更快掌握秘诀通关，逐渐碾压我们成为游戏中的常胜将军。这是在“强化学习”帮助下，机器在现实世界已然达成的目标。

尽管如此，围绕强化学习尚有不少疑问。例如，如何让机器学会在复杂环境中放弃短期利益、做出长期最优决策？强化学习的核心是什么？它的未来应用场景又有哪些？

本期开挂·问学，邀请复旦管院统计与数据科学系方冠华老师详解“强化学习”，与游戏中的马里奥一起，深入了解传统统计建模遇见机器学习后，算法如何为机器赋予智能。

【聊天伙伴】

方冠华复旦大学管理学院统计与数据科学系青年副研究员

【你将会听到】

00:26 哪个领域运用强化学习最为成功？

InstructGPT分为三个关键步骤

03:27 什么是强化学习？

强化学习、监督学习、无监督学习

05:38 强化学习的运作原理

11:34 自动化性、自适应性、记忆性、实时性

13:30 最优策略如何达成？！

18:57 现实如此复杂，我们的挑战是？

20:57 现有强化学习算法分类

22:36 展望未来，我们还可以……

【你还可以在这里找到我们】

微信公众号：复旦管院

【欢迎入群】

加听友群：Fiona_sunr

音频剪辑：Eskild

*本期内容来自问学系列