与“超级马里奥”一起“强化学习”#问学开挂

与“超级马里奥”一起“强化学习”#问学

25分钟 ·
播放数62
·
评论数0

如何让机器学会在复杂环境中放弃短期利益、做出长期最优决策?本期“开挂”带你深入了解“强化学习”~

想象一台电脑如同儿时的我们,紧盯屏幕中灵活的马里奥,在游戏世界上下探索;通过不断学习和尝试,电脑更快掌握秘诀通关,逐渐碾压我们成为游戏中的常胜将军。这是在“强化学习”帮助下,机器在现实世界已然达成的目标。

尽管如此,围绕强化学习尚有不少疑问。例如,如何让机器学会在复杂环境中放弃短期利益、做出长期最优决策?强化学习的核心是什么?它的未来应用场景又有哪些?

本期开挂·问学,邀请复旦管院统计与数据科学系方冠华老师详解“强化学习”,与游戏中的马里奥一起,深入了解传统统计建模遇见机器学习后,算法如何为机器赋予智能。

【聊天伙伴】

方冠华  复旦大学管理学院统计与数据科学系青年副研究员

【你将会听到】

00:26 哪个领域运用强化学习最为成功?

InstructGPT分为三个关键步骤

03:27 什么是强化学习?

强化学习、监督学习、无监督学习

05:38 强化学习的运作原理

11:34 自动化性、自适应性、记忆性、实时性

13:30 最优策略如何达成?!

18:57 现实如此复杂,我们的挑战是?

20:57 现有强化学习算法分类

22:36 展望未来,我们还可以……

【你还可以在这里找到我们】

小红书:复旦大学管理学院

哔哩哔哩:复旦大学管理学院

微信公众号:复旦管院

【欢迎入群】

加听友群:Fiona_sunr

音频剪辑:Eskild

*本期内容来自问学系列