如何让机器学会在复杂环境中放弃短期利益、做出长期最优决策?本期“开挂”带你深入了解“强化学习”~
想象一台电脑如同儿时的我们,紧盯屏幕中灵活的马里奥,在游戏世界上下探索;通过不断学习和尝试,电脑更快掌握秘诀通关,逐渐碾压我们成为游戏中的常胜将军。这是在“强化学习”帮助下,机器在现实世界已然达成的目标。
尽管如此,围绕强化学习尚有不少疑问。例如,如何让机器学会在复杂环境中放弃短期利益、做出长期最优决策?强化学习的核心是什么?它的未来应用场景又有哪些?
本期开挂·问学,邀请复旦管院统计与数据科学系方冠华老师详解“强化学习”,与游戏中的马里奥一起,深入了解传统统计建模遇见机器学习后,算法如何为机器赋予智能。
【聊天伙伴】
方冠华 复旦大学管理学院统计与数据科学系青年副研究员
【你将会听到】
00:26 哪个领域运用强化学习最为成功?

InstructGPT分为三个关键步骤
03:27 什么是强化学习?

强化学习、监督学习、无监督学习
05:38 强化学习的运作原理

11:34 自动化性、自适应性、记忆性、实时性
13:30 最优策略如何达成?!
18:57 现实如此复杂,我们的挑战是?
20:57 现有强化学习算法分类
22:36 展望未来,我们还可以……
【你还可以在这里找到我们】
小红书:复旦大学管理学院
哔哩哔哩:复旦大学管理学院
微信公众号:复旦管院
【欢迎入群】
加听友群:Fiona_sunr
音频剪辑:Eskild
*本期内容来自问学系列

