吴翼：用大模型玩游戏——狼人杀AI｜潜空间 - 奇绩创坛

吴翼从清华大学交叉信息研究院教授到边塞科技的创始人兼CEO。本期播客，吴教授将分享——让大模型玩游戏，即狼人杀AI。

💡关于「奇绩潜空间」：

我们找到了 GenAI 时代冲得最快的一批创业者 / Researchers ，如月之暗面（Moonshot AI）创始人杨植麟、AI 硬件 Rabbit-R1 创始人吕骋等，来分享自己的亲身经历和见解，希望可以为所有 GenAI 时代的创业者、从业者提供可借鉴、可复制的经验。

🎙️本期嘉宾：

吴翼：现任清华大学交叉信息研究院助理教授，同时于上海期智研究院做研究，主要研究方向包括多智能体强化学习，人机交互，机器人学习，自然语言理解与交互，机器学习系统等。目前在做AI创业，是边塞科技创始人&CEO。

吴翼在中学期间参加信息学奥赛，高一暑假保送清华，后来担任国家信息奥赛集训队队长。

在清华上学时代表学校征战ACM比赛；在伯克利做研究时师从Stuart Russell和Peter Abbiel，并作为早期的华人员工加入OpenAI。

02:37 agent的概念是什么，强化学习agent和大模型agent的异同？

13:21 狼人杀有什么挑战性与难点，为何需要用大模型+强化学习去研究狼人杀，大模型的不足之处在哪？

17:18 做狼人杀游戏，在技术上要做哪几件事？

22:42 案例一：训练词频的影响下，如何调整first night AI的随机击杀倾向？

25:11 案例二：alignment 和 safety的限制下，如何训练AI选择optimal strategy？

36:06 从合作到竞争，为什么最后选择狼人杀游戏？

38:55 除了IO与大模型语言的一些结合点，RL与大模型语言有哪些比较好的结合点，实际中有哪些有趣的应用场景？

43:16 站在学术前沿角度，强化学习如今面临的一些瓶颈与挑战有哪些？

46:34 对GPT-5未来有什么推断，未来可能会有哪些进展？

47:14 如何更好地收集数据，不同模态的数据如何做融合与整合？

49:05 如何看待近期大火的机器人Figure？机器人有什么前沿进展？

50:59 怎么看机器人的进展速度？

👉【奇绩潜空间】报名通道

奇绩潜空间是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区，我们定期邀请大模型前沿创业者分享产品实践探索，如杨植麟、吕骋、闫俊杰等，邀请前沿科研学者分享最新技术进展，如姚顺雨、蔡天乐等。欢迎关注奇绩，报名……添加小助手

🙋活动报名 & 听友群，欢迎扫码加小助手: