吴翼从清华大学交叉信息研究院教授到边塞科技的创始人兼CEO。本期播客,吴教授将分享——让大模型玩游戏,即狼人杀AI。
💡关于「奇绩潜空间」:
我们找到了 GenAI 时代冲得最快的一批创业者 / Researchers ,如月之暗面(Moonshot AI)创始人杨植麟、AI 硬件 Rabbit-R1 创始人吕骋等,来分享自己的亲身经历和见解,希望可以为所有 GenAI 时代的创业者、从业者提供可借鉴、可复制的经验。
过去分享文字稿:奇绩社区内容精选
🎙️本期嘉宾:
吴翼 :现任清华大学交叉信息研究院助理教授,同时于上海期智研究院做研究,主要研究方向包括多智能体强化学习,人机交互,机器人学习,自然语言理解与交互,机器学习系统等。目前在做AI创业,是边塞科技创始人&CEO。
吴翼在中学期间参加信息学奥赛,高一暑假保送清华,后来担任国家信息奥赛集训队队长。
在清华上学时代表学校征战ACM比赛;在伯克利做研究时师从Stuart Russell和Peter Abbiel,并作为早期的华人员工加入OpenAI。
⏰时间轴
02:37 agent的概念是什么,强化学习agent和大模型agent的异同?
13:21 狼人杀有什么挑战性与难点,为何需要用大模型+强化学习去研究狼人杀,大模型的不足之处在哪?
17:18 做狼人杀游戏,在技术上要做哪几件事?
22:42 案例一:训练词频的影响下,如何调整first night AI的随机击杀倾向?
25:11 案例二:alignment 和 safety的限制下,如何训练AI选择optimal strategy?
36:06 从合作到竞争,为什么最后选择狼人杀游戏?
38:55 除了IO与大模型语言的一些结合点,RL与大模型语言有哪些比较好的结合点,实际中有哪些有趣的应用场景?
43:16 站在学术前沿角度,强化学习如今面临的一些瓶颈与挑战有哪些?
46:34 对GPT-5未来有什么推断,未来可能会有哪些进展?
47:14 如何更好地收集数据,不同模态的数据如何做融合与整合?
49:05 如何看待近期大火的机器人Figure?机器人有什么前沿进展?
50:59 怎么看机器人的进展速度?
👉【奇绩潜空间】报名通道
奇绩潜空间是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区,我们定期邀请大模型前沿创业者分享产品实践探索,如杨植麟、吕骋、闫俊杰等,邀请前沿科研学者分享最新技术进展,如姚顺雨、蔡天乐等。欢迎关注奇绩,报名……添加小助手
🙋活动报名 & 听友群,欢迎扫码加小助手:
