5 月 30 日（周六）晚 8 点，#青稞AMA 第 3 期：On-Policy Distillation（OPD）专题，青稞社区邀请到了当前 OPD / RL / LLM 后训练方向最核心的一批青年科学家，一起深入讨论了这一轮技术演化背后的真正逻辑。

嘉宾介绍

傅宇千：自动化所深度强化学习团队博士生，导师为赵冬斌研究员与朱圆恒副研究员。研究方向为强化学习、大语言模型与智能体后训练。他也是论文《Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes》的第一作者。

Tianzhu：微软亚洲研究院（MSRA）GenAI 组研究员，主要关注 Foundation Model 以及 Self-improving AI。OPCD、OEL、GAD 一作

顾煜贤：清华大学计算机系五年级博士生，Google Scholar 引用4500+，已发表 20 余篇高水平论文，一作和共同一作论文共 7 篇，均发表在 TH-CPL A 类会议 ACL，EMNLP，ICLR，NeurIPS 等，多次进行口头报告，其中《MiniLLM: Knowledge distillation of large language models》论文两年半被引 970 次，技术被国内外多家公司实用。他曾获清华大学研究生特等奖学金、计算机系钟士模奖学金、国家奖学金、苹果学者奖学金、蚂蚁 In-Tech 奖学金等荣誉。

杨晨旭：中国科学院信息工程研究所六室自然语言处理小组博士生，导师为林政研究员。主要研究兴趣为多模态理解与大模型后训练。

何秉翔：清华大学计算机系二年级博士生，导师为刘知远教授。研究方向为大模型对齐与强化学习，在国际顶级 AI 会议发表多篇论文，Google Scholar 引用量超 1900 次。

黎亚轩：上海科技大学计算机专业大三本科生，目前在清华大学自然语言处理实验室（THUNLP）实习，Rethinking OPD 一作

完整回放：

哔哩哔哩链接：www.bilibili.com