
5 月 30 日(周六)晚 8 点,#青稞AMA 第 3 期:On-Policy Distillation(OPD) 专题,青稞社区邀请到了当前 OPD / RL / LLM 后训练方向最核心的一批青年科学家,一起深入讨论了这一轮技术演化背后的真正逻辑。
嘉宾介绍
傅宇千:自动化所深度强化学习团队博士生,导师为赵冬斌研究员与朱圆恒副研究员。研究方向为强化学习、大语言模型与智能体后训练。他也是论文《Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes》的第一作者。
Tianzhu:微软亚洲研究院(MSRA)GenAI 组研究员,主要关注 Foundation Model 以及 Self-improving AI。OPCD、OEL、GAD 一作
顾煜贤:清华大学计算机系五年级博士生,Google Scholar 引用4500+,已发表 20 余篇高水平论文,一作和共同一作论文共 7 篇,均发表在 TH-CPL A 类会议 ACL,EMNLP,ICLR,NeurIPS 等,多次进行口头报告,其中 《MiniLLM: Knowledge distillation of large language models》 论文两年半被引 970 次,技术被国内外多家公司实用。他曾获清华大学研究生特等奖学金、计算机系钟士模奖学金、国家奖学金、苹果学者奖学金、蚂蚁 In-Tech 奖学金等荣誉。
杨晨旭:中国科学院信息工程研究所六室自然语言处理小组博士生,导师为林政研究员。主要研究兴趣为多模态理解与大模型后训练。
何秉翔:清华大学计算机系二年级博士生,导师为刘知远教授。研究方向为大模型对齐与强化学习,在国际顶级 AI 会议发表多篇论文,Google Scholar 引用量超 1900 次。
黎亚轩:上海科技大学计算机专业大三本科生,目前在清华大学自然语言处理实验室(THUNLP)实习,Rethinking OPD 一作
完整回放:
哔哩哔哩链接:www.bilibili.com
