- On-Policy Distillation专题:数学本质、MiniLM、Reverse KL、全词表
5 月 30 日(周六)晚 8 点,#青稞AMA 第 3 期:On-Policy Distillation(OPD) 专题,青稞社区邀请到了当前 OPD / RL / LLM 后训练方向最核心的一批青年科学家,一起深入讨论了这一轮技术演化背后的真正逻辑。 嘉宾介绍 傅宇千:自动化所深度强化学习团队博士生,导师为赵冬斌研究员与朱圆恒副研究员。研究方向为强化学习、大语言模型与智能体后训练。他也是论文《Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes》的第一作者。 Tianzhu:微软亚洲研究院(MSRA)GenAI 组研究员,主要关注 Foundation Model 以及 Self-improving AI。OPCD、OEL、GAD 一作 顾煜贤:清华大学计算机系五年级博士生,Google Scholar 引用4500+,已发表 20 余篇高水平论文,一作和共同一作论文共 7 篇,均发表在 TH-CPL A 类会议 ACL,EMNLP,ICLR,NeurIPS 等,多次进行口头报告,其中 《MiniLLM: Knowledge distillation of large language models》 论文两年半被引 970 次,技术被国内外多家公司实用。他曾获清华大学研究生特等奖学金、计算机系钟士模奖学金、国家奖学金、苹果学者奖学金、蚂蚁 In-Tech 奖学金等荣誉。 杨晨旭:中国科学院信息工程研究所六室自然语言处理小组博士生,导师为林政研究员。主要研究兴趣为多模态理解与大模型后训练。 何秉翔:清华大学计算机系二年级博士生,导师为刘知远教授。研究方向为大模型对齐与强化学习,在国际顶级 AI 会议发表多篇论文,Google Scholar 引用量超 1900 次。 黎亚轩:上海科技大学计算机专业大三本科生,目前在清华大学自然语言处理实验室(THUNLP)实习,Rethinking OPD 一作 完整回放: 哔哩哔哩链接:https://www.bilibili.com/video/BV1qKVd6XEA3/
- 六位大佬深度对话!探讨世界模型(World Model)的一切
4 月 23 日(周四)晚 7 点,#青稞 AMA 第 2 期:World Model 专题! 嘉宾阵容 (主持人)杨佳智,UHK MMLab PhD 二年级在读 以共同第一作者身份发表 UniAD, 获得 2023 年 CVPR 的最佳论文奖。 关于世界模型的两项研究获得 CVPR 2024 spotlight (前 2.8%) 和 NeurIPS 2025 highlight (前 3.2%)。 近期推出的 RISE 架构,是首个在机器人复杂操作任务中,利用世界模型进行强化学习以提升策略表现的研究。个人谷歌学术被引用量超过 2400。个人主导项目的 Github star 数超过 6000。 王啸峰,极佳视界算法合伙人 2025 年博士毕业于中国科学院自动化研究所,主要研究方向为物理世界模型。博士期间在 TPAMI、CVPR、ICCV、ECCV、NeurIPS、ICLR、AAAI 等国际顶级会议与期刊发表论文 20 余篇,总引用量 2000 余次,并多次在 CVPR 主办 Workshop 与国际竞赛。 其自动驾驶世界模型代表性工作 DriveDreamer 入选 ECCV 2024 Most Influential Papers;在具身智能方向牵头研发的 GigaWorld 系列世界模型斩获国际赛事榜单第一名。由其主导研发的世界模型技术,已在国内多家头部具身智能与自动驾驶企业实现规模化落地应用。 贾萧松,复旦大学可信具身智能研究院助理教授 本博毕业于上海交通大学,研究方向自动驾驶、具身智能、世界模型。在 TPAMI、CVPR、NeurIPS 等国际顶级会议期刊发表论文 30 余篇,谷歌学术引用 4000 余次,代表作包括Bench2Drive、DriveTransformer、Think2Drive等。 廖康,新加坡南洋理工大学 MMLab 与 S-Lab 博士后研究员 他于北京交通大学信息科学研究所获得博士学位,期间曾赴德国马克斯 · 普朗克计算机科学研究所担任访问学者。 相关研究成果已发表至国际顶级期刊和会议如 CVPR、ICCV、ECCV、ICLR、NeurIPS、ICRA、TPAMI 等。此外,他受邀担任 CVPR、NeurIPS 等国际学术顶会的领域主席(Area Chair)。他目前的研究方向包括统一多模态模型、空间智能以及世界模型。 王宇琪,2025 年博士毕业于中国科学院自动化研究所 主要研究方向为世界模型,自动驾驶感知与决策。 博士期间在 TPAMI、CVPR、NeurIPS、ICLR、ICCV 和 ECCV 等国际顶级会议与期刊发表论文十余篇,总引用 1800 余次,并荣获国家奖学金、中国科学院院长奖等多项荣誉。Drive-WM 成为自动驾驶世界模型领域的代表性工作。 李天羽,复旦大学、上海创智学院计算机科学博士生 师从李弘扬教授,在 OpenDriveLab 开展研究。聚焦端到端自动驾驶与 Physical AI,构建“评估—仿真—强化学习”闭环方法论。 提出 World Engine,融合 3D 高斯重建(MTGS)与行为世界模型(Nexus、OMEGA)生成长尾交互数据,提升闭环安全性与泛化能力;相关工作(SimScale、PlannerRFT、R2SE)系统推进 sim-real scaling 与强化学习优化,在复杂场景中突破模仿学习上限。构建社区标准评测基准 NAVSIM 及 NAVSIMv2,支撑多项国际竞赛。累计发表论文 20 余篇,担任 Nature、Science Robotics 审稿人。 部分内容总结 00:31:30 主持人杨佳智开场并引导嘉宾进行自我介绍与研究背景分享。杨佳智介绍了自身在自动驾驶世界模型与机器人操作领域的工作,随后各位嘉宾依次发言:王啸峰阐述了其从自动驾驶到内容行业的物理世界模型探索历程;王宇琪分享了从自动驾驶预测到自回归视频生成的研究路径,并分析了Sora、R1等技术带来的认知转折;贾萧松从强化学习与仿真器角度切入,探讨了基于世界模型的强化学习在自动驾驶中的工程挑战;廖康则从3D视觉重建转向统一的理解与生成模型,强调了物理先验与模型快速跟进的重要性。 00:52:43 主持人杨佳智系统梳理世界模型的四种主流范式,并抛出核心议题:在大数据与大模型时代为何仍需世界模型。杨佳智将世界模型归纳为动作条件模型、视频预测加逆动力学模型、视频与动作联合建模模型以及子目标生成加目标条件策略模型四类。随后,王啸峰从数据引擎、仿真器与策略生成器三个应用层面,论证了世界模型在补充稀缺数据、降低真机测试成本以及实现更高效的预训练-后训练知识迁移方面的必要性。 01:08:19 深入探讨世界模型作为仿真器的能力边界与数据需求。杨佳智提出世界模型能否准确反映失败动作的疑问。王啸峰基于近期比赛结果指出,通过合理的数据配方(混合成功与模型rollout数据),动作条件世界模型与真实世界的匹配度可达70%以上,并比较了显式与隐式动作条件控制的优劣。贾萧松则从消除轨迹歧义性的角度,提出世界模型可通过生成确定性未来来指导策略学习。 01:10:31 对比分析视频预测策略与直接动作预测策略的优劣。针对为何视频预测模型(如PaLM-0.7中的规划器)比直接输出动作的策略更具确定性和泛化能力的问题,王宇琪指出关键在于视频生成模型提供了更强的视觉泛化性;廖康认为视频token作为正则项能缓解动作token的过拟合;杨佳智则反思当前VLA策略缺乏表征学习,其监督信号过于稀疏。讨论共识是密集的视觉监督有助于学习更鲁棒、可迁移的表征。 01:20:51 辩论世界模型应在何种表征空间进行构建。针对李飞飞(像素空间)与LeCun(潜在语义空间)等不同技术路线,嘉宾们进行了多角度分析。廖康认为选择取决于下游任务,像素空间保真度高但昂贵,潜在空间灵活但可控性差。王宇琪指出当前缺乏强大的3D基础模型,但3D感知表征可能比像素更高效。王啸峰强调表征选择需结合具体应用,并倾向于将为动作生成服务的潜在空间称为“动作空间”。贾萧松提出了轻量策略模型与重型仿真模型分层的可能性。 01:35:00 探讨世界模型与策略模型的架构统一性及训练范式。王宇琪基于UniVLA工作,分享了在统一自回归架构下进行视频预训练对下游策略学习的促进作用,并认为自回归架构更利于建模因果关系。王啸峰介绍了GigaWorld Policy中联合视频与动作监督的预训练实验,发现其在数据有限时能加速收敛,但数据配方影响巨大。廖康认为自回归与扩散模型可结合,分别处理高级规划与精细生成。杨佳智指出当前趋势受可用预训练模型影响,未来可能螺旋式发展。 01:44:52 分析世界模型训练所需的数据源构成与仿真数据价值。贾萧松分享了在Rescene工作中混合仿真失败数据以提升真实世界失败案例生成能力的发现。王啸峰指出需混合网络数据与机器人数据以保持泛化能力,并强调自主探索数据的重要性。王宇琪从数据多样性(交互、世界知识)角度补充了筛选经验。杨佳智介绍了“仿真蒸馏”仅用仿真数据预训练世界模型再微调的思路,并引发关于仿真与真机数据关系的讨论,认为两者在环境多样性与任务多样性上可互补。 01:58:48 讨论世界模型的评测维度与提升方向。贾萧松指出从策略有效性角度评估世界模型极为困难,存在“鸡生蛋”问题。王啸峰强调工业界更关注落地价值,如合成数据对真机泛化的提升、人工评测仿真匹配度等。廖康提出应关注3D/4D一致性与时空记忆一致性。针对“合成数据价值”的质疑,王啸峰和王宇琪以语言模型的合成数据演进为例,论证了世界模型在获得一定能力后,可通过组合泛化创造新数据,实现自我提升。 02:13:57 分享世界模型在工业界的落地案例与学界研究建议。王啸峰介绍了在自动驾驶领域,世界模型作为数据引擎(生成Corner Case数据)和结合NeRF/3DGS的仿真器已有实际需求;机器人领域则呈现早期趋势。针对学界资源有限的问题,贾萧松建议探索物体级、物理属性明确的世界模型新表征;廖康提出可研究多智能体世界模型、构建更全面的评测基准;王啸峰认为可做训练免费的方法并将其工具化;王宇琪和杨佳智则鼓励进行高风险、探索性的基础研究,如更有效的表征或新架构。 02:28:54 回答直播间观众提问。问题涵盖世界模型中奖励函数的使用、实时推理可行性、DriveDreamer系列工作演进、3D感知世界模型路径、物理属性仿真以及符号世界模型等。嘉宾们结合各自专长进行了简要回应:杨佳智解释了通过奖励学习获取连续值的方法;王宇琪认为实时推理更可能以异步激活形式存在;王啸峰系统回顾了其团队从数据引擎、仿真器到策略生成器的发展脉络;廖康重申了长期趋向视频生成统一范式的观点;贾萧松将符号世界模型关联到智能体间的博弈与交互研究。 加入World Model 交流群 欢迎加入 World Model 交流群一起探讨!你也可以在群内 Ask Me(大佬们)关于 World Model 的 Anything,我们会收集所有的问题反馈给主持人和嘉宾,并在深度讨论中得到解答。
- 通往 AGI 的必经之路:Agent 自进化到底是在“进化”什么?
AI AMA是由青稞社区、魔搭社区、知乎联合发起的AI前沿技术对话栏目。每期邀请领域学者、开发者、KOL围绕热点技术主题展开"多视角群聊",以深度对谈的形式,打破信息茧房,拆解技术细节、碰撞前沿观点、探讨落地实践。 首期AI AMA 聚焦“Agent自进化”专场,邀请了 6 位在该领域做出标杆性工作的青年学者,展开一场多视角的深度对谈直播,不设边界地探讨 Agent 自进化的核心逻辑与实践挑战: * 如何定义“自进化”?其核心判据与理解框架应如何建立? * 自进化系统真正学到的是什么?能力提升更倾向于环境适应性,还是可泛化的通用策略? * 关于反馈系统,自进化应该靠什么信号驱动? * 如何评估自进化的实现程度?是否需要建立新的评价体系与测试场景? * 不同学习范式(如SFT、RL与训练之外的进化机制)之间应如何协同与定位? * 具备规划、调用子智能体、文件系统与长程状态等能力的Deep Agent,是否显著增加了自进化的实现难度? * 在工业实践中,自进化如何被可控地转化为业务价值? 嘉宾: 翟云鹏,阿里巴巴通义实验室研究员,魔搭社区AgentEvolver项目负责人,研究兴趣包括: 自我进化的智能体学习系统、复杂场景下的智能体强化学习、大语言模型后训练技术等。24年于北京大学获得计算机博士学位,在AI领域累计发表Top期刊和会议论文二十余篇。 陈兆润,芝加哥大学计算机科学专业博士二年级,Scaling Agent Learning via Experience Synthesis 一作,师从 UIUC 的 Bo Li 教授和 UC Berkeley 的 Dawn Song 教授。他的研究聚焦于约束条件下的 AI 智能体强化学习与自进化,以及智能体安全问题,包括自主化的 red-teaming 与 guardrail 机制设计。其研究成果曾多次发表于 NeurIPS、ICML、ICLR、NAACL、EMNLP 等计算机领域顶级会议,并获得 Oral 与 Spotlight 报告。 黄呈松,圣路易斯华盛顿大学博士生三年级,R-Zero: Self-Evolving Reasoning LLM from Zero Data 一作,本科毕业于复旦大学,研究方向集中于模型自提升,代表作包括LoraHub,R-Zero, Benchmark^2。 刘博,新加坡国立大学计算机科学系博士生,SPICE : Self-Play In Corpus Environments Improves Reasoning 一作,研究兴趣主要集中在强化学习、推理与机器学习系统及其在复杂真实环境中的应用。 近期在Meta FAIR担任Research Scientist Intern,与Jason Weston以及华盛顿大学的Natasha Jaques教授合作,研究大语言模型的可扩展自我改进与自博弈方法,发表了SPIRAL和SPICE系列工作。此前,在DeepSeek担任Student Researcher,参与了DeepSeek-LLM、DeepSeek-V2、DeepSeek-VL和DeepSeek-Prover等基础模型的研发工作。研究目标是探索可扩展的自我改进方法,构建能够在任何未知环境中智能行动的自主决策系统。 在此之前,曾在汪军教授指导下担任研究助理,并有幸与杨耀东老师密切合作。于2020年获得北京大学智能科学与技术专业和经济学专业的双学士学位,师从卢宗青老师。 孙泽一,上海交通大学博士三年级,SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience 一作,研究方向为多摸态LLM强化学习,Agent后训练。以第一/共同第一作者身份在NeurIPS, CVPR, ICCV等学术会议上发表7篇论文。Google scholar citation 700多次,github项目3k+ star。其中SEAgent作为Computer Use Agent的早期自主进化的探索得到学术界较高关注。 张凯,美国俄亥俄州立大学博士四年级,Agent Learning via Early Experience一作,师从苏煜和孙欢教授,研究方向聚焦于数据在基础模型与智能体中的作用。他已在顶级NLP/CV/ML会议发表多篇论文,其中多篇论文获得或入围Best Paper Award(3篇),或者被选为Oral(8次)和Spotlight(3次)。代表作包括MMMU, MagicLens, MagicBrush, Early Experience等。他曾在Microsoft Research、Meta Superintelligence Labs以及Google DeepMind 实习。 文字实录 https://mp.weixin.qq.com/s/HrkXmbkQOrA_XGE2ZVmd3w 加入 AI AMA 交流群
- 2025 “青稞” AI 嘉年华 RL 专题:从 RL 算法设计到训练框架, 五位青年科学家深度探讨 RL 发展与未来
2025 “青稞” AI 嘉年华 RL 专题,由清华大学博士生吕兴泰主持,参与讨论的嘉宾还有: * 崔淦渠:上海人工智能实验室青年科学家 * 胡健:OpenRLHF作者 * 郑楚杰:通义千问研究员,Qwen3、QwQ系列开源模型核心贡献者 * Yingru Li:CUHK博士,某厂研究科学家
- 2025 “青稞” AI 嘉年华!对话七位 Infra 专家,探讨 Infra 现状与未来
2025 “青稞” AI 嘉年华 Infra 专题,由 Sea AI Lab 算法工程师、新加坡国立大学博士生万信逸主持,参与讨论的嘉宾还有: * 章明星:清华大学计算机系副教授 * 游凯超:vLLM Core Maintainer、清华大学博士 * 朱子霖:智谱 AI RL Infra 工程师、slime 开源项目作者 * 朱力耕:NVIDIA 研究员、MIT 博士 * 庄博涵:浙江大学研究员 * 张晗:RLite 作者、Founder of Yiven AI