本期播客精华汇总:
- [LG] Building Bridges between Regression, Clustering, and Classification: 提出了目标编码器-解码器回归框架,将回归问题转化为广义的分类问题,通过软分箱和端到端联合训练,显著提升了神经网络在回归任务中的性能 (平均提升高达 25%)。
- [LG] Demystifying Long Chain-of-Thought Reasoning in LLMs: 揭示了长思维链推理的涌现机制,强调了奖励塑造在强化学习训练中的关键作用,以及利用噪声网络数据扩展可验证奖励信号的可能性。表明模型规模重要,但奖励设计和数据质量更关键。
- [LG] Robust Autonomy Emerges from Self-Play: 展示了通过大规模自弈,无需任何人类驾驶数据,即可训练出鲁棒且自然的自动驾驶策略,并在三大基准测试中取得 SOTA 性能。提出了高效模拟平台 GIGAFLOW 和优势过滤算法。
- [CL] LIMO: Less is More for Reasoning: 提出了 Less-Is-More Reasoning 假设,证明了在预训练知识充分的大模型中,仅需极少量高质量的推理示范数据,即可高效地激发模型涌现出卓越的数学推理能力和泛化性能 (817 个示例超越 100,000+ 示例训练的模型)。
- [LG] On Teacher Hacking in Language Model Distillation: 揭示了知识蒸馏中存在的 “教师 Hacking” 现象,即学生模型可能过度模仿教师模型的不完美性而导致性能退化。提出了在线数据生成和提升数据多样性等缓解策略。
完整推介:mp.weixin.qq.com