AI前沿：编解码器回归框架、长思维链推理的秘密

AI可可AI生活

18分钟 ·6个月前

174

·

3

本期播客精华汇总：

[LG] Building Bridges between Regression, Clustering, and Classification: 提出了目标编码器-解码器回归框架，将回归问题转化为广义的分类问题，通过软分箱和端到端联合训练，显著提升了神经网络在回归任务中的性能 (平均提升高达 25%)。

[LG] Demystifying Long Chain-of-Thought Reasoning in LLMs: 揭示了长思维链推理的涌现机制，强调了奖励塑造在强化学习训练中的关键作用，以及利用噪声网络数据扩展可验证奖励信号的可能性。表明模型规模重要，但奖励设计和数据质量更关键。

[LG] Robust Autonomy Emerges from Self-Play: 展示了通过大规模自弈，无需任何人类驾驶数据，即可训练出鲁棒且自然的自动驾驶策略，并在三大基准测试中取得 SOTA 性能。提出了高效模拟平台 GIGAFLOW 和优势过滤算法。

[CL] LIMO: Less is More for Reasoning: 提出了 Less-Is-More Reasoning 假设，证明了在预训练知识充分的大模型中，仅需极少量高质量的推理示范数据，即可高效地激发模型涌现出卓越的数学推理能力和泛化性能 (817 个示例超越 100,000+ 示例训练的模型)。

[LG] On Teacher Hacking in Language Model Distillation: 揭示了知识蒸馏中存在的 “教师 Hacking” 现象，即学生模型可能过度模仿教师模型的不完美性而导致性能退化。提出了在线数据生成和提升数据多样性等缓解策略。

完整推介：mp.weixin.qq.com

展开Show Notes

2025.2.17

自动驾驶不依赖人类数据，牛x

2025.2.07

俩主播的音频用啥模型生成的？

fly51fly

:用ChatTTS合成的

在小宇宙打开