第二盏茶·Deepseek算法串讲(下)训练策略浅析

欢迎大家～这里是量子茶馆儿，一个致力于将业内优雅的技术设计艺术沉淀为画册的频道。

我们会在这里邀请国内外前沿技术圈的优质嘉宾，为大家观察市场/讲解paper/拆解产品/指南避坑，希望大家能在这个频道感受到我们对优质技术内容的分享诚意。🧡

以下是本茶馆儿第二期内容：deepseek算法串讲（下）· 训练策略浅析

【📝 嘉宾】

赵博士毕业于清华大学自动化系cfins（智能与网络化系统研究中心），是国内最早做强化学习与神经网络结合的博士实验室，和MIT，Stanford、以及强化学习之父sutton，都有持续的深度的密切合作。目前在国内一线大模型公司进行大语言模型的训练以及优化的算法工作，有非常成熟的学术背景以及工业应用经验。

【📝 Catalog】

本期核心讨论DeepSeek大模型训练的技术路径，包括V3与R1两大模型的创新实践，以及相关的训练策略和关键发现。

02:23-16:30

V3模型训练：预训练：准备了约14.7T个token的训练语料，混合多种语言及大量数学和编程语料以构建通用能力。
Post Training：包括SFT和强化学习IL，SFT阶段加入大量逻辑推理数据并混合非推理数据，强化学习侧重数学逻辑学习，采用rule based和model based两类reward model。

16:30-29:57

R1模型训练：R1 Zero：跳过V3的SFT阶段，直接在base模型上用强化学习训练，得到推理能力强但过程不可读的模型，出现问题越难推理越长、模型自发反思等现象。
R1：经过两次SFT和两次强化学习，先训练推理数据生成模型，用其生成数据并筛选后进行SFT，再引入更多样性任务和model based reward进行强化学习，最终得到r one模型。

29:57-46:23

训练策略的影响：算法SOP的突破：R1的出现使算法圈对预训练模型接SFT和RLHF的传统流程有了更开放的心态。
对训练数据的信心：证明模型扩写可行，提升了对训练数据量和纯做扩写类模型的信心。

46:23-48:59

未公开的秘密们：训练数据生成模型的种子数据构造、数据配比；
以及 reject sampling 筛选数据的标准；

其他：

关键概念：蒸馏：用teacher model输出的数据训练student model，特定任务上student model甚至可能超越teacher model。
拒绝采样：对生成的推理数据进行筛选，以保证训练数据的可靠性。

【📝 下期预告】

下期我们将带大家进入语音大模型领域，学习语音模型的基本配置、语音的训练范式、语音的应用场景。

我们不见不散～🧡