十五分钟讲解 Deepseek 从 R1-zero 到 R1 的再训练AI 前线

十五分钟讲解 Deepseek 从 R1-zero 到 R1 的再训练

20分钟 ·
播放数299
·
评论数3

昨天花了 15 分钟,讲解 Deepseek R1-zero 的训练过程,

节目播出后,收到若干听众反馈,其中有听众想了解,如何把 Deepseek 这个通用大模型,进行专项训练,使之与企业的专业知识和内部数据库相结合,成为具有企业特色的专项模型?

我们这一期花十五分钟时间,先讲解港大马毅教授的新作,“监督微调增强记忆,强化学习举一反三”,

然后讲解 Deepseek R1 论文的第二部分,如何对 Deepseek R1-zero 进行专项训练,强化专业知识,避免违规言论,从而对 Deepseek R1-zero 再训练,进化成 R1,

最后讲讲,如何对 Deepseek R1 进行数据蒸馏,套出 Deepseek R1 的优选数据,用于训练小型模型,让小型模型具备大型模型的专业知识和严谨推理的能力。

之所以暂时没有讲 Agent 和 LoRa 这些传统的做法,是因为感觉到 Deepseek 有可能会颠覆性重构 AI 大模型本身以及下游应用范式,

所以,暂时先放下传统的 Agent 和 LoRa,放下执念,清空大脑,腾出空间,迎接 Deepseek 的颠覆性创新。

展开Show Notes
为了解决训练过程中可能出现的语言混杂问题,R1 引入了一个语言一致性奖励 (Language Consistency Reward),该奖励根据 CoT 中目标语言单词的比例来计算。
邓侃AI
:
是的, 根据 CoT 中目标语言单词的比例,不是唯一的奖惩机制,也可以设计其它奖惩机制,而且单词比例不一定是最佳机制, 不过这些都是优化的细节,不必过分拘泥。
预训练——模式识别、监督微调——专项训练、强化学习——根据(人类/更大模型/自身/规则……)return奖惩进行迭代修改。