昨天花了 15 分钟,讲解 Deepseek R1-zero 的训练过程,
节目播出后,收到若干听众反馈,其中有听众想了解,如何把 Deepseek 这个通用大模型,进行专项训练,使之与企业的专业知识和内部数据库相结合,成为具有企业特色的专项模型?
我们这一期花十五分钟时间,先讲解港大马毅教授的新作,“监督微调增强记忆,强化学习举一反三”,
然后讲解 Deepseek R1 论文的第二部分,如何对 Deepseek R1-zero 进行专项训练,强化专业知识,避免违规言论,从而对 Deepseek R1-zero 再训练,进化成 R1,
最后讲讲,如何对 Deepseek R1 进行数据蒸馏,套出 Deepseek R1 的优选数据,用于训练小型模型,让小型模型具备大型模型的专业知识和严谨推理的能力。
之所以暂时没有讲 Agent 和 LoRa 这些传统的做法,是因为感觉到 Deepseek 有可能会颠覆性重构 AI 大模型本身以及下游应用范式,
所以,暂时先放下传统的 Agent 和 LoRa,放下执念,清空大脑,腾出空间,迎接 Deepseek 的颠覆性创新。

