解密推理模型

核心主题:

推理模型的兴起与传统LLM的区别： 传统LLM主要依赖于规模化（更大的模型和更多的数据），而推理模型则专注于让模型“思考”更长时间，通过复杂的思考过程来解决问题。

“最近，LLM研究中出现了一种全新的范式：推理。与标准LLM相比，推理模型以完全不同的方式解决问题。特别是，它们在提供对问题的最终答案之前，会花费可变的时间来“思考”。

Long CoT（长链思考）： 推理模型的核心特征是生成详细的推理轨迹（Long CoT），这与传统LLM简短的解释不同。Long CoT更像是搜索算法，模型会在其中分解问题、检测错误、探索替代方案。

“推理模型的主要区别在于它能在回答问题之前“思考”。推理模型的思考仅仅是长长的思维链——或者简称long CoT，有时被称为推理追踪或轨迹——由LLM输出。

可验证性与奖励： 推理模型通常在可验证的任务（如数学和编码）上进行评估。可验证性是指存在正确答案或基于规则的验证方法。使用可验证的奖励信号进行强化学习(RL)是训练推理模型的基础。

“我们仅仅使用验证结果作为使用RL训练的奖励信号；见下文。实现这个想法有很多不同的方法（例如，过程奖励或纯RL），但它们共享使用RL从可验证奖励中学习的共同主题。 这是所有现代推理模型所基于的基本概念。”

DeepSeek-R1系列： DeepSeek-R1-Zero证明了无需监督微调（SFT）也能训练出强大的推理模型。DeepSeek-R1则结合了SFT和RL，以提高对齐性和推理能力。DeepSeek利用Deepseek-v3作为基础模型，采用多token预测目标，并使用量化训练策略，在性能和效率方面都非常出色。

“DeepSeek-R1-Zero，一个通过大规模强化学习（RL）训练的模型，没有监督微调（SFT）作为初步步骤，展示了卓越的推理能力。通过RL，DeepSeek-R1-Zero自然地出现了许多强大而有趣的推理行为。”

知识蒸馏： 通过知识蒸馏可以将大型推理模型的能力转移到更小、更高效的模型中。这是一种有效的训练方法，甚至优于直接对小型模型进行大规模RL训练。

“将更强大的模型提炼成更小的模型会产生极好的结果，而依赖大规模RL的更小模型需要巨大的计算能力，甚至可能无法达到蒸馏的性能。”

**推理时策略：**除了训练方法，推理时也存在一些提高模型性能的方法，例如生成更长的CoT（增加计算量）和并行解码（生成多个输出并进行聚合）。

关键趋势：**Long CoT：**推理模型生成详细的推理链，允许用户通过控制CoT的长度来动态调整计算成本和推理能力。

**RL驱动的自进化：**通过正确激励（通常是基于规则的奖励），LLM可以在RL训练中自然地发展出复杂的推理策略。

**知识蒸馏的有效性：**可以将大型推理模型的能力转移到更小、更高效的模型中。

重要概念/技术：

**SFT（监督微调）：**使用人工或模型生成的标注数据对LLM进行微调。

**RLHF（基于人类反馈的强化学习）：**使用人类偏好数据训练奖励模型，并使用该模型通过强化学习来调整LLM。

RLVR（基于可验证奖励的强化学习）： 使用可验证的答案或规则作为强化学习的奖励信号。

GRPO（Group Relative Policy Optimization）： DeepSeek-R1-Zero使用的强化学习算法，它是一种更简单、更高效的替代PPO的方法。

**Rejection Sampling（拒绝采样）：**生成多个输出，然后使用奖励模型或验证方法选择最佳输出，用于训练或推理。

**Distillation（蒸馏）：**将大型模型（教师模型）的知识转移到小型模型（学生模型）。

Open Reasoning Models (开放推理模型) 随着DeepSeek-R1等模型的发布，研究社区正在发布越来越多的开放推理模型。这为研究和创新提供了机会，并允许更广泛的受众访问最先进的推理能力。其他一些值得注意的开放推理模型包括：

Sky-T1 和 Sky-T1-Flash

Bespoke Stratos

LIMO

RedStar

结论:

推理模型是LLM研究的一个新兴领域，与传统LLM相比，它在问题解决方面采取了不同的方法。通过利用长链思考（Long CoT）、强化学习（RL）和知识蒸馏等技术，推理模型在诸如数学、编码和一般科学等可验证任务中取得了显著的成果。 DeepSeek-R1的发布为构建强大的推理模型提供了一个可复制的蓝图，并为进一步的研究和开发开辟了新的途径。随着该领域的不断发展，我们可以预期未来会看到更多高效、通用的推理模型。

注意事项:

DeepSeek-R1对提示很敏感，“ 在评估 DeepSeek-R1 时，我们观察到它对提示很敏感。Few-shot prompting 会持续降低其性能。”。

奖励模型的reward hacking风险需要注意。