2501.12599 Kimi k1.5技术报告深度解析：长上下文强化学习如何驱动AI突破复杂推理？

KIMI K1.5: SCALING REINFORCEMENT LEARNING WITH LLMS

Kimi K1.5是Kimi团队开发的最新多模态大型语言模型（LLM），它利用强化学习（RL）来克服传统语言模型预训练中数据量限制的问题。该模型通过学习利用奖励进行探索，以扩展其训练数据。Kimi K1.5引入了一种“简化、高效的RL框架”，不依赖于复杂的Monte Carlo树搜索、价值函数和过程奖励模型等技术，而是侧重于长上下文扩展和改进的策略优化方法。

该系统在多个基准测试和模态中取得了最先进的推理性能，包括：

AIME：77.5

MATH 500:96.2

Codeforces：第94百分位

MathVista：74.9

这些结果与OpenAI的o1模型表现相当。此外，Kimi K1.5还提出了有效的长转短（long2short）方法，利用长CoT（Chain-of-Thought）技术改进短CoT模型，在短CoT推理方面取得了显著的SOTA结果，例如在AIME上达到60.8，在MATH 500上达到94.6，在LiveCodeBench上达到47.3，相较于GPT-4o和Claude Sonnet 3.5等现有短CoT模型，性能提升高达550%。

核心主题与重要事实

1. 强化学习在LLM扩展中的应用

克服数据限制：传统LLM预训练受限于高质量训练数据的可用性。“扩展强化学习（RL）为人工智能的持续改进解锁了一个新的方向，预示着大型语言模型（LLMs）可以通过学习利用奖励进行探索来扩展其训练数据。”

简化RL框架：Kimi K1.5证明了“一个简化、高效的RL框架”可以实现最先进的性能，而无需依赖复杂的RL技术，如蒙特卡洛树搜索、价值函数和过程奖励模型。

训练流程：Kimi K1.5的开发包括预训练、普通监督微调（SFT）、长CoT监督微调和强化学习（RL）等几个阶段。RL是核心的持续扩展方法。

2. 长上下文扩展 (Long Context Scaling)

关键的扩展维度：Kimi团队将RL的上下文窗口扩展到128k token，并观察到性能随着上下文长度的增加而持续改进。“我们的观察确认上下文长度是LLMs强化学习持续扩展的关键维度。”

部分Rollout技术：为了提高训练效率，Kimi K1.5引入了部分Rollout技术，通过重用现有轨迹的大部分来采样新轨迹，避免了从头开始重新生成新轨迹的成本。这对于处理长CoT（Chain-of-Thought）特征至关重要。

隐式规划能力：通过扩展上下文长度，模型生成的CoT表现出规划、反思和纠正的特性。更长的上下文长度增加了搜索步骤的数量，使得模型能够直接通过自回归预测在推理空间中进行隐式搜索。

3. 改进的策略优化

在线镜像下降变体：Kimi K1.5采用了一种在线策略镜像下降的变体作为训练算法，并结合了有效的采样策略、长度惩罚和数据配方优化。

奖励模型 (Reward Modeling)：

代码：对于编码问题，Kimi K1.5设计了一种自动生成测试用例的方法，利用这些测试用例作为奖励信号来训练模型。例如，使用CYaRon库生成50个测试用例，并基于通过率进行筛选。

数学：为了解决数学问题中答案形式多样性的挑战，Kimi K1.5采用了两种奖励模型方法：

经典RM：基于InstructGPT方法，通过值头（value-head）模型和80万数据点进行微调，准确率约为84.4%。

CoT RM：受最新研究启发，采用CoT增强的奖励模型，通过生成逐步推理过程来提供最终正确性判断，准确率高达98.5%。在RL训练中，Kimi K1.5采用了CoT RM。

排除价值网络：该方法排除了传统RL中常用的价值网络，理由是“常规的价值函数用于经典RL中的信用分配可能不适合我们的语境”。相反，模型通过长CoT推导出的最终答案的正确性来获取奖励信号，鼓励模型探索多样化的推理路径。

长度惩罚 (Length Penalty)：为了解决RL训练中模型响应长度过度增长的“过度思考”现象，Kimi K1.5引入了长度奖励，以抑制token长度的快速增长，提高模型的token效率。它在正确答案中鼓励更短的响应，并惩罚不正确答案中更长的响应。

采样策略 (Sampling Strategies)：

课程采样 (Curriculum Sampling)：模型首先在较简单的任务上训练，然后逐渐过渡到更具挑战性的任务，以提高训练效率。

优先级采样 (Prioritized Sampling)：跟踪每个问题的成功率，并按1-si的比例采样问题（其中si是成功率），使模型关注其表现较弱的领域。

4. 多模态能力

多模态联合训练：Kimi K1.5模型“在文本和视觉数据上联合训练”，使其能够联合推理两种模态。

视觉数据配方：视觉强化学习（Vision RL）数据主要来源于三类：

真实世界数据：包含需要图形理解、推理的科学问题，以及涉及图表理解的数据分析等。

合成视觉推理数据：人工生成，旨在提高空间关系、几何模式和物体交互等特定视觉推理技能。

文本渲染数据：将文本内容转换为视觉格式，确保模型在处理纯文本或渲染为图像的文本时保持一致性。

5. 长转短方法 (Long2short Methods)

提升短CoT模型性能：Kimi K1.5提出了利用长CoT技术改进短CoT模型的方法，旨在在有限的测试时token预算下提升性能。

具体方法：

模型合并 (Model Merging)：通过简单平均长CoT模型和短CoT模型的权重来合并，以提高token效率。

最短拒绝采样 (Shortest Rejection Sampling)：对相同问题采样N次（实验中为8次），选择最短的正确响应进行监督微调。

DPO (Direct Preference Optimization)：利用长CoT模型生成多个响应样本，选择最短的正确解决方案作为正样本，而较长的（包括错误的或比正样本长1.5倍的正确的）响应作为负样本，用于DPO训练。

Long2short RL：在标准RL训练后，选择一个性能和token效率最佳的模型作为基础模型，并进行单独的long2short RL训练阶段，应用长度惩罚并显著减少最大Rollout长度。

6. 基础设施优化

大规模RL训练系统：Kimi K1.5采用迭代同步RL框架，包括Rollout阶段和训练阶段，通过中心master、Rollout workers、Replay Buffer和Trainer workers协同工作。

部分Rollout（Partail Rollouts）：这是一项关键创新，它通过固定输出token预算来管理长短轨迹的Rollout，如果轨迹超出限制，未完成的部分将被保存到Replay Buffer并在下一次迭代中继续。这显著降低了计算开销，并支持生成更长的响应，同时保持快速迭代时间。

混合部署（Hybrid Deployment）：为训练和推理任务提出混合部署策略，利用Kubernetes Sidecar容器共享所有可用GPU，将两种工作负载放在一个Pod中，从而实现高效资源共享和管理，最小化GPU空闲资源，并具备动态扩展能力。

代码沙盒（Code Sandbox）：为执行用户提交的代码提供安全高效的环境，支持多种用例和编程语言。通过使用Crun、cgroup复用和磁盘使用优化等技术，显著缩短容器启动时间并提高并发处理能力。

7. 实验结果

长CoT模型SOTA性能：Kimi K1.5长CoT模型在MathVista、MATH 500、AIME 2024和Codeforces等基准上达到了与OpenAI o1模型相当或超越的SOTA性能。

短CoT模型显著提升：Kimi K1.5短CoT模型在LiveCodeBench、AIME 2024和MATH 500等任务上表现优于GPT-4o和Claude Sonnet 3.5等竞争模型，性能提升高达+550%。

长上下文与性能正相关：实验显示，模型的输出上下文长度与其问题解决能力之间存在强相关性，训练精度和响应长度随迭代次数增加而同步增长。

模型大小与上下文长度权衡：在相同数据集下，虽然大型模型初始性能更高，但小型模型通过RL优化更长的CoT也能达到可比性能。大型模型通常表现出更好的token效率，但如果测试时计算预算有限，训练具有较大上下文长度的小型模型是可行的解决方案。

负梯度效应：与仅通过拟合最佳响应来迭代改进模型的ReST算法相比，Kimi K1.5引入负梯度惩罚不正确响应的方法显著提高了模型生成长CoT的效率和样本复杂度。

课程采样的有效性：课程采样策略通过先进行一般性训练，再专注于难题，显著提升了模型性能。

结论

Kimi K1.5的成功表明，将强化学习应用于LLMs，特别是在长上下文扩展和改进的策略优化方面，是实现LLMs持续改进的关键途径。该模型通过简化RL框架，有效地提升了多模态推理能力，并在多个基准测试中取得了领先结果。

未来的研究方向包括进一步提高长上下文RL训练的效率和可扩展性，优化信用分配机制，以及在不损害模型探索能力的前提下减少“过度思考”现象。长转短方法也展示了巨大潜力，能够显著提高短CoT模型的性能和token效率。