KIMI K1.5: SCALING REINFORCEMENT LEARNING WITH LLMS
Kimi K1.5是Kimi团队开发的最新多模态大型语言模型(LLM),它利用强化学习(RL)来克服传统语言模型预训练中数据量限制的问题。该模型通过学习利用奖励进行探索,以扩展其训练数据。Kimi K1.5引入了一种“简化、高效的RL框架”,不依赖于复杂的Monte Carlo树搜索、价值函数和过程奖励模型等技术,而是侧重于长上下文扩展和改进的策略优化方法。
该系统在多个基准测试和模态中取得了最先进的推理性能,包括:
- AIME:77.5
- MATH 500:96.2
- Codeforces:第94百分位
- MathVista:74.9
这些结果与OpenAI的o1模型表现相当。此外,Kimi K1.5还提出了有效的长转短(long2short)方法,利用长CoT(Chain-of-Thought)技术改进短CoT模型,在短CoT推理方面取得了显著的SOTA结果,例如在AIME上达到60.8,在MATH 500上达到94.6,在LiveCodeBench上达到47.3,相较于GPT-4o和Claude Sonnet 3.5等现有短CoT模型,性能提升高达550%。
核心主题与重要事实
1. 强化学习在LLM扩展中的应用
- 克服数据限制:传统LLM预训练受限于高质量训练数据的可用性。“扩展强化学习(RL)为人工智能的持续改进解锁了一个新的方向,预示着大型语言模型(LLMs)可以通过学习利用奖励进行探索来扩展其训练数据。”
- 简化RL框架:Kimi K1.5证明了“一个简化、高效的RL框架”可以实现最先进的性能,而无需依赖复杂的RL技术,如蒙特卡洛树搜索、价值函数和过程奖励模型。
- 训练流程:Kimi K1.5的开发包括预训练、普通监督微调(SFT)、长CoT监督微调和强化学习(RL)等几个阶段。RL是核心的持续扩展方法。
2. 长上下文扩展 (Long Context Scaling)
- 关键的扩展维度:Kimi团队将RL的上下文窗口扩展到128k token,并观察到性能随着上下文长度的增加而持续改进。“我们的观察确认上下文长度是LLMs强化学习持续扩展的关键维度。”
- 部分Rollout技术:为了提高训练效率,Kimi K1.5引入了部分Rollout技术,通过重用现有轨迹的大部分来采样新轨迹,避免了从头开始重新生成新轨迹的成本。这对于处理长CoT(Chain-of-Thought)特征至关重要。
- 隐式规划能力:通过扩展上下文长度,模型生成的CoT表现出规划、反思和纠正的特性。更长的上下文长度增加了搜索步骤的数量,使得模型能够直接通过自回归预测在推理空间中进行隐式搜索。
3. 改进的策略优化
- 在线镜像下降变体:Kimi K1.5采用了一种在线策略镜像下降的变体作为训练算法,并结合了有效的采样策略、长度惩罚和数据配方优化。
- 奖励模型 (Reward Modeling):
- 代码:对于编码问题,Kimi K1.5设计了一种自动生成测试用例的方法,利用这些测试用例作为奖励信号来训练模型。例如,使用CYaRon库生成50个测试用例,并基于通过率进行筛选。
- 数学:为了解决数学问题中答案形式多样性的挑战,Kimi K1.5采用了两种奖励模型方法:
- 经典RM:基于InstructGPT方法,通过值头(value-head)模型和80万数据点进行微调,准确率约为84.4%。
- CoT RM:受最新研究启发,采用CoT增强的奖励模型,通过生成逐步推理过程来提供最终正确性判断,准确率高达98.5%。在RL训练中,Kimi K1.5采用了CoT RM。
- 排除价值网络:该方法排除了传统RL中常用的价值网络,理由是“常规的价值函数用于经典RL中的信用分配可能不适合我们的语境”。相反,模型通过长CoT推导出的最终答案的正确性来获取奖励信号,鼓励模型探索多样化的推理路径。
- 长度惩罚 (Length Penalty):为了解决RL训练中模型响应长度过度增长的“过度思考”现象,Kimi K1.5引入了长度奖励,以抑制token长度的快速增长,提高模型的token效率。它在正确答案中鼓励更短的响应,并惩罚不正确答案中更长的响应。
- 采样策略 (Sampling Strategies):
- 课程采样 (Curriculum Sampling):模型首先在较简单的任务上训练,然后逐渐过渡到更具挑战性的任务,以提高训练效率。
- 优先级采样 (Prioritized Sampling):跟踪每个问题的成功率,并按1-si的比例采样问题(其中si是成功率),使模型关注其表现较弱的领域。
4. 多模态能力
- 多模态联合训练:Kimi K1.5模型“在文本和视觉数据上联合训练”,使其能够联合推理两种模态。
- 视觉数据配方:视觉强化学习(Vision RL)数据主要来源于三类:
- 真实世界数据:包含需要图形理解、推理的科学问题,以及涉及图表理解的数据分析等。
- 合成视觉推理数据:人工生成,旨在提高空间关系、几何模式和物体交互等特定视觉推理技能。
- 文本渲染数据:将文本内容转换为视觉格式,确保模型在处理纯文本或渲染为图像的文本时保持一致性。
5. 长转短方法 (Long2short Methods)
- 提升短CoT模型性能:Kimi K1.5提出了利用长CoT技术改进短CoT模型的方法,旨在在有限的测试时token预算下提升性能。
- 具体方法:
- 模型合并 (Model Merging):通过简单平均长CoT模型和短CoT模型的权重来合并,以提高token效率。
- 最短拒绝采样 (Shortest Rejection Sampling):对相同问题采样N次(实验中为8次),选择最短的正确响应进行监督微调。
- DPO (Direct Preference Optimization):利用长CoT模型生成多个响应样本,选择最短的正确解决方案作为正样本,而较长的(包括错误的或比正样本长1.5倍的正确的)响应作为负样本,用于DPO训练。
- Long2short RL:在标准RL训练后,选择一个性能和token效率最佳的模型作为基础模型,并进行单独的long2short RL训练阶段,应用长度惩罚并显著减少最大Rollout长度。
6. 基础设施优化
- 大规模RL训练系统:Kimi K1.5采用迭代同步RL框架,包括Rollout阶段和训练阶段,通过中心master、Rollout workers、Replay Buffer和Trainer workers协同工作。
- 部分Rollout(Partail Rollouts):这是一项关键创新,它通过固定输出token预算来管理长短轨迹的Rollout,如果轨迹超出限制,未完成的部分将被保存到Replay Buffer并在下一次迭代中继续。这显著降低了计算开销,并支持生成更长的响应,同时保持快速迭代时间。
- 混合部署(Hybrid Deployment):为训练和推理任务提出混合部署策略,利用Kubernetes Sidecar容器共享所有可用GPU,将两种工作负载放在一个Pod中,从而实现高效资源共享和管理,最小化GPU空闲资源,并具备动态扩展能力。
- 代码沙盒(Code Sandbox):为执行用户提交的代码提供安全高效的环境,支持多种用例和编程语言。通过使用Crun、cgroup复用和磁盘使用优化等技术,显著缩短容器启动时间并提高并发处理能力。
7. 实验结果
- 长CoT模型SOTA性能:Kimi K1.5长CoT模型在MathVista、MATH 500、AIME 2024和Codeforces等基准上达到了与OpenAI o1模型相当或超越的SOTA性能。
- 短CoT模型显著提升:Kimi K1.5短CoT模型在LiveCodeBench、AIME 2024和MATH 500等任务上表现优于GPT-4o和Claude Sonnet 3.5等竞争模型,性能提升高达+550%。
- 长上下文与性能正相关:实验显示,模型的输出上下文长度与其问题解决能力之间存在强相关性,训练精度和响应长度随迭代次数增加而同步增长。
- 模型大小与上下文长度权衡:在相同数据集下,虽然大型模型初始性能更高,但小型模型通过RL优化更长的CoT也能达到可比性能。大型模型通常表现出更好的token效率,但如果测试时计算预算有限,训练具有较大上下文长度的小型模型是可行的解决方案。
- 负梯度效应:与仅通过拟合最佳响应来迭代改进模型的ReST算法相比,Kimi K1.5引入负梯度惩罚不正确响应的方法显著提高了模型生成长CoT的效率和样本复杂度。
- 课程采样的有效性:课程采样策略通过先进行一般性训练,再专注于难题,显著提升了模型性能。
结论
Kimi K1.5的成功表明,将强化学习应用于LLMs,特别是在长上下文扩展和改进的策略优化方面,是实现LLMs持续改进的关键途径。该模型通过简化RL框架,有效地提升了多模态推理能力,并在多个基准测试中取得了领先结果。
未来的研究方向包括进一步提高长上下文RL训练的效率和可扩展性,优化信用分配机制,以及在不损害模型探索能力的前提下减少“过度思考”现象。长转短方法也展示了巨大潜力,能够显著提高短CoT模型的性能和token效率。
