该论文介绍了 R-4B,这是一种多模态大型语言模型(MLLM),旨在通过自适应思考能力来平衡复杂推理与推理效率。R-4B 利用双模式退火进行训练,使其能够进行思考和非思考两种模式的响应。随后,通过双模式策略优化 (BPO) 进行强化学习,使模型能够根据问题的复杂性智能选择合适的模式。实验结果表明,R-4B-RL 在多项基准测试中表现出色,尤其在推理密集型任务上超越了同类模型,并在计算效率与性能之间取得了平衡。
Source: <arxiv.org>


该论文介绍了 R-4B,这是一种多模态大型语言模型(MLLM),旨在通过自适应思考能力来平衡复杂推理与推理效率。R-4B 利用双模式退火进行训练,使其能够进行思考和非思考两种模式的响应。随后,通过双模式策略优化 (BPO) 进行强化学习,使模型能够根据问题的复杂性智能选择合适的模式。实验结果表明,R-4B-RL 在多项基准测试中表现出色,尤其在推理密集型任务上超越了同类模型,并在计算效率与性能之间取得了平衡。
Source: <arxiv.org>