Adaptive Auto-Thinking MLLMsreadthepapers

Adaptive Auto-Thinking MLLMs

27分钟 ·
播放数0
·
评论数0

该论文介绍了 R-4B,这是一种多模态大型语言模型(MLLM),旨在通过自适应思考能力来平衡复杂推理与推理效率。R-4B 利用双模式退火进行训练,使其能够进行思考非思考两种模式的响应。随后,通过双模式策略优化 (BPO) 进行强化学习,使模型能够根据问题的复杂性智能选择合适的模式。实验结果表明,R-4B-RL 在多项基准测试中表现出色,尤其在推理密集型任务上超越了同类模型,并在计算效率性能之间取得了平衡。

Source: <arxiv.org>