通过强化学习微调大型视觉-语言模型作为决策代理

通过强化学习微调大型视觉-语言模型作为决策代理

9分钟 ·
播放数0
·
评论数0

Zhai, Y., Bai, H., Lin, Z., Pan, J., Tong, S., Zhou, Y., ... & Levine, S. Fine-tuning large vision-language models as decision-making agents via reinforcement learning, 2024. URL arxiv. org/abs/2405.10292.

这份研究提出了一种通过强化学习(RL)来微调大型视觉-语言模型(VLMs)使其能够更好地进行决策的方法。传统的通过指令进行监督学习的方式在需要多步骤、目标导向的互动任务中效果不佳。作者们通过在VLMs的输出中引入思维链(CoT)推理,让模型在生成最终文本动作之前先进行中间的推理步骤,从而提高了决策能力和探索效率。该框架将VLM的文本输出解析成可执行的环境动作,并利用环境提供的任务奖励来优化整个VLM。实验结果表明,这种结合了RL和CoT的方法显著提升了VLMs在各种视觉和语言任务中的表现,甚至超越了像GPT4-V和Gemini这样的商业模型。