【第631期】长程任务中的大模型训练:视界长度的实证研究Seventy3

【第631期】长程任务中的大模型训练:视界长度的实证研究

21分钟 ·
播放数8
·
评论数0

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com

今天的主题是:

On Training Large Language Models for Long-Horizon Tasks: An Empirical Study of Horizon Length

Summary

大语言模型(LLM)作为交互式智能体,在通过长序列的环境交互来解决任务方面已经展现出巨大的潜力。尽管先前的研究主要集中在系统层面的优化或算法的改进上,但关于任务生命周期长度(Task horizon length)在塑造训练动力学方面所起的作用,目前仍知之甚少。

在这项工作中,我们通过受控的任务构建,对生命周期长度进行了系统的实证研究。具体而言,我们构建了一系列受控任务,在这些任务中,智能体面临完全相同的决策规则和推理结构,唯一的区别仅在于成功完成任务所需的动作序列长度。

我们的研究结果表明:

  • 单纯增加生命周期长度本身就会构成一个训练瓶颈,并由于探索困难和信用分配(Credit assignment)挑战,引发严重的训练不稳定现象。

  • 我们证明了缩短生命周期(Horizon reduction)是解决这一限制的核心原则,它能够稳定训练过程,并在长周期任务中取得更好的性能。

  • 此外,我们发现缩短生命周期与更强的跨生命周期泛化能力相关联:在缩短后的生命周期下训练的模型,在推理阶段能够更有效地泛化到更长周期的变体任务中,我们称之为生命周期泛化(Horizon generalization)现象。

原文链接:arxiv.org