【第595期】MEMENTO:教导大语言模型自主管理推理上下文Seventy3

【第595期】MEMENTO:教导大语言模型自主管理推理上下文

24分钟 ·
播放数0
·
评论数0

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com

今天的主题是:

MEMENTO: Teaching LLMs to Manage Their Own Context

Summary

推理模型通常以冗长、无结构的方式进行思考,却缺乏压缩或组织其中间状态的机制。我们提出了 MEMENTO:一种教会模型将推理过程划分为多个模块(blocks)的方法。模型会把每个模块压缩成一个“memento”(记忆摘要),即一种稠密的状态总结,并且在后续推理时只关注这些 mementos,从而减少上下文长度、KV cache 占用以及计算开销。

为了训练 MEMENTO 模型,我们发布了 OpenMementos:一个包含 22.8 万条推理轨迹的公开数据集。该数据集基于 OpenThoughts-v3 构建,对推理过程进行了分段,并为每个中间阶段添加了摘要标注。

我们表明,基于 OpenMementos 的两阶段监督微调(SFT)方案,在不同模型家族(如 Qwen3、Phi-4、Olmo 3)以及不同规模(80 亿至 320 亿参数)上都具有良好效果。训练后的模型在数学、科学和代码基准测试上依然保持较强准确率,同时实现了约 2.5 倍的 KV cache 峰值占用降低。

我们还扩展了 vLLM 以支持这种推理方法,实现了约 1.75 倍的吞吐量提升,并进一步支持强化学习(RL)训练,从而继续提高模型准确率。

最后,我们发现存在一种“双重信息流”机制:每个推理模块中的信息,既通过 memento 文本传递,也通过对应的 KV 状态传递;后者会保留原始推理模块中的隐式信息。如果移除这一通道,在 AIME24 基准上的准确率会下降 15 个百分点。

原文链接:arxiv.org