【第595期】MEMENTO：教导大语言模型自主管理推理上下文

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

MEMENTO: Teaching LLMs to Manage Their Own Context

Summary

推理模型通常以冗长、无结构的方式进行思考，却缺乏压缩或组织其中间状态的机制。我们提出了 MEMENTO：一种教会模型将推理过程划分为多个模块（blocks）的方法。模型会把每个模块压缩成一个“memento”（记忆摘要），即一种稠密的状态总结，并且在后续推理时只关注这些 mementos，从而减少上下文长度、KV cache 占用以及计算开销。

为了训练 MEMENTO 模型，我们发布了 OpenMementos：一个包含 22.8 万条推理轨迹的公开数据集。该数据集基于 OpenThoughts-v3 构建，对推理过程进行了分段，并为每个中间阶段添加了摘要标注。

我们表明，基于 OpenMementos 的两阶段监督微调（SFT）方案，在不同模型家族（如 Qwen3、Phi-4、Olmo 3）以及不同规模（80 亿至 320 亿参数）上都具有良好效果。训练后的模型在数学、科学和代码基准测试上依然保持较强准确率，同时实现了约 2.5 倍的 KV cache 峰值占用降低。

我们还扩展了 vLLM 以支持这种推理方法，实现了约 1.75 倍的吞吐量提升，并进一步支持强化学习（RL）训练，从而继续提高模型准确率。

最后，我们发现存在一种“双重信息流”机制：每个推理模块中的信息，既通过 memento 文本传递，也通过对应的 KV 状态传递；后者会保留原始推理模块中的隐式信息。如果移除这一通道，在 AIME24 基准上的准确率会下降 15 个百分点。

原文链接：arxiv.org