【第599期】LightThinker：动态推理压缩与显式内存管理

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

LightThinker++: From Reasoning Compression to Memory Management

Summary

大型语言模型（LLM）在复杂推理方面表现出色，但其效率受到长链式思维轨迹所带来的认知开销激增的限制。本文提出了 LightThinker，一种使 LLM 能够将中间思维过程动态压缩为紧凑语义表示的方法。然而，静态压缩在复杂推理场景中往往效果不佳，因为中间细节一旦不可逆地丢失，可能会导致逻辑瓶颈。为了解决这一问题，我们进一步将框架演化为 LightThinker++，引入了显式自适应记忆管理（Explicit Adaptive Memory Management）。这一范式转向了行为层级的管理，通过引入显式记忆原语（memory primitives），并结合专门设计的轨迹合成流水线来训练具有目的性的记忆调度能力。大量实验从三个维度验证了该框架的通用性：

LightThinker 在仅带来极小精度损失的情况下，将峰值 token 使用量降低了 70%，推理时间减少了 26%。
在标准推理任务中，LightThinker++ 在相同上下文预算下实现最高性能时，将峰值 token 使用量减少了 69.9%，同时准确率提升了 2.42%。
更值得注意的是，在长时程智能体任务（long-horizon agentic tasks）中，其在超过 80 轮交互后依然能够维持稳定的资源占用（降低 60%–70%），并在不同复杂场景下平均带来了 14.8% 的性能提升。

总体而言，我们的工作为在极低开销下维持 LLM 长时程深度推理提供了一条可扩展的发展方向。

原文链接：arxiv.org