【第596期】MIA：基于存储智能的深度研究智能体框架

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

Memory Intelligence Agent

Summary

深度研究智能体（Deep Research Agents，DRAs）将大语言模型（LLM）的推理能力与外部工具结合起来。记忆系统使 DRAs 能够利用历史经验，而这对于高效推理和自主进化至关重要。现有方法通常依赖从记忆中检索相似的历史轨迹来辅助推理，但存在两个关键问题：记忆演化效率低，以及存储与检索成本不断增加。

为了解决这些问题，我们提出了一种新的 Memory Intelligence Agent（MIA）框架，其采用 Manager–Planner–Executor（管理者–规划者–执行者）架构。

Memory Manager 是一个非参数化记忆系统，可以存储经过压缩的历史搜索轨迹。
Planner 是一个参数化记忆智能体，能够针对问题生成搜索计划。
Executor 则是另一个智能体，在搜索计划的指导下执行信息搜索与分析。

为了构建 MIA 框架，我们首先采用一种交替式强化学习（alternating reinforcement learning）范式，以增强 Planner 与 Executor 之间的协同能力。

此外，我们使 Planner 能够在测试时学习（test-time learning）过程中持续进化：模型更新会与推理同步在线进行，而不会中断推理过程。

同时，我们还建立了参数化记忆与非参数化记忆之间的双向转换循环，从而实现高效的记忆演化。

最后，我们引入了反思（reflection）机制以及无监督判断（unsupervised judgment）机制，以提升模型在开放世界环境中的推理能力和自我进化能力。

在 11 个基准测试上的大量实验结果表明，MIA 相较现有方法具有明显优势。

原文链接：arxiv.org