【第628期】OCR-Memory：基于光学上下文检索的长周期智能体记忆

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

OCR-Memory: Optical Context Retrieval for Long-Horizon Agent Memory

Summary

自主大语言模型（LLM）智能体越来越多地在长周期（Long-horizon）、交互式环境中运行，其成功取决于对长期历史中所积累经验的重复利用。然而，现有的智能体记忆系统从根本上受限于文本上下文预算：存储或重新访问原始轨迹（Raw trajectories）的 Token 成本高昂得令人望而却步，而摘要化和纯文本检索则是以信息丢失和碎片化的证据为代价来换取 Token 的节省。

为了解决这一限制，我们提出了光学上下文检索记忆（Optical Context Retrieval Memory，简称 OCR-Memory）。这是一种利用视觉模态作为智能体经验高密度表示的记忆框架，能够以极低的检索提示词（Prompt）开销保留任意长度的历史记录。具体而言，OCR-Memory 将历史轨迹渲染为带有独特视觉标识符（Visual identifiers）的图像。在检索时，OCR-Memory 通过“定位并转录”（Locate-and-transcribe）范式来检索存储的经验，即通过视觉锚点选择相关区域并检索对应的逐字文本（Verbatim text），从而避免了自由文本生成并减少了幻觉。

在长周期智能体基准测试上的实验表明，在严格的上下文限制下，该方法取得了持续的性能提升，证明了光学编码在增加有效记忆容量的同时，能够保持对证据的忠实恢复（Faithful recovery）。

原文链接：arxiv.org