本研究提出了 Chain-of-Memory (CoM),一种新颖的方法,旨在通过明确地建模短期记忆(STM)和长期记忆(LTM)来增强图形用户界面(GUI)代理在跨应用任务中的性能。现有方法通常依赖历史截图或操作来隐式表示任务状态,这导致代理难以准确理解任务状态,并在复杂、冗长的跨应用任务中缺乏有效的关键信息存储机制。为解决这些挑战,CoM 通过捕获操作描述、整合与任务相关的屏幕信息,并维护专用的记忆模块来存储和管理这些信息,使 GUI 代理能够更好地理解任务状态并持续保留关键历史信息。
最重要思想和事实
- 现有 GUI 代理的局限性:
- 任务状态理解不准确: 现有方法大多依赖于历史操作(如“Click(x,y)”)或纯粹的视觉历史截图来推断当前任务状态并做出后续决策。
- 信息冗余与关键信息丢失: “简单的操作日志提供的信息非常有限,而原始屏幕则引入了过多的冗余,往往在无关数据中掩盖了关键信息。”多模态大型语言模型(MLLMs)的上下文窗口大小限制了从历史屏幕中保留任务信息的能力,导致在一定步数后丢失关键信息(如先前的搜索结果),从而对代理的决策过程构成挑战。
- 跨应用任务挑战: 随着任务日益复杂,尤其是在跨应用场景下,仅依靠历史操作信息已不足以满足代理决策的需求。
- Chain-of-Memory (CoM) 范式:
- 受人类记忆启发: CoM 受人类在工作中信息交换和存储系统之间过程的启发,旨在使 GUI 代理以类人的方式识别和记忆任务。
- 核心组成部分: CoM 包含两个关键组件:
- 短期记忆 (STM): “负责存储最近操作的语言描述,确保代理理解最新的任务上下文以做出明智的决策。”STM 维护最近的操作结果(最多 N 对,本文中 N 设置为 4),通过比较操作前后的屏幕状态生成文本表示,从而捕获有用的屏幕信息并消除冗余数据。
- 长期记忆 (LTM): “负责存储将来可能需要的信息,例如搜索结果或特定任务知识。”LTM 通过“屏幕信息”组件实现,该组件提取屏幕上与任务相关的关键信息并过滤掉无关元素,然后代理评估这些信息是否值得保存到长期记忆中。
- CoM 工作流程(四步):信息感知 (Information Perception): 从之前的截图和历史操作中提取并总结数据。
- STM 更新 (STM Update): 将最近获得的信息整合到短期记忆中。
- LTM 存储 (LTM Storage): 从先前收集的数据中识别并存储关键信息到长期记忆中。
- 行动决策 (Action Decision): 利用 STM 和 LTM 评估当前任务状态,并相应地做出后续决策。
- GUI Odyssey-CoM 数据集:
- 目的: 赋能小型模型具备记忆生成和利用能力,并评估 CoM 的有效性。
- 规模与特点: 基于 GUI Odyssey 构建,“包含 111,791 个屏幕-操作对,每个都标注了相关的记忆信息。”它是“目前最大的跨应用 GUI 导航数据集,包含多条高质量的文本信息标注。”
- 数据质量保障: 数据生成模型为每个输入生成三个响应,并根据为每种数据类型定义的评估标准进行评分,选择得分最高的响应作为最终标注。
- 实验结果与 CoM 的有效性:
- 显著提升性能: “实验结果表明,CoM 显著提高了 GUI 代理在跨应用任务中的操作准确性、任务成功率和任务切换成功率。”
- 长期记忆对文本操作的益处: 长期记忆“对基于文本的操作(例如检索先前搜索到的评价良好笔记本电脑的价格或共享先前确定的排队地址)特别有益。”尤其显著提升了 TYPE 操作的准确性。
- 短期记忆对任务状态的益处: 短期记忆“增强了代理跟踪当前任务状态的能力,从而显著提高了这些操作(如 CLICK, HOME, STOP)的准确性。”
- 小型模型能力提升: “ fine-tuning 使 7B 模型能够有效利用记忆信息,实现了与 72B 模型相当的记忆信息生成能力,从而验证了 CoM 的有效性,并强调了 GUI Odyssey-CoM 的必要性。”
- 屏幕信息的局限性: “在零样本或微调实验中,当 ScreenInfo 作为输入时,它会显著降低 GUI 代理的性能。”这可能是因为某些屏幕上存在不必要的外部信息,即使 ScreenInfo 与其他记忆组件集成,这种限制仍然存在。这强调了在记忆架构中选择性地保留信息的必要性。
- 短期记忆长度的影响: 短期记忆长度 N 对 AMS、TSS 和 SR 都有积极影响,但“在 N=4 之后,这种趋势趋于平稳,表明随着记忆长度的增加,回报递减。”
结论
CoM 范式及其配套的 GUI Odyssey-CoM 数据集有效解决了现有 GUI 代理在理解任务状态和保留关键信息方面的不足,尤其是在复杂的跨应用任务中。通过模拟人类的短期和长期记忆机制,CoM 显著提升了代理的性能,并使得小型模型也能获得强大的记忆管理能力。该研究强调了记忆机制对于构建更强大、更像人类的 GUI 代理的重要性。

