Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com
今天的主题是:
ActionEngine: From Reactive to Programmatic GUI Agents via State Machine Memory
Summary
现有的图形用户界面(GUI)代理通过对视觉语言模型(VLM)的逐步调用来运行——拍摄截图、推理下一步操作、执行操作,然后在新闻页面上重复此过程。这导致了高昂的成本和随推理步数增加而增长的延迟,且由于缺乏对已访问页面的持久化内存,准确率也受到限制。
我们提出了 ActionEngine:一个无需训练的框架,通过一种新颖的双代理架构,实现了从“反应式执行”向“程序化规划”的转变:
- 爬虫代理(Crawling Agent):通过离线探索构建 GUI 的可更新状态机内存。
- 执行代理(Execution Agent):利用该内存合成完整的、可执行的 Python 程序,用于在线任务执行。
为了确保对不断演变的界面的鲁棒性,执行失败会触发一种基于视觉的重新定位回退机制(vision-based re-grounding fallback),以修复失败的操作并更新内存。
这种设计极大地提升了效率和准确率:在 WebArena 基准测试的 Reddit 任务中,我们的代理以平均单次 LLM 调用实现了 95% 的任务成功率(相比之下,最强的纯视觉基准模型成功率为 66%),同时成本降低了 11.8 倍,端到端延迟降低了 2 倍。
通过结合全局程序化规划、经爬虫验证的操作模板,以及带有局部验证与修复的节点级执行,这些组件共同实现了可扩展且可靠的 GUI 交互。
原文链接:arxiv.org

