【第562期】ActionEngine：状态机驱动的程序化GUI智能体

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

ActionEngine: From Reactive to Programmatic GUI Agents via State Machine Memory

Summary

现有的图形用户界面（GUI）代理通过对视觉语言模型（VLM）的逐步调用来运行——拍摄截图、推理下一步操作、执行操作，然后在新闻页面上重复此过程。这导致了高昂的成本和随推理步数增加而增长的延迟，且由于缺乏对已访问页面的持久化内存，准确率也受到限制。

我们提出了 ActionEngine：一个无需训练的框架，通过一种新颖的双代理架构，实现了从“反应式执行”向“程序化规划”的转变：

为了确保对不断演变的界面的鲁棒性，执行失败会触发一种基于视觉的重新定位回退机制（vision-based re-grounding fallback），以修复失败的操作并更新内存。

这种设计极大地提升了效率和准确率：在 WebArena 基准测试的 Reddit 任务中，我们的代理以平均单次 LLM 调用实现了 95% 的任务成功率（相比之下，最强的纯视觉基准模型成功率为 66%），同时成本降低了 11.8 倍，端到端延迟降低了 2 倍。

通过结合全局程序化规划、经爬虫验证的操作模板，以及带有局部验证与修复的节点级执行，这些组件共同实现了可扩展且可靠的 GUI 交互。

原文链接：arxiv.org