【第611期】WebXSkill:面向自主网络智能体的可执行技能框架Seventy3

【第611期】WebXSkill:面向自主网络智能体的可执行技能框架

25分钟 ·
播放数3
·
评论数0

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com

今天的主题是:

WEBXSKILL: Skill Learning for Autonomous Web Agents

Summary

基于大型语言模型(LLM)的自主网页智能体在执行复杂浏览器任务方面已展现出潜力,但在长时程(long-horizon)工作流上仍然存在明显困难。

一个关键瓶颈在于现有“技能(skill)”表示方式中的 grounding gap(落地鸿沟):

  • 文本形式的 workflow skills 虽然具备自然语言层面的指导性,但无法直接执行;

  • 基于代码的 skills 虽然可执行,但对智能体而言过于不透明,缺乏逐步语义解释,因此在错误恢复与动态适配方面能力受限。

为此,我们提出 WebXSkill,一个通过“可执行技能(executable skills)”来弥合这一鸿沟的框架。每个技能同时包含:

  • 一个带参数化的可执行动作程序(action program);

  • 以及逐步级别(step-level)的自然语言指导。

该设计使得技能既可以被直接执行,也可以被智能体在执行过程中进行解释与调整。

WebXSkill 包含三个阶段:

  1. 技能抽取(skill extraction)
    从易获取的合成智能体轨迹中挖掘可复用的动作子序列,并将其抽象为参数化技能;

  2. 技能组织(skill organization)
    将技能索引到一个基于 URL 的图结构中,以支持上下文感知的检索;

  3. 技能部署(skill deployment)
    提供两种互补模式:

    • grounded mode:完全自动化的多步执行;

    • guided mode:技能以分步骤指令形式呈现,由智能体结合自身规划能力执行。

在 WebArena 和 WebVoyager 基准测试上,WebXSkill 分别带来了:

  • WebArena:任务成功率提升最高 9.8 个百分点;

  • WebVoyager:任务成功率提升最高 12.9 个百分点。

实验结果表明,将“可执行性”与“可解释性”结合的技能表示方式,能够显著提升网页智能体在复杂任务中的表现。

原文链接:arxiv.org