【第611期】WebXSkill：面向自主网络智能体的可执行技能框架

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

WEBXSKILL: Skill Learning for Autonomous Web Agents

Summary

基于大型语言模型（LLM）的自主网页智能体在执行复杂浏览器任务方面已展现出潜力，但在长时程（long-horizon）工作流上仍然存在明显困难。

一个关键瓶颈在于现有“技能（skill）”表示方式中的 grounding gap（落地鸿沟）：

为此，我们提出 WebXSkill，一个通过“可执行技能（executable skills）”来弥合这一鸿沟的框架。每个技能同时包含：

该设计使得技能既可以被直接执行，也可以被智能体在执行过程中进行解释与调整。

WebXSkill 包含三个阶段：

技能抽取（skill extraction）
从易获取的合成智能体轨迹中挖掘可复用的动作子序列，并将其抽象为参数化技能；
技能组织（skill organization）
将技能索引到一个基于 URL 的图结构中，以支持上下文感知的检索；
技能部署（skill deployment）
提供两种互补模式：
- grounded mode：完全自动化的多步执行；
- guided mode：技能以分步骤指令形式呈现，由智能体结合自身规划能力执行。

在 WebArena 和 WebVoyager 基准测试上，WebXSkill 分别带来了：

实验结果表明，将“可执行性”与“可解释性”结合的技能表示方式，能够显著提升网页智能体在复杂任务中的表现。

原文链接：arxiv.org