GuardAgent: 代码逻辑是AI智能体的硬核保安

GuardAgent: 代码逻辑是AI智能体的硬核保安

21分钟 ·
播放数7
·
评论数0

GuardAgent: Safeguard LLM Agents via Knowledge-EnabledReasoning

该论文提出了GuardAgent—— 首个专为保护大语言模型(LLM)智能体设计的防护智能体,核心解决传统 LLM 防护方案无法适配智能体多样化输出模态与特定安全需求的问题,同时构建了两类基准测试验证其有效性。

一、研究背景与核心痛点

  1. LLM 智能体的安全隐患:LLM 智能体已广泛应用于医疗、金融、自动驾驶等领域,但现有安全机制存在局限:硬编码安全控制:仅适用于特定任务,无法泛化到其他智能体(如医疗智能体的隐私保护规则不能复用至网页智能体);
    传统 LLM 防护方案:仅聚焦文本有害内容过滤,无法处理智能体的复杂动作(如网页智能体的按钮点击、医疗智能体的数据库访问)。
  2. 核心需求:需要一种灵活、可靠、无需额外训练的防护机制,能理解多样化安全规则(如访问控制、合规政策),并动态校验智能体动作的合规性。

二、GuardAgent 的核心设计

GuardAgent 通过 “知识增强推理 + 代码生成执行” 的双阶段流程,实现对目标智能体的非侵入式防护,核心特点包括灵活性、可靠性、免训练三大优势。

1. 核心输入与目标

  • 输入:安全防护规则(如角色权限、合规政策)、目标智能体说明书(功能、输入输出格式)、目标智能体的用户输入与动作日志;
  • 目标:判断目标智能体的动作是否违反安全规则,输出 “允许执行” 或 “拒绝执行” 及详细原因(如不可访问的数据库、违反的具体规则)。

2. 双阶段工作流程

  • 阶段 1:任务规划:基于安全规则、目标智能体信息及历史案例(从记忆模块检索相似场景演示),生成分步动作计划。计划需包含规则关键词提取、目标输入 / 输出与规则的关联分析、代码生成指引三大核心步骤。
  • 阶段 2:防护代码生成与执行:根据动作计划,调用工具库中的可执行函数(如权限校验函数CheckAccess、规则校验函数CheckRules),生成 Python 防护代码并执行。若代码执行出错,将触发 LLM 调试机制优化代码,确保结果确定性。

3. 关键组件

  • 记忆模块:存储历史任务的输入、输出、动作计划与防护代码,通过 Levenshtein 距离检索相似案例,辅助当前任务推理;
  • 工具库:包含可扩展的合规校验函数,用户可上传自定义函数适配新场景;
  • 执行引擎:默认采用 Python 环境,确保防护代码的可靠运行与结果返回。

三、两类创新基准测试

为填补 LLM 智能体安全评估的空白,论文构建了两大基准:

  1. EICU-AC 基准:聚焦医疗智能体的访问控制,包含 316 个案例,覆盖 “医生、护士、行政人员” 三类角色,需校验医疗智能体访问 ICU 数据库(如诊断库、用药库)的权限合规性;
  2. Mind2Web-SC 基准:聚焦网页智能体的安全合规,包含 200 个案例(两类标签各 100 个),基于 6 类常见网页安全规则(如未成年人不得订酒店、无驾照不得租车),校验网页智能体动作(如搜索、预订、购物)的合规性。

四、实验结果与优势验证

  1. 核心性能:在四类主流 LLM(GPT-4、Llama3-70B 等)上,GuardAgent 表现优异:EICU-AC 基准:防护准确率超 98%,能精准识别跨数据库同名字段的权限差异(如 “patientunitstayid” 在不同数据库中的访问权限区分);
    Mind2Web-SC 基准:防护准确率超 83%,可有效校验网页智能体的合规动作(如无会员资格的购物行为拦截)。
  2. 与基线方案的对比优势:优于 “模型防护模型” 方案(如 LlamaGuard):避免自然语言推理的模糊性,代码执行可精准匹配复杂规则;
    优于硬编码安全规则:不影响目标智能体的任务性能(FRA 指标保持 100%),且可灵活适配不同智能体;
    鲁棒性:即使移除工具库核心函数,GuardAgent 可自主定义必要函数,仍保持 90.8% 的防护准确率。

五、关键发现与未来方向

  1. 关键发现:记忆模块的相似案例检索能显著提升防护准确率,少样本演示(1-3 个)即可满足大部分场景需求;
    代码生成是防护可靠性的核心:68% 的场景中,LLM 会自发选择代码形式实现精准校验,避免自然语言的歧义。
  2. 未来研究方向:自动化工具库设计:让 GuardAgent 自主创建适配新场景的校验函数;
    高级推理策略:引入自一致性、反思机制优化任务规划;
    多智能体协作架构:拆分任务规划、代码生成、记忆管理等子任务,提升复杂规则的处理能力。

六、核心贡献

  1. 提出首个 “智能体防护智能体” 框架,首次将知识增强推理与代码生成结合,实现多样化安全规则的精准适配;
  2. 构建两类高多样性基准测试(EICU-AC、Mind2Web-SC),填补 LLM 智能体安全评估的空白;
  3. 验证了 GuardAgent 在医疗、网页等场景的有效性,且不影响目标智能体的原有任务性能,具备实际应用价值。