GuardAgent: 代码逻辑是AI智能体的硬核保安

听论文-懂大模型评测

21分钟 ·22天前

7

·

0

GuardAgent: Safeguard LLM Agents via Knowledge-EnabledReasoning

该论文提出了GuardAgent—— 首个专为保护大语言模型（LLM）智能体设计的防护智能体，核心解决传统 LLM 防护方案无法适配智能体多样化输出模态与特定安全需求的问题，同时构建了两类基准测试验证其有效性。

一、研究背景与核心痛点

LLM 智能体的安全隐患：LLM 智能体已广泛应用于医疗、金融、自动驾驶等领域，但现有安全机制存在局限：硬编码安全控制：仅适用于特定任务，无法泛化到其他智能体（如医疗智能体的隐私保护规则不能复用至网页智能体）；
传统 LLM 防护方案：仅聚焦文本有害内容过滤，无法处理智能体的复杂动作（如网页智能体的按钮点击、医疗智能体的数据库访问）。

核心需求：需要一种灵活、可靠、无需额外训练的防护机制，能理解多样化安全规则（如访问控制、合规政策），并动态校验智能体动作的合规性。

二、GuardAgent 的核心设计

GuardAgent 通过 “知识增强推理 + 代码生成执行” 的双阶段流程，实现对目标智能体的非侵入式防护，核心特点包括灵活性、可靠性、免训练三大优势。

1. 核心输入与目标

输入：安全防护规则（如角色权限、合规政策）、目标智能体说明书（功能、输入输出格式）、目标智能体的用户输入与动作日志；

目标：判断目标智能体的动作是否违反安全规则，输出 “允许执行” 或 “拒绝执行” 及详细原因（如不可访问的数据库、违反的具体规则）。

2. 双阶段工作流程

阶段 1：任务规划：基于安全规则、目标智能体信息及历史案例（从记忆模块检索相似场景演示），生成分步动作计划。计划需包含规则关键词提取、目标输入 / 输出与规则的关联分析、代码生成指引三大核心步骤。

阶段 2：防护代码生成与执行：根据动作计划，调用工具库中的可执行函数（如权限校验函数CheckAccess、规则校验函数CheckRules），生成 Python 防护代码并执行。若代码执行出错，将触发 LLM 调试机制优化代码，确保结果确定性。

3. 关键组件

记忆模块：存储历史任务的输入、输出、动作计划与防护代码，通过 Levenshtein 距离检索相似案例，辅助当前任务推理；

工具库：包含可扩展的合规校验函数，用户可上传自定义函数适配新场景；

执行引擎：默认采用 Python 环境，确保防护代码的可靠运行与结果返回。

三、两类创新基准测试

为填补 LLM 智能体安全评估的空白，论文构建了两大基准：

EICU-AC 基准：聚焦医疗智能体的访问控制，包含 316 个案例，覆盖 “医生、护士、行政人员” 三类角色，需校验医疗智能体访问 ICU 数据库（如诊断库、用药库）的权限合规性；

Mind2Web-SC 基准：聚焦网页智能体的安全合规，包含 200 个案例（两类标签各 100 个），基于 6 类常见网页安全规则（如未成年人不得订酒店、无驾照不得租车），校验网页智能体动作（如搜索、预订、购物）的合规性。

四、实验结果与优势验证

核心性能：在四类主流 LLM（GPT-4、Llama3-70B 等）上，GuardAgent 表现优异：EICU-AC 基准：防护准确率超 98%，能精准识别跨数据库同名字段的权限差异（如 “patientunitstayid” 在不同数据库中的访问权限区分）；
Mind2Web-SC 基准：防护准确率超 83%，可有效校验网页智能体的合规动作（如无会员资格的购物行为拦截）。

与基线方案的对比优势：优于 “模型防护模型” 方案（如 LlamaGuard）：避免自然语言推理的模糊性，代码执行可精准匹配复杂规则；
优于硬编码安全规则：不影响目标智能体的任务性能（FRA 指标保持 100%），且可灵活适配不同智能体；
鲁棒性：即使移除工具库核心函数，GuardAgent 可自主定义必要函数，仍保持 90.8% 的防护准确率。

五、关键发现与未来方向

关键发现：记忆模块的相似案例检索能显著提升防护准确率，少样本演示（1-3 个）即可满足大部分场景需求；
代码生成是防护可靠性的核心：68% 的场景中，LLM 会自发选择代码形式实现精准校验，避免自然语言的歧义。

未来研究方向：自动化工具库设计：让 GuardAgent 自主创建适配新场景的校验函数；
高级推理策略：引入自一致性、反思机制优化任务规划；
多智能体协作架构：拆分任务规划、代码生成、记忆管理等子任务，提升复杂规则的处理能力。

六、核心贡献

提出首个 “智能体防护智能体” 框架，首次将知识增强推理与代码生成结合，实现多样化安全规则的精准适配；

构建两类高多样性基准测试（EICU-AC、Mind2Web-SC），填补 LLM 智能体安全评估的空白；

验证了 GuardAgent 在医疗、网页等场景的有效性，且不影响目标智能体的原有任务性能，具备实际应用价值。

在小宇宙打开