【第552期】SKILL-INJECT：大模型智能体技能注入攻击基准测试

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

SKILL-INJECT: Measuring Agent Vulnerability to Skill File Attacks

Summary

LLM 代理正凭借代码执行、工具调用以及近期推出的“代理技能”（agent skills）功能迅速演进。技能插件允许用户通过特定的第三方代码、知识和指令来扩展 LLM 应用。尽管这能将代理能力延伸至新领域，但也导致代理供应链日益复杂，为提示词注入攻击（prompt injection attacks）提供了新的攻击面。

我们认定基于技能的提示词注入是一项重大威胁，并推出了 SkillInject：一个用于评估常用 LLM 代理对通过技能文件实施注入的敏感程度的基准测试。SkillInject 包含 202 个“注入-任务”对，攻击类型涵盖了从显而易见的恶意注入，到隐藏在合法指令中、与上下文相关的隐蔽攻击。

我们在 SkillInject 上对前沿 LLM 进行了评估，同时衡量了其安全性（对有害指令的规避能力）和效用性（对合法指令的遵循能力）。结果显示：

高度脆弱性：当前的代理极易受到攻击，即便使用前沿模型，攻击成功率也高达 80%。

严重危害：代理经常执行极具危害性的指令，包括数据窃取、破坏性操作以及类似勒索软件的行为。

系统性挑战：研究进一步表明，该问题无法通过模型规模缩放（scaling）或简单的输入过滤来解决。

稳健的代理安全将需要上下文感知的授权框架。

原文链接：arxiv.org