【第552期】SKILL-INJECT:大模型智能体技能注入攻击基准测试Seventy3

【第552期】SKILL-INJECT:大模型智能体技能注入攻击基准测试

17分钟 ·
播放数3
·
评论数0

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com

今天的主题是:

SKILL-INJECT: Measuring Agent Vulnerability to Skill File Attacks

Summary

LLM 代理正凭借代码执行、工具调用以及近期推出的“代理技能”(agent skills)功能迅速演进。技能插件允许用户通过特定的第三方代码、知识和指令来扩展 LLM 应用。尽管这能将代理能力延伸至新领域,但也导致代理供应链日益复杂,为提示词注入攻击(prompt injection attacks)提供了新的攻击面。

我们认定基于技能的提示词注入是一项重大威胁,并推出了 SkillInject:一个用于评估常用 LLM 代理对通过技能文件实施注入的敏感程度的基准测试。SkillInject 包含 202 个“注入-任务”对,攻击类型涵盖了从显而易见的恶意注入,到隐藏在合法指令中、与上下文相关的隐蔽攻击。

我们在 SkillInject 上对前沿 LLM 进行了评估,同时衡量了其安全性(对有害指令的规避能力)和效用性(对合法指令的遵循能力)。结果显示:

  • 高度脆弱性:当前的代理极易受到攻击,即便使用前沿模型,攻击成功率也高达 80%
  • 严重危害:代理经常执行极具危害性的指令,包括数据窃取、破坏性操作以及类似勒索软件的行为。
  • 系统性挑战:研究进一步表明,该问题无法通过模型规模缩放(scaling)或简单的输入过滤来解决。

稳健的代理安全将需要上下文感知的授权框架

原文链接:arxiv.org