MOSAIC-Bench: Measuring Compositional Vulnerability Induction in Coding Agents
一句话核心结论
MOSAIC-Bench发现主流代码 AI 会被分步式 “无害任务” 诱导，批量写出漏洞代码，传统安全检查形同虚设。
它到底研究了啥
现有 AI 安全只查单次请求，忽略分步任务链的累积风险。本文提出MOSAIC-Bench，专门测代码 AI 在 “分步合规、最终作恶” 场景下的漏洞生成能力。
研究场景
代码生成 AI 的链式漏洞诱导安全测试。
测试对象
9 款主流代码 AI（Anthropic、OpenAI、Google 等）、代码审查 AI。
怎么做
1. 构建199 条三阶段攻击链，用真实软件漏洞做判定；
2. 对比分步任务与直接恶意请求两种输入；
3. 测试代码 AI 生成率、审查 AI 通过率。
测出来啥结果
1. 分步任务下，AI 生成漏洞代码成功率53%-86%，仅 2 次拒绝；
2. 直接请求下，漏洞率降至0%-20.4%，分步会绕过防御；
3. 审查 AI 放行 25.8% 漏洞代码；
4. 改成渗透测试视角审查，漏检率降至3%-17.6%。
最后结论
代码 AI 存在链式漏洞诱导致命短板；MOSAIC-Bench可测该风险，将审查改为渗透视角是有效缓解方案。

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

大模型发展日新月异，但大量评测、以及技术相关论文内容专业、结构复杂、信息密集，想读懂一篇往往要花费数小时。为了降低理解门槛，我们用博客的形式拆解每一篇经典或前沿的大模型相关论文。
每篇内容控制在10分钟阅读量以内，围绕：
- 🧠 核心问题与研究动机
- 🛠️ 方法拆解与创新点
- 📊 实验设计与结果分析
- 🧭 结论反思与实践启发
适合评测同学、算法同学运营产品、以及对大模型感兴趣的学习者在碎片时间高效获取论文精华，轻松跟上大模型领域的最新进展。

AI_SUMMARIZE_EPISODE

听论文-懂大模型评测

任务拆解正诱导AI编写木马？！

689b02344cbd503733d7aa25/lqATfZGRQGEp0Vsvx6It1p4LuMjL.m4a