251209 谷歌 Chrome 详解 AI 智能体安全架构:四大机制防止“AI 造反”

251209 谷歌 Chrome 详解 AI 智能体安全架构:四大机制防止“AI 造反”

14分钟 ·
播放数1
·
评论数0
摘要: 随着浏览器开始集成能“替你办事”的 AI 智能体(Agent),数据泄露和资金风险也随之而来。谷歌近日详细披露了 Chrome 浏览器的 AI 安全架构,通过引入“批评家模型”、严格的读写权限隔离以及强制的用户确认机制,试图为这些拥有强大执行力的 AI 戴上“紧箍咒”。图片

越来越多的浏览器正在尝试引入“代理功能(Agentic features)”,让 AI 不仅仅是回答问题,还能代表用户采取行动,比如自动订票或在线购物。

然而,赋予 AI“行动权”也带来了巨大的安全隐患——如果 AI 被诱导去访问恶意网站,或者在未经允许的情况下支付了账单,后果不堪设想。

为了解决这个问题,谷歌在 Chrome 浏览器上构建了一套复杂的多层防御体系,旨在确保 AI 既能干活,又不会“造反”。

🤖 引入“批评家模型”来监督 AI

谷歌并没有完全信任执行任务的 AI 模型,而是专门为它配了一名“监督员”。

谷歌构建了一个基于 Gemini 的“用户对齐批评家(User Alignment Critic)”模型。它的工作是审查由规划模型(Planner Model)制定的行动方案。如果“批评家”认为某个计划偏离了用户的目标,它会要求规划模型重新思考策略。

为了保护隐私,这个“批评家”模型只能看到拟定行动的元数据(Metadata),而无法看到具体的网页内容。这相当于在 AI 内部建立了一个“制衡机制”。

🛡️ 严格的“读写隔离”与导航审查

为了防止 AI 智能体访问不该看的数据或网站,谷歌引入了“智能体来源集(Agent Origin Sets)”的概念。

这一机制将 AI 的权限严格划分为“只读”和“读写”两类:

  • 只读来源: AI 可以从中获取信息(例如购物网站的商品列表),但无法进行操作。
  • 读写来源: AI 可以进行点击或输入操作的特定区域。

谷歌通过这种隔离,确保 AI 只能获取有限来源的数据,并且只能将数据传递给合法的写入目标,从而切断了跨站数据泄露的风险。此外,谷歌还部署了另一个观察者模型来专门检查 URL,防止 AI 导航到模型生成的恶意网址。

👤 敏感操作:必须把“钥匙”交还给用户

对于涉及金钱和隐私的高风险操作,谷歌坚持“人在回路(Human-in-the-loop)”的原则。

  • 敏感网站访问: 当 AI 试图访问银行或医疗等敏感网站时,必须先询问用户。
  • 密码使用: 对于需要登录的网站,AI 会请求用户授权使用 Chrome 密码管理器,但 AI 模型本身永远无法接触到密码数据。
  • 最终确认: 在执行“购买”或“发送消息”等关键动作前,AI 必须获得用户的明确批准。

此外,谷歌还引入了“提示注入分类器(Prompt-injection classifier)”,以防止 AI 被恶意的指令攻击所操控。

🔒 浏览器下一步

安全是 AI 从“玩具”走向“工具”的入场券

谷歌对 Chrome AI 安全架构的详细披露,以及 Perplexity 等公司发布开源防御模型,共同揭示了一个行业共识:没有安全,就没有 Agent 的未来。

目前的 AI 聊天机器人犯错,最多是说两句胡话;但拥有执行力的 AI Agent 犯错,可能意味着存款消失或隐私裸奔。

浏览器的下一步,将不仅仅是比拼谁的 AI 更聪明,而是比拼谁的“安全沙箱”更严密。只有当用户确信把信用卡交给 AI 是 100% 安全的时候,真正的“AI 代办时代”才会到来。在此之前,所有的 Agent 功能都只能是展示柜里的实验品。

I 认识我 I

听播客时间太长?请关注微信公众号:科技下一步

3分钟精简文字稿,跟上科技的步骤,了解下一步的科技。

音频由AI制作。投放了资料给它后,它做了一些深入的探讨。比我厉害!