251209 谷歌 Chrome 详解 AI 智能体安全架构：四大机制防止“AI 造反”

摘要：随着浏览器开始集成能“替你办事”的 AI 智能体（Agent），数据泄露和资金风险也随之而来。谷歌近日详细披露了 Chrome 浏览器的 AI 安全架构，通过引入“批评家模型”、严格的读写权限隔离以及强制的用户确认机制，试图为这些拥有强大执行力的 AI 戴上“紧箍咒”。

越来越多的浏览器正在尝试引入“代理功能（Agentic features）”，让 AI 不仅仅是回答问题，还能代表用户采取行动，比如自动订票或在线购物。

然而，赋予 AI“行动权”也带来了巨大的安全隐患——如果 AI 被诱导去访问恶意网站，或者在未经允许的情况下支付了账单，后果不堪设想。

为了解决这个问题，谷歌在 Chrome 浏览器上构建了一套复杂的多层防御体系，旨在确保 AI 既能干活，又不会“造反”。

谷歌并没有完全信任执行任务的 AI 模型，而是专门为它配了一名“监督员”。

谷歌构建了一个基于 Gemini 的“用户对齐批评家（User Alignment Critic）”模型。它的工作是审查由规划模型（Planner Model）制定的行动方案。如果“批评家”认为某个计划偏离了用户的目标，它会要求规划模型重新思考策略。

为了保护隐私，这个“批评家”模型只能看到拟定行动的元数据（Metadata），而无法看到具体的网页内容。这相当于在 AI 内部建立了一个“制衡机制”。

为了防止 AI 智能体访问不该看的数据或网站，谷歌引入了“智能体来源集（Agent Origin Sets）”的概念。

这一机制将 AI 的权限严格划分为“只读”和“读写”两类：

谷歌通过这种隔离，确保 AI 只能获取有限来源的数据，并且只能将数据传递给合法的写入目标，从而切断了跨站数据泄露的风险。此外，谷歌还部署了另一个观察者模型来专门检查 URL，防止 AI 导航到模型生成的恶意网址。

对于涉及金钱和隐私的高风险操作，谷歌坚持“人在回路（Human-in-the-loop）”的原则。

此外，谷歌还引入了“提示注入分类器（Prompt-injection classifier）”，以防止 AI 被恶意的指令攻击所操控。

安全是 AI 从“玩具”走向“工具”的入场券

谷歌对 Chrome AI 安全架构的详细披露，以及 Perplexity 等公司发布开源防御模型，共同揭示了一个行业共识：没有安全，就没有 Agent 的未来。

目前的 AI 聊天机器人犯错，最多是说两句胡话；但拥有执行力的 AI Agent 犯错，可能意味着存款消失或隐私裸奔。

浏览器的下一步，将不仅仅是比拼谁的 AI 更聪明，而是比拼谁的“安全沙箱”更严密。只有当用户确信把信用卡交给 AI 是 100% 安全的时候，真正的“AI 代办时代”才会到来。在此之前，所有的 Agent 功能都只能是展示柜里的实验品。

I 认识我 I

听播客时间太长？请关注微信公众号：科技下一步

3分钟精简文字稿，跟上科技的步骤，了解下一步的科技。

音频由AI制作。投放了资料给它后，它做了一些深入的探讨。比我厉害！