📝 本期播客简介
本期我们克隆了:Google DeepMind《When millions of AI agents meet》
原内容更新时间:2026-06-23
本期来自 Google DeepMind 播客,由数学家、科普作者 Hannah Fry 主持,对谈 Google DeepMind 高级主任研究科学家 Nenad Tomašev。节目讨论的是当下 AI 领域最热、也最容易被低估风险的方向:AI agents。它们不再只是回答问题的大语言模型,而是能够观察环境、调用工具、执行多步骤计划,甚至代表用户做决定的行动系统。
这期对话的重点不只是“智能体能帮我订餐、写代码、发邮件”这些个人效率场景,而是进一步追问:当数百万个智能体同时存在于互联网中,它们彼此交易、协商、委托、竞争,会不会形成一种新的“智能体经济”?这种经济可能如何分配资源、如何建立信任、如何避免串通、闪崩、提示注入和自动化偏见?
Nenad 的判断非常克制但信息量很高:智能体会加速科学发现和复杂任务执行,但越是要进入真实世界,越需要人类保持清醒、权限控制、纵深防御、声誉机制和经济激励设计。节目最后提出一个关键视角:未来的 AGI 也许不是一个巨大单体模型,而更像由通用层和无数专用型智能体组成的分布式智能社会。
👨⚕️ 本期嘉宾
Nenad Tomašev,Google DeepMind 高级主任研究科学家,长期研究人工智能、医疗 AI、多智能体系统与 AI 安全。他曾参与医学影像、放射学等高风险领域的机器学习研究,熟悉 AI 系统在真实世界部署时面临的可靠性、复核、责任与安全问题。正因为他既理解前沿模型能力,也熟悉高风险场景中的工程与治理约束,这期对话不是简单展望“AI 替人干活”的乐观叙事,而是从系统、经济、网络安全和社会整合多个层面,拆解智能体真正大规模落地前必须解决的问题。
⏱️ 时间戳
开场与节目背景
跨国串门计划开场:用 AI 声纹克隆翻译全球优质播客
本期克隆节目介绍:Google DeepMind《When millions of AI agents meet》
主持人与嘉宾:Hannah Fry 对谈 Nenad Tomašev
开场金句:智能体、清醒监督、信任与未来通用层
Google DeepMind 播客正式开始:从 AI 助手到 AI 智能体
核心问题:当数百万个智能体彼此交易、谈判、委托会怎样
什么是 AI 智能体
从基础开始:大语言模型和智能体到底有什么区别
智能体不是新概念:早于大语言模型的 AI 研究传统
智能体的核心定义:观察世界状态,并在环境中采取行动
语言模型只是续写回答,智能体会通过外层 harness 执行动作
自主性来自哪里:把一连串决策与多步骤行动串起来
敏感操作仍需要批准:人类输入不能轻易消失
使用体验:你仍在对话,但角色更像决策者和审批者
婚礼筹备例子:从推荐名单到真正发邮件、订供应商
工具访问权限:给 Gmail、钱包、网页后,智能体才真正能办事
“理想情况下”:智能体完成任务的前提是没有出错
智能体现在擅长什么
当前阶段:智能体最擅长的方向之一是编程
软件开发被加速:人类注意力回到想法和设计
为什么还要人在环路中:不是不能做,而是不可能百分百准确
错误可能很隐蔽:自动化偏见让人逐渐放松警惕
人不只是“在场”,还必须真正投入、保持清醒
长期冲击:AI 正在进入科学、数学等过去难以想象的领域
变化速度令人不安:这次适应窗口可能比工业革命更短
为什么要构建智能体:推动科学进步、改善健康和人类福利
自主性的争议:是否应该把更多行动权交给系统
智能体与科学自动化
Nenad 的核心梦想:用智能体加速科学研究
科学不只是好点子:还包括实验、观察、分析与闭环反馈
自主研究实验室:让智能体安排实验运行
真实世界接口必须有安全保护:材料、生物、电池都可能出事故
科学闭环比软件更难:物理实验才是反馈来源
当智能体能自主测试问题,人类角色在哪里
短期答案:当前系统还不是 AGI,人类仍有关键作用
这一代系统的能力边界:组合式延展人类已有技能
还没有深层科学变革:尚未出现人类完全想不到的发现
为什么现在才落地
智能体被谈论多年,为什么最近才真正走向普通人
早期窄智能体:数据中心优化、交易算法等已存在但不可交流
新变化:基于语言模型的智能体可以被对话、引导和影响
阻碍大规模部署的关键:不只是底层模型,而是协调与编排
用户将变成“团队管理者”:管理一队智能体的工作流
智能体会犯非人类式错误,也还不够了解你
幻觉与灾难性后果:为什么信任智能体是一大步
信任可以给予,但必须被赢得:声誉追踪与持续验证
委托、验证与复杂任务
智能体之间的委托:一个任务如何拆给专用智能体
复杂任务瓶颈:没有单个智能体能完成所有部分
智能体间协议:委托、失败管理与提前预防
判断可委托对象:可靠性、能力认证与恶意交互防护
大型活动类比:协调越复杂,出错点越多
多智能体系统现状:很多只是并行化,不是真正智能委托
随机拆任务的风险:买酒和买杯子的智能体可能互不理解
为什么软件场景更容易:单元测试让结果更可验证
奖励黑客:技术上完成请求,却违背真实意图
可验证性与正式契约:委托方和受托方必须定义清楚
可逆任务与不可逆任务:花钱、下单等现实后果需要更谨慎
反向委托:AI 也会把任务交给人类
医疗 AI 与人机协作
医疗 AI 背景:Nenad 曾长期研究医学场景
窄领域超人类系统:医学影像模型已能高水平识别病灶
AI 仍会出错:人类专家复核是重要配置
AI 先预测,不确定时标记给人类
最佳团队配置:AI 在不确定时把判断让给人类
即使 AI 超过人类,也需要人类处理不确定性和敏感操作
网络安全与智能体陷阱
网络安全问题:越来越多智能体在互联网互动,会被攻击
智能体式陷阱:大规模部署困难的主要原因之一
统计性失败:大量互动中,只要单次不可靠,系统就自然会失败
环境就是互联网:如果网页被投毒,智能体可能踩入陷阱
提示注入案例:酒商网站隐藏指令改变智能体目标
隐藏 token:网页中人类看不见、智能体会读到的内容
动态伪装:对人类和智能体展示不同页面
钱包权限风险:智能体可能被诱导转钱或执行恶意操作
一旦开放部署,攻击动机迅速增强
网页可能已进入“智能体生成、智能体消费”的阶段
网页分裂:给人看的版本与给智能体看的版本
如何缓解风险:无法控制整个网页时,怎么保护智能体
纵深防御与权限管理
网页安全并非新问题:附件病毒、钓鱼页面与资源验证
对抗样本类比:人类无感的微小修改也能攻击模型
护栏不能只盯智能体本身,也要看外部环境
纵深防御:没有单一方案能解决全部问题
一层层缓解措施:让安全网足够密
网页认证、资源信任、模型缓解与智能体侧防护
人类控制与权限最小化:被越狱时把损害降到最低
智能体经济:交易、拍卖与公平
什么是正式的智能体式经济
个人助理智能体:拥有持久记忆、偏好和部分自主性
给智能体预算:个人助理之间形成局部经济
演唱会门票例子:所有智能体同时抢票会怎样
拍卖机制是设计选择:公平性由系统规则决定
同等预算与偏好分配:让智能体代表真实需求行动
人群规模上的公平:机制设计决定资源分配结果
从门票到金融市场:智能体可能冲击高频交易与股票系统
向已有金融系统学习:不必重新发明风险缓解机制
AI 智能体的新问题:底层模型高度集中
认知单一文化:百万个相似决策者会制造相关故障点
智能体式群体思维与潜在串通
不直接通信也可能协调:需要反串通措施
为什么发布必须谨慎
安全担忧越具体,越能理解为什么要慢慢发布
自动驾驶类比:最后一公里往往最难
编排智能体不只是技术问题,也涉及政策和社会理解
现在不是完全自主经济,而是把 AI 整合进人类结构
另一面:智能体社会也可能像人类社会一样完成伟大事情
未来形态:专用型智能体社会
多智能体的真正价值:不只是并行提速,而是差异化分工
智能体经济需要专用型智能体,不只是通用型智能体
AGI 的 G 是通用,但经济终局未必是单一通用模型
国际象棋例子:专用引擎比通用模型更快、更准、更便宜
AGI 常见误区:把“人类水平智能”误解成“全人类水平智能”
未来可能不是一个巨型模型,而是专用智能体组成的社会
专用智能体可认证、低成本、更可靠,因此更符合经济逻辑
通用层像连接组织:知道全局,并负责编排具体任务
分布式智能与对齐挑战
分布式智能:更像人类社会,而不是单一 AGI
对齐问题改变:不再只是对齐一个模型
一万个智能体复杂互动时,系统本身都难以界定
经济激励可能成为分布式智能体社会的对齐起点
单个智能体安全仍是群体安全的前提
群体层面风险需要更多工作,而时间非常短
主持人总结:别只盯单个智能体,要看到智能体社会
未来图景:通用型、专用型、委托型智能体共同构成更大系统
也许目标不是复制一个人,而是复制全人类水平智能
🌟 精彩内容
💡 智能体的本质不是“会聊天”,而是“会行动”
Nenad 把智能体和普通大语言模型的区别讲得非常清楚:语言模型主要是在 prompt 后续写回答,而智能体会观察环境状态,并通过工具或外层系统真正改变世界。这也是为什么智能体一旦接入邮箱、网页、钱包、实验设备,风险和价值都会同时放大。
"智能体会观察世界的某种状态,然后在它所处的世界里、在给定的环境里采取行动。"
💡 人在环路中,不等于人真的在负责
节目最重要的安全提醒之一,是“human in the loop”不能只是形式上的审批按钮。如果智能体连续几次做对,人类很容易产生自动化偏见,开始默认它可靠,最终让隐蔽错误漏过去。真正的监督要求人保持注意力,而不是把责任外包给流程。
"人还必须真正投入,保持清醒。因为你一旦放松警惕,就等于在掷骰子。"
💡 信任智能体不是一次性授权,而是一种持续赢得的关系
面对会幻觉、会失败、会被攻击的智能体,Nenad 强调不能因为它“大多数时候可靠”就盲目信任。未来智能体系统可能需要声誉机制、持续验证、能力认证和任务风险分级:可逆任务可以大胆试,不可逆任务则必须谨慎授权。
"信任可以被给予,但也需要被赢得。"
💡 多智能体不是“多开几个模型”,而是委托、契约和失败管理
现在很多所谓多智能体系统,本质上只是把任务随机拆开并行处理,速度变快但不一定更聪明。真正的智能体委托,需要知道谁擅长什么、任务如何定义、失败如何处理、结果如何验证,以及委托方和受托方之间的正式契约。
"目前我们看到的很多多智能体系统,其实更像是在做并行化,而不是委托。"
💡 互联网会变成智能体的战场
当智能体开始浏览网页、读原始 HTML、执行购买和转账,网页本身就可能成为攻击面。隐藏 token、提示注入、动态伪装都可能让智能体在用户不知情的情况下改变目标。未来的网页可能不再主要围绕人类注意力,而会围绕智能体行为重新设计。
"如果环境本身被投毒了,如果陷阱已经布好了,智能体和互联网互动时就可能踩进去。"
💡 百万个相似智能体会制造“认知单一文化”
如果大量智能体都基于少数相似模型,它们可能在金融、拍卖、资源分配等场景中做出高度相关的决策。这会让个体错误变成群体性故障,类似群体思维,甚至可能出现不明显的协调和串通。因此未来不仅要让单个智能体安全,也要让智能体群体保持决策多样性。
"当你一下子部署几十万、几百万个人工决策者,而它们又倾向于做出相似决定时,故障点就会变得相关。"
💡 未来的 AGI 也许不是一个巨型大脑,而是一个智能体社会
Nenad 提出了一个很有启发性的终局想象:经济上最合理的形态,未必是一个昂贵、缓慢、无所不能的通用模型,而是一个通用编排层加上大量便宜、可靠、可认证的专用智能体。它更像人类社会的分工网络,而不是单个超级人类。
"也许未来会有某种更通用的通用层,像这个经济体的连接组织。它知道所有事情,也负责编排所有事情。"
💡 对齐一个社会,比对齐一个模型更难
如果未来智能不是单体模型,而是成千上万个智能体动态互动、委托、交易、向人类求助的分布式系统,那么传统“观察一个模型行为并调齐它”的方法远远不够。对齐将变成系统级、经济级、制度级问题,涉及激励、监管、权限、声誉和群体风险。
"当你有一万个智能体,以非常复杂的方式相互互动时,要突然对齐整个系统,或者甚至要知道这个系统到底是什么,都不是特别简单。"
```
🌐 播客信息补充
本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的
使用 AI 进行翻译,因此可能会有一些地方不通顺;
如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
