

Vol.10 对话小马智行楼天城:驯服脱缰的野马,让 AI 自我进化本期播客根据晚点Atuo对小马智行的文字报道《对话小马智行楼天城:驯服脱缰的野马,让 AI 自我进化》制作,作者晚点团队。 本期简介 本期对谈小马智行 CTO 楼天城,围绕 L4 Robotaxi 的技术路线、小马智行世界模型 1.0/2.0 的演进,以及 AI 如何改变自动驾驶研发范式展开。 楼天城认为,L4 Robotaxi 与 L2 量产智驾并不是同一条技术路径。单纯依赖人类驾驶数据的模仿学习,无法突破 L4 所需的安全性与泛化能力。小马智行从 2020 年开始转向世界模型与强化学习,用虚拟环境训练车端模型,并在近年进一步发展出具备自我诊断、自我反馈能力的世界模型 2.0。 对谈中,楼天城解释了为什么 L2 的积累很难直接迁移到 L4,为什么世界模型的核心不在于“有没有”,而在于“精度有多高”,以及 AI 正如何从辅助工程师,变成驱动研发流程的“裁判”和“任务分配者”。他还谈到 Robotaxi 的商业化扩张、高速与卡车场景、AI coding、物理 AI,以及他对世界模型终局的思考:从自动驾驶走向更广义的物理世界模型,甚至理解微观世界的运行机制。 核心要点 1. L4 Robotaxi 与 L2 量产智驾不是同一条技术路线。 楼天城认为,L2 因为有人类司机兜底,可以依靠数据规模和快速迭代推进;但 L4 必须在无人接管下保证极高安全性,单靠 L2 的量产积累无法自然走向 L4。 2. 模仿学习无法突破 L4 的能力天花板,世界模型与强化学习成为关键路径。 小马智行从 2020 年开始意识到,仅模仿人类驾驶很难继续提升 Robotaxi 表现,因此转向用虚拟环境生成场景、评估行为,并通过强化学习训练车端模型。 3. 世界模型 2.0 的核心变化,是让 AI 接管诊断、反馈和研发驱动。 相比 1.0 主要依赖工程师判断问题,2.0 会自动分析车端模型表现、识别薄弱场景并推动改进,楼天城将其视为 AI for development 的雏形。 4. 自动驾驶的竞争壁垒不只是模型,而是完整的物理 AI 系统。 Robotaxi 需要同时解决模型、仿真、传感器冗余、车端部署、安全机制、运营和监管问题,因此单一大模型能力并不能直接“降维打击”自动驾驶公司。 5. 世界模型的终局可能超越自动驾驶,走向更广义的物理世界建模。 楼天城认为,未来世界模型可能扩展到机器人、具身智能乃至微观物理世界,用 AI 帮助人类理解真实世界如何存在与运转。
Vol.9 我希望在30岁之前知道的8件事|Jay Shetty Podcast本期播客由 Enpleasure 译制和提供,中文音频版本可在 Enpleasure 上收听,英文视频版本可在 YouTube 上观看。 Enpleasure,是一个用母语收听外文播客的工具。如果你想体验更多可以使用母语收听的外文播客,欢迎访问 enpleasure.com ,开启你的探索之旅。 【本期简介】 在本期节目中,著名生活导师、畅销书作家 Jay Shetty 分享了他在30岁前希望自己能早点明白的8个深刻的人生教训。这些教训并非陈词滥调,而是源于心理学和人类行为学的深刻洞见,旨在帮助我们节省数年的压力、过度思考和精力浪费。 你是否也常常过度在意他人的眼光?总觉得忙碌就等于高效?害怕失去朋友,或是被过去的恐惧所困扰?Jay Shetty 将引导你重新审视工作、人际关系和自我认知,帮助你构建一个更有意义、更有目标感的生活,即使在混乱中也能找到内心的平静。 准备好接收这些能改变你未来十年的人生智慧了吗?让我们一起收听。 【核心要点】 * 01. 别活在“聚光灯”下: 你以为所有人都在关注你、评判你,但事实是,大家都在忙着担心自己。这就是心理学上的“聚光灯效应”。放下对他人的过度在意,你会获得巨大的自由。 * 02. 忙碌≠高效: 我们常常用忙碌来证明自己的价值,但这是一种错觉。真正的效率来自于有意义的成果,而非工作时长。警惕“无意义感”带来的职业倦怠,学会衡量结果,而不是消耗的时间。 * 03. 友谊会变,这是成长: 随着年龄增长,你的社交圈会自然缩小。这不是失败或背叛,而是大脑根据“社会情绪选择理论”做出的自然选择——我们开始追求更深层次、更有意义的情感连接,而不是更广的人脉。 * 04. 纪律比动力更可靠: 动力是情绪化的,会随着心情起伏;而纪律是系统化的,能帮你持续前行。与其等待那股转瞬即逝的动力,不如设计你的生活环境和系统,让正确的选择变得毫不费力。 * 05. 你的恐惧多是记忆,而非威胁: 你当下的许多恐惧,其实是过去某个负面经历的情感回响。你的大脑将过去的痛苦编码,让你在相似情境下产生应激反应。学会识别这一点,别让昨天的伤痛控制今天的你。 * 06. 归属感比意志力更能改变你: 人的身份认同是具有“传染性”的。想要改变一个习惯,最快的方式不是靠意志力硬扛,而是改变你所在的圈子,让自己归属于一个拥有你想要特质的群体中。 * 07. 好坏都不会永远持续: 当我们身处顺境时,会以为好日子永远不会结束;身处逆境时,又觉得痛苦将永无止境。这两种想法都是错的。生活是变化的,关键在于如何在起伏中保持内心的稳定,追求有意义的生活。 * 08. 找到你的内在平静: 无论外界环境如何混乱,最终的目标是学会专注,过一种有意义、有目标的生活,并在其中寻求内心的平静。
Vol.8 成年人的“玩乐”自救指南|The Psychology of your 20s本期播客由 Enpleasure 译制和提供,中文音频版本可在 Enpleasure 上收听,英文视频版本可在 YouTube 上观看。 Enpleasure,是一个用母语收听外文播客的工具。如果你想体验更多可以使用母语收听的外文播客,欢迎访问 enpleasure.com ,开启你的探索之旅。 节目简介 你是否也感觉,进入20多岁后,生活变得越来越严肃,自己好像“不会玩了”?每天被待办事项清单追着跑,总觉得有更重要、更“有意义”的事情等着我们去做,就连片刻的放松和享乐都伴随着一种负罪感。我们似乎忘记了,生活不仅仅是为了达成目标,更是为了体验和感受。 在这期播客中,我们将深入探讨为什么成年后的我们,尤其是20多岁的年轻人,会普遍经历这种“乐趣缺失”。我们将剖析背后的社会压力和心理机制,并为你提供一套切实可行的“寻乐”方法论。从重新定义“乐趣”与“快乐”的区别,到将玩耍心态融入日常,再到与朋友们进行“平行玩耍”…… 这不仅是一次心理学的探讨,更是一份邀请你重新拥抱生活乐趣的行动指南。 如果你也觉得生活变得沉重,渴望找回童年时那种纯粹的快乐,那么这期节目就是为你准备的。 核心要点 * “乐趣缺失”的普遍现象: 为什么大多数20多岁的年轻人都觉得自己不够快乐,并认为自己把生活看得太重了? * 快乐 vs. 乐趣: 快乐是一种心态,而乐趣是一种需要我们主动去“做”的行动。了解这个核心区别是找回快乐的第一步。 * 两种乐趣类型: “一类乐趣”(当下就很快乐)和“二类乐趣”(过程辛苦但事后回味无穷)分别是什么?如何在生活中平衡这两种体验? * 把“玩”放进日程表: 像对待工作会议一样,认真地为“乐趣”安排专属时间,这是将它重新纳入生活的最有效方法。 * 与朋友“平行玩耍”: 借鉴儿童发展心理学中的“平行游戏”概念,学习如何与朋友在同一个空间里各自做喜欢的事,享受高质量的陪伴。 * 游戏化你的生活: 如何把洗碗、打扫卫生等无聊的日常琐事,通过设置小挑战和奖励,变成一场有趣的游戏? * 唤醒你的“内在小孩”: 尝试用孩子的视角看待世界,做一些“傻气”但能让你开怀大笑的事,比如在没人的路上蹦跳、吃小时候爱吃的零食,重新连接那个最纯粹、最懂得快乐的自己。
Vol.7 如何打造不“丑”的AI产品?|AI Engineer本期播客由 Enpleasure 译制和提供,中文音频版本可在 Enpleasure 上收听,英文视频版本可在 YouTube 上观看。 Enpleasure,是一个用母语收听外文播客的工具。如果你想体验更多可以使用母语收听的外文播客,欢迎访问 enpleasure.com ,开启你的探索之旅。 节目简介 欢迎收听本期节目!在本期 AI Engineer World's Fair 的精彩分享中,我们邀请到了一位来自 Google 的产品专家,她将带我们深入探讨在当前这个充满变革与混乱的 AI 时代,产品开发的核心逻辑正在发生怎样的变化。 传统的软件开发角色界限日益模糊,产品、工程、设计甚至用户之间的协作模式正在被重塑。演讲者通过一个生动的“多层蛋糕”模型,为我们揭示了构建成功 AI 产品的全新框架:一切始于自我 (Self) 的清晰认知,延伸至高效协作的团队 (Team),再到精心打磨的产品 (Product),最终服务于真实用户 (Users)。 在这个过程中,我们如何在看似无序的混乱 (Chaos) 中发现并抓住转瞬即逝的机会 (Opportunity)?本期分享将为你提供一套清晰、可行的产品心法,帮助你避免陷入功能堆砌的陷阱,真正创造出能为用户带来新价值、甚至惊喜的 AI 产品。无论你是产品经理、工程师还是设计师,都能从中获得宝贵的启发。 核心要点 * 角色的融合: 在 AI 时代,产品、工程和设计等传统角色的界限正在模糊。团队中的每个人都需要具备更全面的能力,共同驱动产品前进。 * AI 产品开发的多层蛋糕模型: 自我 (Self): 产品构建的基石是个体,你的个人愿景、热情和认知决定了产品的起点。 团队 (Team): 团队是价值放大的关键,AI 工具正在成为团队中“看不见的成员”,极大地增强了团队的协作能力和效率。 产品 (Product): 如今我们使用的多数产品诞生于“前AI时代”。未来的产品将被重新定义,其形态和交互将发生根本性变革。 用户 (Users): 理解并超越用户预期是最终目标。 * 在混乱 (Chaos) 中寻找机会 (Opportunity): AI 带来的技术爆炸和角色模糊是巨大的混乱,但混乱中也蕴藏着前所未有的创新机会。产品人的核心任务就是在混乱中发现并“引爆”这些机会。 * 构建卓越 AI 产品的四大原则: 清晰度 (Clarity): 个人与团队必须对愿景、目标和品味有极致的清晰度。这是驱动一切行动的能量来源。 目的 (Purpose): 功能服务于目的。专注于为用户提供单一、核心的价值,避免成为功能堆砌的“厨房水槽 (Kitchen Sink)”。 信任 (Trust): 信任是 AI 产品的“氧气”。通过坦诚地展示技术边界、尊重用户数据和自主权来建立与用户的信任关系。 惊喜 (Delight): 在可靠地满足核心需求后,通过意想不到的方式超越用户预期,创造惊喜体验。这往往发生在技术能力与用户期待的巧妙结合处。 * 交付成果,而非能力: 最终的衡量标准是,你是在交付**“实际的新成果” (actual new outcomes),还是仅仅在展示“模型的能力” (model capabilities)**。成功的 AI 产品为用户解决了真实世界的问题,创造了新的价值。
Vol.6 不靠运气的财富与心智自由|Joe Rogan Experience本期播客由 Enpleasure 译制和提供,中文音频版本可在 Enpleasure 上收听,英文视频版本可在 YouTube 上观看。 Enpleasure,是一个用母语收听外文播客的工具。如果你想体验更多可以使用母语收听的外文播客,欢迎访问 enpleasure.com ,开启你的探索之旅。 【本期简介】 本期节目是著名播客 The Joe Rogan Experience 对硅谷传奇天使投资人、AngelList 联合创始人 Naval Ravikant 的一次深度访谈。Naval 不仅仅是一位成功的投资家,更被誉为“硅谷哲人”,他对财富、幸福和人生的思考,为生活在信息时代的我们提供了一份极具价值的“人生操作指南”。 在这场超过两小时的对话中,Naval 系统性地阐述了他关于如何实现财富自由、如何通过训练获得幸福、以及如何在信息过载的现代社会保持内心平静的完整框架。这不仅是一场关于商业与投资的讨论,更是一次触及生命本质的哲学探索。无论你是创业者、职场人,还是任何对个人成长与心智成熟感兴趣的人,都能从中获得深刻的启发。 【核心要点】 * 💰 财富创造的永恒公式: 普通人如何致富?Naval 提出了颠覆性的框架:特定知识 + 责任 + 杠杆。 为什么“出租时间”是通往财富自由的陷阱? 在信息时代,代码和媒体是属于每个人的新杠杆。 * 🧘 幸福是一种可以选择和学习的技能: “欲望,是你与自己签订的一份不快乐契약。”如何管理欲望,从源头上减少痛苦? 幸福的真正定义:不是狂喜,而是内心的平静 (Peace from mind, not peace of mind)。 Naval 分享了改变他人生的习惯,包括如何通过改变视角,将消极思维转变为积极思维。 * 📚 真正的学习是理解而非记忆: Naval 的阅读法:为什么他不追求读完每一本书,而是为了满足好奇心和建立坚实的“知识钢筋框架”? “专业化是为昆虫准备的”,为什么成为一个通才能让你在人生这场游戏中胜出? * 🚀 未来工作模式:信息时代正在逆转工业时代: 为什么未来每个人都将为自己工作,公司这种组织形式会逐渐瓦解? 他对全民基本收入 (UBI) 的批判性看法,以及为什么他认为 AI 威胁被严重夸大了。 * 🧠 在喧嚣中保持清醒: 现代社会最大的挑战是“富足病”——信息、食物、社交媒体的过度饱和。 Naval 的冥想心法:“无为的艺术”。冥想不是为了清空大脑,而是为了处理你积压多年的“精神收件箱”。 如何应对社交媒体和政治话语对独立思考能力的侵蚀? * 🌌 关于人生的终极问题: “每个人都有两次生命,第二次生命始于你意识到生命只有一次之时。” 人生的意义是什么?Naval 认为,这个问题的价值在于探索过程,而非寻找一个标准答案。
Vol.5 希望你能获得更多乐趣|Cal Newport本期播客由 Enpleasure 译制和提供,中文音频版本可在 Enpleasure 上收听,英文视频版本可在 YouTube 上观看。 Enpleasure,是一个用母语收听外文播客的工具。如果你想体验更多可以使用母语收听的外文播客,欢迎访问 enpleasure.com ,开启你的探索之旅。 节目简介 本期《深入》播客,Cal Newport 邀请到了传奇人物——《每周工作4小时》的作者、知名播客主 Tim Ferriss。 对话从一个意想不到的话题开始:Tim 最近与《爆炸猫》团队合作推出的一款名为 Coyote 的卡牌游戏。以此为切入点,他们深入探讨了 Tim 的创作哲学、职业生涯的演变,以及成功如何既赋予自由,又可能将其夺走。Tim 坦诚地分享了他从早期追求“迷你退休”的自由状态,到后来被自己的成功所“绑架”,再到有意识地进行“大撤退”(The Great Unsubscribe)以重获深度生活的心路历程。 这是一场关于如何设计生活、在喧嚣中找回深度,以及在不同人生阶段重新定义成功的深刻对话。如果你对深度生活、创作过程或 Tim Ferriss 本人感到好奇,这期节目不容错过。 核心要点 * Coyote 卡牌游戏背后的创作哲学:如何将一个简单的想法,通过原型测试、迭代和与顶尖设计师的合作,打造成一款成功的社交游戏。这背后体现了 Tim 对实体社交和“玩耍”(Play)价值的重视。 * 成功的双刃剑:Tim 分享了《每周工作四小时》带来的巨大成功,如何最初赋予了他前所未有的自由与深度,但随之而来的名声和责任又如何侵蚀了这种生活,让他一度陷入“为成功所困”的状态。 * “大撤退”(The Great Unsubscribe):面对无尽的机会和请求,Tim 讲述了他是如何有意识地进行“大撤退”,通过设定严格的规则和界限(比如拒绝几乎所有演讲),重新夺回对自己时间和精力的控制权,以回归深度工作和生活。 * “被设计出的奇迹”(Engineered Wonder)的力量:无论是写书、做播客还是设计游戏,Tim 强调了有意识地在生活中创造“玩耍”和“敬畏感”时刻的重要性,这不仅是娱乐,更是补充精力和激发创造力的关键。 * 拒绝的艺术与策略:成功带来了无限的机会,但也带来了巨大的干扰。Tim 分享了他如何建立系统性规则(如“半年不接受任何演讲邀约”)来批量拒绝请求,从而保护自己最重要的资源——时间和注意力。 * 跨界探索的方法论:从投资到播客,再到游戏设计,Tim 揭示了他进入一个全新领域并取得成功的学习模式,强调了学习密度、技能积累和人脉网络的重要性,而非仅仅关注项目本身的结果。
Vol.4 人人都对人工智能看走眼|The Knowledge Project本期节目,原本以英文视频播客形式发布于 YouTube 平台,后来由 Enpleasure 转译成中文音频播客。 Enpleasure,是一个用母语收听外文播客的工具。如果你想体验更多可以使用母语收听的外文播客,欢迎访问 enpleasure.com ,开启你的探索之旅。 节目简介 (Summary) 在本期 The Knowledge Project 播客中,主持人 Shane Parrish 与著名技术分析师 Benedict Evans 深入探讨了人工智能(AI)的现状与未来。Evans 提供了一个冷静且基于历史的视角,他认为 AI 并非是世界末日或堪比电力的革命性发明,而更像是继个人电脑、互联网和 iPhone 之后的下一次重大的“平台转移”(platform shift)。 他们探讨了谷歌、苹果等行业巨头如何应对这场变革,并回顾了柯达等公司在过去技术革命中的经验教训。对话还涉及了 AI 模型的商品化趋势、ChatGPT 等工具的真实用户使用模式、搜索的未来、苹果在 AI 竞赛中的独特地位,以及在一个快速发展的领域中进行监管的挑战。这期节目为听众提供了一个穿透炒作、关注技术如何被社会采纳和整合的深刻见解。 核心要点 (Takeaways) * AI 是平台转移,而非奇点:Benedict Evans 认为,理解当前 AI 热潮最准确的方式是将其视为一次重大的平台转移,其规模可与 PC、互联网或 iPhone 相提并论。虽然它具有变革性,但它遵循的是技术采纳的历史模式,而不是像电力发明那样的空前事件,也不是通往超级智能的必然路径。 * AI 模型正在商品化:Evans 指出,底层的语言模型(来自 OpenAI、Google 等)在能力上正变得越来越相似。对于大多数人来说,通过盲测很难分辨出哪个模型生成了特定的输出。这意味着长期的价值和差异化将可能来自于应用层、用户体验和分发渠道,而不仅仅是模型本身。 * “非连续性”是对谷歌的真正威胁:对于谷歌这样的行业巨头来说,主要的危险并非他们无法构建出色的 AI,而在于平台转移创造了一个“非连续性时刻”(moment of discontinuity)。在这个时刻,用户会重新考虑他们的默认行为。问题不再仅仅是“哪个搜索引擎更好?”,而是“搜索引擎是否是完成这项任务的正确工具?” 这为围绕 ChatGPT 等新工具形成新的用户习惯打开了大门。 * AI 使用的悖论:尽管 AI 的采纳曲线看起来很陡峭,但调查数据揭示了一个谜题:只有一小部分人每天使用 ChatGPT,而更多的人每周或每月才使用一次。Evans 提出了一个问题:为什么那些理解并认为它有用的人,却只每周回来一次?这表明,当前“空白对话框”式的交互界面尚未无缝融入大多数人的日常工作流程,不像智能手机或搜索引擎那样。 * 从历史中学习(柯达与行业巨头):以柯达和数码摄影为例,Evans 指出,行业巨头通常能预见到新技术的到来。柯达曾是数码相机的领导者,它的失败并非技术上的无知,而是无法从高利润的业务(胶卷)转向低利润、商品化的业务(数码相机),并且错过了真正的转变——在线照片分享(社交媒体)取代了打印。 * 监管应针对应用,而非技术本身:Evans 认为,将“AI”作为一个整体进行监管是错误的抽象层次。就像我们监管汽车(为了安全)和数据库(为了隐私),而不是监管“引擎”或“电子表格”一样,我们应该关注 AI 在特定应用中(如医疗诊断、贷款等)的具体危害,而不是试图监管底层模型本身。
Vol.3 你的医生不会告诉你的更年期真相 |Jay Shetty本期节目,最初以英文视频播客形式发布于 YouTube 平台,后来由 Enpleasure 转译成中文音频播客。 Enpleasure,是一个用母语收听外文播客的工具。如果你想体验更多可以使用母语收听的外文播客,欢迎访问 enpleasure.com ,开启你的探索之旅。 你有没有注意到自己的睡眠发生了变化?你是否有时比平常更焦虑?今天,Jay 与艾美奖获奖记者暨畅销书作者 Tamsen Fadal 坐下来,对健康与身心领域中最常被忽视的话题之一——更年期——展开对话。Tamsen 分享了她从困惑到发现再到倡导的个人旅程,剖析为何更年期长期被禁忌所笼罩,以及它如何不仅影响女性的身体,也影响她们的情绪、关系与职业。她们一起探讨了围绝经期那些常被隐藏的症状,从脑雾与焦虑,到睡眠紊乱与自信心流失,以及这些挑战如何渗透进生活的方方面面。Tamsen 解释了激素变化背后的科学机制,戳破了一些最大的迷思,并提出切实可行的解决之道——从生活方式的调整与压力管理,到激素治疗与社群支持。最重要的是,她提醒女性:最好的岁月并不在身后,而是在前方。 在这次访谈中,你将学到: * 如何识别围绝经期的早期迹象 * 如何区分围绝经期与绝经 * 如何在更年期期间支持你的家人 * 如何养成健康的中年习惯 * 如何在过渡期找到社群支持 * 如何在就诊时为自己发声并争取权益 每一次转变都伴随着挑战,但也蕴含着成长、智慧与焕新的可能。打破沉默、分享我们的经验并拥抱知识,我们不仅能减轻自己的负担,也能为他人创造被看见与被理解的空间。 致以爱与感激, Jay Shetty
Vol.2 为什么工作不会回报你的爱? | TED本期节目,由 Enpleasure 生成和提供。Enpleasure,是一个用母语收听外文播客的工具。如果你想体验更多可以使用母语收听的外文播客,欢迎访问 enpleasure.com ,开启你的探索之旅。 在本期“How to Be a Better Human”节目中,主持人 Chris Duffy 采访了 “Work Won’t Love You Back” 与 “From the Ashes” 的作者 Sarah Jaffe,探讨工作、生活与个人身份之间复杂的关系。Jaffe 分享了她在各类工作中的经历,从服务业岗位到新闻业,并讨论了我们对工作的投入如何会导致剥削与耗竭。对话还探讨了悲伤、团结等主题,以及重新审视我们与工作的关系、在工作之外寻找意义与认同的重要性,倡导改善工作条件和建设一个重视关怀与社区的社会。 要点 * 在餐厅当服务员能为新闻工作提供有用的技能,例如保持沉着以及与不同背景的人沟通。 * 2012 年的芝加哥教师工会主张,他们的工作条件与学生的学习条件直接相关,将其诉求定位为有利于整个社区。 * 由于关心被照料者的福祉,照护工作者的罢工在情感上可能比矿工更具挑战。 * 像煤矿等产业的消亡,会导致围绕这些工作建立的社会结构和社区支持体系的丧失。 * 美国劳动法保护工人结社并争取更好条件的权利,无论他们是否加入工会。 * 悲伤并非线性,而是周期性的,并且会以生理方式表现,影响健康与福祉。 * 提供物质支持(如食物和住所)的社会运动更有可能奏效。 * 个人的悲痛会削弱人们对社会“胡扯”的容忍度,并激发对世界的重新想象。 * 建立牢固的社会网络并提供互惠的关怀,对于应对个人与社会层面的挑战至关重要。 * 对联邦劳动力的攻击,削弱了这样一种观念:社会应当通过政府项目彼此照料。 参考 YouTube: Why Work Won’t Love You Back (and That’s OK) (w/ Sarah Jaffe) | How to Be a Better Human | TED
Vol.1 "nano-banana" 图像模型幕后的秘密 | Google for Developers本期节目,由 Enpleasure 生成和提供。Enpleasure,是一个用母语收听外文播客的工具。如果你想体验更多可以使用母语收听的外文播客,欢迎访问 enpleasure.com ,开启你的探索之旅。 在本期 “Release Notes” 中,来自 Google DeepMind 的 Logan Kilpatrick 与 Kaushik、Robert、Nicole 和 Mostafa(这支全新 Gemini 原生图像生成模型背后的团队)展开讨论。他们谈到了 Gemini 和 2.5 Flash 在图像生成与编辑能力方面的最新更新,强调了模型在质量、一致性和速度上的提升。团队分享了模型能力的示例,例如根据复杂提示创建图像、在多次编辑中保持角色一致性,以及在图像中生成文本。他们还深入探讨了评估图像生成模型的挑战、将文本渲染作为衡量整体图像质量的重要指标,以及图像理解与生成之间的相互作用。团队也触及了 Gemini 与 Imagine 模型的差异,重点关注使用场景和未来方向,包括聪明程度与图解准确性。 要点: * Gemini 原生图像生成模型在图像生成与编辑能力上实现了“巨大的质量飞跃”。 * 模型能够理解诸如“make it nano”这类模糊提示,展现了其创造力与世界知识。 * 通过自然语言指令在多次编辑中保持场景一致性,是新模型的一项关键进步。 * 文本渲染质量可作为评估模型整体图像质量与结构理解的一项有用指标。 * 原生图像生成模型可利用先前图像的多模态上下文来生成后续图像,从而产生更连贯且风格一致的输出。 * 交错式生成允许将复杂提示拆分为多个步骤,通过逐步编辑来生成高度细致、复杂的图像。 * Gemini 旨在将不同模态统一到一个模型中,以受益于知识迁移,并迈向 AGI。 * 来自先前模型的用户反馈(直接收集自 Twitter 等平台)被用于构建基准并改进模型在真实世界失效案例上的表现。 * 2.5 模型通过在保持角色核心特征的同时,允许从不同角度渲染角色,从而改进了角色一致性。 * 图像生成的一个关键未来方向是提升模型的“聪明程度”,使其能够生成超出用户最初设想的结果。 参考: Google for Developers:Behind the scenes of Google's state-of-the-art "nano-banana" image model