Google I/O '25 重磅发布：AI 全面升级，未来已来！

嘿大家！🌴 今天，我们来聊聊刚刚结束的 Google I/O '25 大会，这无疑是一场关于 AI 未来走向的盛宴。正如 Sundar Pitchai 所说，我们正处于 AI 平台转变的新阶段，数十年的研究正在成为现实，让全世界的人们受益。而本次大会的核心，无疑是 Google 在 Gemini 及其相关技术上取得的突破性进展。

Gemini 模型的飞跃：更智能、更强大、更高效

首先，是 Gemini 模型本身的巨大进步。Gemini 时代，Google 发布新模型的速度前所未有。自上次 I/O 以来，Google 已经发布了十几款模型和研究突破，推出了 20 多项主要的 AI 产品和功能。

Gemini 2.5 Pro 成为了核心。它的 ELO 分数（衡量进度的指标）自第一代 Gemini Pro 以来提高了 300 多点。Gemini 2.5 Pro 横扫 LaMarina 排行榜的所有类别，并在众多基准测试中达到了 最先进水平 (state-of-the-art)。它在编码方面也取得了快速进展，在 WebDev Arena 上排名第一，并超越了之前的版本。由于包含了 Learnm 模型，它也成为了学习领域的领先模型。

Gemini Flash 被称为最高效的主力模型，因其速度快、成本低而受到开发者欢迎。今天发布的更新版 2.5 Flash 在推理、代码和长上下文等关键基准上全面提升。它在 LM Arena 排行榜上仅次于 2.5 Pro。Flash 将于 6 月初全面推出，Pro 也将紧随其后。

Google 还引入了一种新的模式，称为 Deep Think，它将模型性能推向极限。Deep Think 使用最新的前沿研究，包括并行技术，以实现突破性的结果。它在 USA Mo 2025（目前最难的数学基准之一）和 live codebench（代码竞赛级别的困难基准）上取得了令人印象深刻的分数。Gemini 2.5 Pro Deep Think 正在通过 Gemini API 提供给可信测试人员。

AI 如何重塑 Google 核心产品

大会展示了 AI 如何深度整合并改变 Google 的核心产品体验：

搜索 (Search)：AI 正在使 Google 搜索更加智能、agentic（代理化）和个性化。AI Overviews（AI 概览）是第一个重要的进展。自去年推出以来，每月用户超过 15 亿。它们正在推动某些类型的查询增长超过 10%。
AI Mode（AI 模式）是搜索的下一个重大步骤。它将 AI 概览提升到了新的水平。AI 模式是搜索的全面重塑，以 Gemini 2.5 为核心。通过更高级的推理能力，用户可以提出更长、更复杂的问题，甚至进行后续提问。AI 模式今天开始在美国全面推出。
Personal Context（个人上下文）将使 AI 模式更加个性化。在用户许可下，AI 模式可以利用用户在 Google 应用（如 Gmail）中的相关信息，提供个性化建议，例如根据过去的预订推荐户外座位或根据订阅的邮件推荐艺术展览。
Deep Research（深度研究）功能也将引入 AI 模式。它使用查询扇出技术（Query Fanout）的增强版，可以代表用户发出几十甚至几百个搜索，并对这些信息进行推理，在几分钟内生成专家级的、完全引用的报告。
Complex Analysis 和 Data Visualization（复杂分析和数据可视化）功能今年夏天将首先应用于体育和金融问题。例如，用户可以询问特定运动员的统计数据，Search 可以生成表格或图表。
Live Multimodality（实时多模态）通过将 Project Astra 的实时功能引入 AI 模式来实现，称为 Search Live。用户可以使用相机向 Search 展示他们所看到的世界，并进行实时对话，获得帮助，例如 DIY 维修或识别物品。
Shopping（购物）体验也得到了增强。AI 模式整合了 Google 图片和包含 500 多亿产品列表的购物图谱信息。用户可以通过描述需求获得视觉灵感和个性化产品推荐。
全新的 Try On（试穿）功能允许用户上传照片，虚拟试穿衣服，看到衣服在自己身上的效果。这项技术使用专门训练的图像生成模型，能够准确呈现材料的折叠、拉伸和悬垂。
Agentic Checkout（代理结账）功能可以让 Search 在用户设定目标价格后持续检查商品价格，并在价格下降时通知用户，甚至在用户指导下直接完成购买。

Gemini 应用 (Gemini App)：Gemini 应用的目标是成为最个人化、最主动、最强大的 AI 助手。Personal Context（个人上下文）也在 Gemini 应用中推出。用户可以选择连接 Google 应用中的相关信息，使 Gemini 更加个性化和有用。
Proactive Capabilities（主动能力）将使 Gemini 能够预见用户的需求并提供帮助，例如根据日历安排为学生提供个性化复习资料或生成解释视频。
Gemini Live（Gemini 实时）功能的用户对话比文本对话长五倍。它现在包含相机和屏幕共享功能。这些功能正在 Android 和 iOS 上免费推出。未来几周，Gemini Live 将能够连接到 Calendar、Maps、Keep、Tasks 等应用。Project Astra 中的原型功能将逐步集成到 Gemini Live 中。
Deep Research（深度研究）在 Gemini 应用中得到更新，现在允许用户上传自己的文件进行研究，并且很快将支持研究 Google Drive 和 Gmail 中的内容。
Canvas 是 Gemini 的互动协作空间，现在可以将研究报告等内容一键转换为网页、信息图、测验甚至自定义播客。用户还可以在 Canvas 中与 Gemini 协作进行编码，创建互动体验。
最新的图像生成模型 Imagine 4 已引入 Gemini 应用。它的图像更丰富，色彩更细致，细节更精细，并且在处理文本和排版方面有了很大改进。Imagine 4 的超快速版本生成速度比之前的模型快 10 倍。
新的视频模型 V3 也已推出，并具备 原生音频生成能力。V3 可以生成音效、背景声音和对话，使生成的视频更加逼真和生动。

Chrome 中的 Gemini (Gemini in Chrome)：Gemini 将成为用户在桌面浏览网页时的 AI 助手，它能理解当前页面的上下文，回答相关问题，例如比较长页面上的评论。这项功能本周开始向美国地区的 Gemini 订阅用户推出。

代理与生态系统 (Agents and Ecosystem)

AI 正在向 代理 (Agents) 方向发展。代理是结合了先进 AI 模型智能和工具访问的系统，可以代表用户采取行动。

Project Mariner 是测试计算机使用能力（即代理与浏览器和其他软件交互的能力）的早期研究原型。它现在引入了多任务处理（可同时处理多达 10 个任务）和“教导并重复”功能（用户展示一次任务，它就能学习计划）。Mariner 的能力将通过 Gemini API 提供给开发者。

Google 正在构建一个代理生态系统所需的工具集，包括他们的 开放代理间协议 (open agent-to-agent protocol)，让代理之间可以互相交流。他们也支持 Anthropic 引入的模型上下文协议 (MCP)，让代理可以访问其他服务。Gemini SDK 现在与 MCP 工具兼容。

Agent Mode（代理模式）正在引入 Gemini 应用，例如帮助用户根据特定标准搜索公寓、查找房源信息，甚至安排参观。

前沿研究与未来愿景

Google 继续在 AI 研究前沿进行探索：

Project Starline 的 3D 视频技术取得了进展，推出了新的 AI 优先视频通信平台 Google Beam。Beam 使用新的视频模型将 2D 视频流转换为逼真的 3D 体验。这项技术也将应用于 Google Meet 的实时语音翻译功能，使其更加自然。

Project Astra 探索通用 AI 助手的未来能力，它可以理解周围的世界。它已经开始在 Gemini live 中以相机和屏幕共享功能的形式落地。它也支持帮助视障人士导航世界。

Gemini Diffusion 是一个新的实验性文本扩散模型，利用并行生成实现极低延迟，生成速度比 2.0 Flashlight 快五倍。

Google 的长期愿景之一是将 Gemini 扩展为 世界模型 (world model)。这样的模型可以像大脑一样模拟世界，制定计划和想象新体验。这体现在训练代理掌握复杂游戏、生成 3D 模拟环境以及视频模型 VO 对物理学的理解上。

Gemini Robotics 是一个经过微调的专业模型，用于教导机器人执行抓取、遵循指令和适应新任务等有用操作。

AI 的社会影响与应用

大会还展示了 AI 在解决现实世界问题方面的应用：

Project Astra 的技术被用于与 IRA 合作，帮助视障人士通过视频连接人工视觉翻译员，从而更好地导航世界。

Firesat 项目使用卫星图像和 AI 提供近乎实时的野火洞察，能够检测到很小的火灾。

在自然灾害中，AI 支持的无人机交付系统（如 Hurricane Helen Wing 项目）可以根据实时需求提供关键物资。

Google DeepMind 在科学发现方面取得了突破，例如 Alpha Proof、co-scientist、Alpha Revolve、Amy 和 AlphaFold 3，加速了数学、生命科学等领域的研究。

新的 Google AI 订阅计划

Google 推出了两个新的 AI 订阅计划：

Google AI Pro：全球可用，提供全套 AI 产品、更高的速率限制和特殊功能，包含了之前的 Gemini Advanced。

Google AI Ultra：面向“开拓者”，提供最高的速率限制、最新功能和产品的早期访问权。Ultra 用户将能访问 2.5 Pro Deep Think 模式（准备好后）和 Flow。该计划还包括 YouTube Premium 和大量存储空间。

Android XR 与 AI 的结合

AI 的能力也将扩展到新兴的设备形态 Android XR。Google 正与三星和高通合作构建 Android XR 平台，支持头戴设备和眼镜等多种设备。Gemini 将集成到 Android XR 设备中，理解用户的上下文和意图，提供帮助。例如，在 XR 中使用 Google Maps，或者在佩戴轻量级眼镜时获得及时信息。

结语

从 Gemini 模型的强大升级到 Search、Gemini 应用等核心产品的全面变革，再到 Agent、XR 等前沿领域的探索，Google I/O '25 向我们展示了 AI 正以惊人的速度从研究走向现实。正如大会上艺术家们使用 Lyria 和 Vio 探索创意边界，以及新的 AI 电影制作工具 Flow 的发布，AI 不仅是提升效率的工具，更是激发创造力和想象力的强大引擎。

本次大会传达的信息清晰：AI 的机会巨大，且正在以前所未有的速度普及。Google 致力于将 AI 的好处带给更多人，推动科学进步，并开启一个发现和奇迹的新黄金时代。