嘿大家!🌴 今天,我们来聊聊刚刚结束的 Google I/O '25 大会,这无疑是一场关于 AI 未来走向的盛宴。正如 Sundar Pitchai 所说,我们正处于 AI 平台转变的新阶段,数十年的研究正在成为现实,让全世界的人们受益。而本次大会的核心,无疑是 Google 在 Gemini 及其相关技术上取得的突破性进展。
Gemini 模型的飞跃:更智能、更强大、更高效
首先,是 Gemini 模型本身的巨大进步。Gemini 时代,Google 发布新模型的速度前所未有。自上次 I/O 以来,Google 已经发布了十几款模型和研究突破,推出了 20 多项主要的 AI 产品和功能。
- Gemini 2.5 Pro 成为了核心。它的 ELO 分数(衡量进度的指标)自第一代 Gemini Pro 以来提高了 300 多点。Gemini 2.5 Pro 横扫 LaMarina 排行榜的所有类别,并在众多基准测试中达到了 最先进水平 (state-of-the-art)。它在编码方面也取得了快速进展,在 WebDev Arena 上排名第一,并超越了之前的版本。由于包含了 Learnm 模型,它也成为了学习领域的领先模型。
- Gemini Flash 被称为最高效的主力模型,因其速度快、成本低而受到开发者欢迎。今天发布的更新版 2.5 Flash 在推理、代码和长上下文等关键基准上全面提升。它在 LM Arena 排行榜上仅次于 2.5 Pro。Flash 将于 6 月初全面推出,Pro 也将紧随其后。
- Google 还引入了一种新的模式,称为 Deep Think,它将模型性能推向极限。Deep Think 使用最新的前沿研究,包括并行技术,以实现突破性的结果。它在 USA Mo 2025(目前最难的数学基准之一)和 live codebench(代码竞赛级别的困难基准)上取得了令人印象深刻的分数。Gemini 2.5 Pro Deep Think 正在通过 Gemini API 提供给可信测试人员。
AI 如何重塑 Google 核心产品
大会展示了 AI 如何深度整合并改变 Google 的核心产品体验:
- 搜索 (Search):AI 正在使 Google 搜索更加智能、agentic(代理化)和个性化。AI Overviews(AI 概览)是第一个重要的进展。自去年推出以来,每月用户超过 15 亿。它们正在推动某些类型的查询增长超过 10%。
AI Mode(AI 模式)是搜索的下一个重大步骤。它将 AI 概览提升到了新的水平。AI 模式是搜索的全面重塑,以 Gemini 2.5 为核心。通过更高级的推理能力,用户可以提出更长、更复杂的问题,甚至进行后续提问。AI 模式今天开始在美国全面推出。
Personal Context(个人上下文)将使 AI 模式更加个性化。在用户许可下,AI 模式可以利用用户在 Google 应用(如 Gmail)中的相关信息,提供个性化建议,例如根据过去的预订推荐户外座位或根据订阅的邮件推荐艺术展览。
Deep Research(深度研究)功能也将引入 AI 模式。它使用查询扇出技术(Query Fanout)的增强版,可以代表用户发出几十甚至几百个搜索,并对这些信息进行推理,在几分钟内生成专家级的、完全引用的报告。
Complex Analysis 和 Data Visualization(复杂分析和数据可视化)功能今年夏天将首先应用于体育和金融问题。例如,用户可以询问特定运动员的统计数据,Search 可以生成表格或图表。
Live Multimodality(实时多模态)通过将 Project Astra 的实时功能引入 AI 模式来实现,称为 Search Live。用户可以使用相机向 Search 展示他们所看到的世界,并进行实时对话,获得帮助,例如 DIY 维修或识别物品。
Shopping(购物)体验也得到了增强。AI 模式整合了 Google 图片和包含 500 多亿产品列表的购物图谱信息。用户可以通过描述需求获得视觉灵感和个性化产品推荐。
全新的 Try On(试穿)功能允许用户上传照片,虚拟试穿衣服,看到衣服在自己身上的效果。这项技术使用专门训练的图像生成模型,能够准确呈现材料的折叠、拉伸和悬垂。
Agentic Checkout(代理结账)功能可以让 Search 在用户设定目标价格后持续检查商品价格,并在价格下降时通知用户,甚至在用户指导下直接完成购买。 - Gemini 应用 (Gemini App):Gemini 应用的目标是成为最个人化、最主动、最强大的 AI 助手。Personal Context(个人上下文)也在 Gemini 应用中推出。用户可以选择连接 Google 应用中的相关信息,使 Gemini 更加个性化和有用。
Proactive Capabilities(主动能力)将使 Gemini 能够预见用户的需求并提供帮助,例如根据日历安排为学生提供个性化复习资料或生成解释视频。
Gemini Live(Gemini 实时)功能的用户对话比文本对话长五倍。它现在包含相机和屏幕共享功能。这些功能正在 Android 和 iOS 上免费推出。未来几周,Gemini Live 将能够连接到 Calendar、Maps、Keep、Tasks 等应用。Project Astra 中的原型功能将逐步集成到 Gemini Live 中。
Deep Research(深度研究)在 Gemini 应用中得到更新,现在允许用户上传自己的文件进行研究,并且很快将支持研究 Google Drive 和 Gmail 中的内容。
Canvas 是 Gemini 的互动协作空间,现在可以将研究报告等内容一键转换为网页、信息图、测验甚至自定义播客。用户还可以在 Canvas 中与 Gemini 协作进行编码,创建互动体验。
最新的图像生成模型 Imagine 4 已引入 Gemini 应用。它的图像更丰富,色彩更细致,细节更精细,并且在处理文本和排版方面有了很大改进。Imagine 4 的超快速版本生成速度比之前的模型快 10 倍。
新的视频模型 V3 也已推出,并具备 原生音频生成能力。V3 可以生成音效、背景声音和对话,使生成的视频更加逼真和生动。 - Chrome 中的 Gemini (Gemini in Chrome):Gemini 将成为用户在桌面浏览网页时的 AI 助手,它能理解当前页面的上下文,回答相关问题,例如比较长页面上的评论。这项功能本周开始向美国地区的 Gemini 订阅用户推出。
代理与生态系统 (Agents and Ecosystem)
AI 正在向 代理 (Agents) 方向发展。代理是结合了先进 AI 模型智能和工具访问的系统,可以代表用户采取行动。
- Project Mariner 是测试计算机使用能力(即代理与浏览器和其他软件交互的能力)的早期研究原型。它现在引入了多任务处理(可同时处理多达 10 个任务)和“教导并重复”功能(用户展示一次任务,它就能学习计划)。Mariner 的能力将通过 Gemini API 提供给开发者。
- Google 正在构建一个代理生态系统所需的工具集,包括他们的 开放代理间协议 (open agent-to-agent protocol),让代理之间可以互相交流。他们也支持 Anthropic 引入的模型上下文协议 (MCP),让代理可以访问其他服务。Gemini SDK 现在与 MCP 工具兼容。
- Agent Mode(代理模式)正在引入 Gemini 应用,例如帮助用户根据特定标准搜索公寓、查找房源信息,甚至安排参观。
前沿研究与未来愿景
Google 继续在 AI 研究前沿进行探索:
- Project Starline 的 3D 视频技术取得了进展,推出了新的 AI 优先视频通信平台 Google Beam。Beam 使用新的视频模型将 2D 视频流转换为逼真的 3D 体验。这项技术也将应用于 Google Meet 的实时语音翻译功能,使其更加自然。
- Project Astra 探索通用 AI 助手的未来能力,它可以理解周围的世界。它已经开始在 Gemini live 中以相机和屏幕共享功能的形式落地。它也支持帮助视障人士导航世界。
- Gemini Diffusion 是一个新的实验性文本扩散模型,利用并行生成实现极低延迟,生成速度比 2.0 Flashlight 快五倍。
- Google 的长期愿景之一是将 Gemini 扩展为 世界模型 (world model)。这样的模型可以像大脑一样模拟世界,制定计划和想象新体验。这体现在训练代理掌握复杂游戏、生成 3D 模拟环境以及视频模型 VO 对物理学的理解上。
- Gemini Robotics 是一个经过微调的专业模型,用于教导机器人执行抓取、遵循指令和适应新任务等有用操作。
AI 的社会影响与应用
大会还展示了 AI 在解决现实世界问题方面的应用:
- Project Astra 的技术被用于与 IRA 合作,帮助视障人士通过视频连接人工视觉翻译员,从而更好地导航世界。
- Firesat 项目使用卫星图像和 AI 提供近乎实时的野火洞察,能够检测到很小的火灾。
- 在自然灾害中,AI 支持的无人机交付系统(如 Hurricane Helen Wing 项目)可以根据实时需求提供关键物资。
- Google DeepMind 在科学发现方面取得了突破,例如 Alpha Proof、co-scientist、Alpha Revolve、Amy 和 AlphaFold 3,加速了数学、生命科学等领域的研究。
新的 Google AI 订阅计划
Google 推出了两个新的 AI 订阅计划:
- Google AI Pro:全球可用,提供全套 AI 产品、更高的速率限制和特殊功能,包含了之前的 Gemini Advanced。
- Google AI Ultra:面向“开拓者”,提供最高的速率限制、最新功能和产品的早期访问权。Ultra 用户将能访问 2.5 Pro Deep Think 模式(准备好后)和 Flow。该计划还包括 YouTube Premium 和大量存储空间。
Android XR 与 AI 的结合
AI 的能力也将扩展到新兴的设备形态 Android XR。Google 正与三星和高通合作构建 Android XR 平台,支持头戴设备和眼镜等多种设备。Gemini 将集成到 Android XR 设备中,理解用户的上下文和意图,提供帮助。例如,在 XR 中使用 Google Maps,或者在佩戴轻量级眼镜时获得及时信息。
结语
从 Gemini 模型的强大升级到 Search、Gemini 应用等核心产品的全面变革,再到 Agent、XR 等前沿领域的探索,Google I/O '25 向我们展示了 AI 正以惊人的速度从研究走向现实。正如大会上艺术家们使用 Lyria 和 Vio 探索创意边界,以及新的 AI 电影制作工具 Flow 的发布,AI 不仅是提升效率的工具,更是激发创造力和想象力的强大引擎。
本次大会传达的信息清晰:AI 的机会巨大,且正在以前所未有的速度普及。Google 致力于将 AI 的好处带给更多人,推动科学进步,并开启一个发现和奇迹的新黄金时代。
未来已来,你准备好了吗?✨