146: Gemini 3翻盘背后、Agent需要什么大模型、RL创业机会|与前 Google 创业者、硅谷投资人聊湾区动向

「一线开发者看到的前排变化。」

本期是 137 期 Agentic 工具链节目的嘉宾返场，Henry 和 Naomi，他们近期刚刚和普林斯顿 AI 加速创新中心联席主任，王梦迪教授，一起成立了一家新的早期 VC，MoE capital。

这次一起的也有两位之前在 Google DeepMind 和谷歌云 Vertex AI 平台工作 7 年，刚刚创业，成立 Agent 工具层公司 Precur 的戴涵俊和 Bethany。

我请他们分享了，岁末年初，在硅谷观察到的 AI 水温，OpenAI、Google 等一系列新模型进展背后的故事，和围绕当今 Agent 与 RL 生态的创业机会。

这是我们本年关于 Agent 的第 8 期节目。

本期嘉宾：
Bethany Wang，Precur 联创
戴涵俊，Precur 联创
Henry Yin，MoE Capital 创始合伙人
Naomi Xia，MoE Capital 创始合伙人

本期主播：
程曼祺，晚点 LatePost 科技报道负责人

时间线：
-基础模型竞争和幕后故事：Google 在旧金山开 Gemini 3 Party 的同一天，OpenAI 发布 GPT-5.2
06:11 AI 进入实用工作：OpenAI 的 GDPval，Databricks 也发布了 Office QA
14:25 GDPval 在主流知识工作上表现优秀，但基础模型处理长尾问题的 gap 始终存在
19:09 Gemini 3 后，OpenAI、Anthropic、Google、各自的进展
22:15 NotebookLM 和 Nano Banana 策源地——Google Labs，不仅招工程师，也有主编、作家、创作者
24:54 DeemMind 研究员 Orio：Gemini 3 的秘密？预训练还有很多空间；TPU 对 Google 训练的加持

26:34 Google 的 3 层协同优化：从 TPU 到 Infra 到模型；模型和应用；数据和硬件 surface（终端）
30:18 Google TPU 已经更多对外，这对英伟达 GPU 优势的影响
38:02 回顾组织变化：DeepMind 和 Google Brain 的合并与磨合

-大厂竞争中，新公司的成长：围绕 RL 与 Agent 的创业机会
43:31 垂类的机会：弥补基础模型到具体问题的差距；水平的机会：调度层、数据层、工具层都有新公司涌现
50:17 技术新趋势——自我演化：RL、用 RAG 加长记忆有人尝试，但远不是成熟方案
53:32「可训练的工具层」背后的技术变化：code 驱动工具，如 Anthropic 的 PTC（Programmatic Tool Calling）
59:44 RL 创业方向：RL 环境，RL as a Service，RL 应用
01:08:47 Agent 开发者挑选模型的前置条件：用什么云（比如 Azure 客户用不了 Gemini），再看云厂商折扣
01:12:20 Anthropic 的 Claude Code 已成为 Agent 核心，刚发布的 Promatic to Call 探索新开发范式
01:17:13 开源模型使用体验：Qwen 很棒；驶往 NeurIPS 的飞机上，1/3 人在看 DeepSeek-V3.2 技术报告
01:22:04 选择模型时，关注什么 benchmark & 为什么？
01:29:34 模型优化方向预测：加入大量 agent trace 的开源模型，更强的多模态，长程任务优化

01:38:58 连点成线：往期节目推荐

《晚点聊》今年关于 Agent 的更多节目：
晚点聊 106 期：与真格戴雨森长聊 Agent：各行业都会遭遇“李世石时刻”，Attention is not all you need

晚点聊 110 期：《与明势夏令聊Agent竞争：通用入口之战就要来，创业要做垂、做专》

晚点聊 111 期：Pokee.ai 朱哲清的 Agent 造法：强化学习作后端，语言模型作前端

晚点聊 130 期：手机Agent大幕拉开！从刚上线的AutoGLM 2.0聊起，大模型如何改造手机

晚点聊 136 期：Sora新世界 & Lovart 4个月复盘 | 与陈冕聊怎么做垂类Agent|

晚点聊 137 期：Agent 是机会，造 Agent 的工具也是|从OpenAI开发者日聊起

晚点聊 138 期：从你用手机到它更懂你，OPPO的手机AI实践 |与小布负责人万玉龙聊端侧AI

附录：
本期中提到的一些 benchmark：
-GDPVal：OpenAI 今年 10 月发布的、用于评估大模型在复杂推理与决策场景中“价值对齐与结果质量”的验证型 benchmark，强调输出是否符合人类偏好而不只是“做对题”。
-ARC-AGI-2：ARC Prize 今年 3 月发布的、用于测试模型在少样本条件下的抽象、组合推理能力，被视为接近“通用智能门槛”的挑战集。
-OfficeQA：Databricks 今年 12 月发布的、围绕办公场景（文档、表格、邮件、日程等）的 benchmark，用来评估模型在真实工作流中的信息检索、理解与执行能力。

本期中提到的一些产品/服务、公司
-PTC（Programmatic Tool Calling）：Anthropic 今年 11 月底发布的一种新的工具调用方法
www.anthropic.com
-Tinker：Thinking Machines Lab 今年 10 月发布的首个对外产品
thinkingmachines.ai
-Preference Model：一家旧金山初创企业，做强化学习环境

剪辑制作：甜食、Nick

小红书@曼祺_火柴Q即刻@曼祺_火柴Q

☆《晚点聊 LateTalk》建立「播客听友群」啦！☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：