146: Gemini 3翻盘背后、Agent需要什么大模型、RL创业机会,与前 Google 创业者、硅谷投资人聊湾区动向晚点聊 LateTalk

146: Gemini 3翻盘背后、Agent需要什么大模型、RL创业机会,与前 Google 创业者、硅谷投资人聊湾区动向

101分钟 ·
播放数21278
·
评论数54

「一线开发者看到的前排变化。」

本期是 137 期 Agentic 工具链节目的嘉宾返场,Henry 和 Naomi,他们近期刚刚和普林斯顿 AI 加速创新中心联席主任,王梦迪教授,一起成立了一家新的早期 VC,MoE capital。

这次一起的也有两位之前在 Google DeepMind 和 谷歌云 Vertex AI 平台工作 7 年,刚刚创业,成立 Agent 工具层公司 Precur 的戴涵俊和 Bethany。

我请他们分享了,岁末年初,在硅谷观察到的 AI 水温,OpenAI、Google 等一系列新模型进展背后的故事,和围绕当今 Agent 与 RL 生态的创业机会。

这是我们本年关于 Agent 的第 8 期节目。

本期嘉宾:
Bethany Wang,Precur 联创
戴涵俊,Precur 联创
Henry Yin,MoE Capital 创始合伙人
Naomi Xia,MoE Capital 创始合伙人

本期主播:
程曼祺,晚点 LatePost 科技报道负责人

时间线:
-基础模型竞争和幕后故事:Google 在旧金山开 Gemini 3 Party 的同一天,OpenAI 发布 GPT-5.2
06:11 AI 进入实用工作:OpenAI 的 GDPval,Databricks 也发布了 Office QA
14:25 GDPval 在主流知识工作上表现优秀,但基础模型处理长尾问题的 gap 始终存在
19:09 Gemini 3 后,OpenAI、Anthropic、Google、各自的进展
22:15 NotebookLM 和 Nano Banana 策源地——Google Labs,不仅招工程师,也有主编、作家、创作者
24:54 DeemMind 研究员 Orio:Gemini 3 的秘密?预训练还有很多空间;TPU 对 Google 训练的加持

26:34 Google 的 3 层协同优化:从 TPU 到 Infra 到模型;模型和应用;数据和硬件 surface(终端)
30:18 Google TPU 已经更多对外,这对英伟达 GPU 优势的影响
38:02 回顾组织变化:DeepMind 和 Google Brain 的合并与磨合

-大厂竞争中,新公司的成长:围绕 RL 与 Agent 的创业机会
43:31 垂类的机会:弥补基础模型到具体问题的差距;水平的机会:调度层、数据层、工具层都有新公司涌现
50:17 技术新趋势——自我演化:RL、用 RAG 加长记忆有人尝试,但远不是成熟方案
53:32「可训练的工具层」背后的技术变化:code 驱动工具,如 Anthropic 的 PTC(Programmatic Tool Calling)
59:44 RL 创业方向:RL 环境,RL as a Service,RL 应用
01:08:47 Agent 开发者挑选模型的前置条件:用什么云(比如 Azure 客户用不了 Gemini),再看云厂商折扣
01:12:20 Anthropic 的 Claude Code 已成为 Agent 核心,刚发布的 Promatic to Call 探索新开发范式
01:17:13 开源模型使用体验:Qwen 很棒;驶往 NeurIPS 的飞机上,1/3 人在看 DeepSeek-V3.2 技术报告
01:22:04 选择模型时,关注什么 benchmark & 为什么?
01:29:34 模型优化方向预测:加入大量 agent trace 的开源模型,更强的多模态,长程任务优化

01:38:58 连点成线:往期节目推荐

《晚点聊》今年关于 Agent 的更多节目:
晚点聊 106 期:与真格戴雨森长聊 Agent:各行业都会遭遇“李世石时刻”,Attention is not all you need

晚点聊 110 期:《与明势夏令聊Agent竞争:通用入口之战就要来,创业要做垂、做专》

晚点聊 111 期:Pokee.ai 朱哲清的 Agent 造法:强化学习作后端,语言模型作前端

晚点聊 130 期:手机Agent大幕拉开!从刚上线的AutoGLM 2.0聊起,大模型如何改造手机

晚点聊 136 期:Sora新世界 & Lovart 4个月复盘 | 与陈冕聊怎么做垂类Agent|

晚点聊 137 期:Agent 是机会,造 Agent 的工具也是|从OpenAI开发者日聊起

晚点聊 138 期:从你用手机到它更懂你,OPPO的手机AI实践 |与小布负责人万玉龙聊端侧AI

附录:
本期中提到的一些 benchmark:
-GDPVal:OpenAI 今年 10 月发布的、用于评估大模型在复杂推理与决策场景中“价值对齐与结果质量”的验证型 benchmark,强调输出是否符合人类偏好而不只是“做对题”。
-ARC-AGI-2:ARC Prize 今年 3 月发布的、用于测试模型在少样本条件下的抽象、组合推理能力,被视为接近“通用智能门槛”的挑战集。
-OfficeQA:Databricks 今年 12 月发布的、围绕办公场景(文档、表格、邮件、日程等)的 benchmark,用来评估模型在真实工作流中的信息检索、理解与执行能力。

本期中提到的一些产品/服务、公司
-PTC(Programmatic Tool Calling):Anthropic 今年 11 月底发布的一种新的工具调用方法
www.anthropic.com
-Tinker:Thinking Machines Lab 今年 10 月发布的首个对外产品
thinkingmachines.ai
-Preference Model:一家旧金山初创企业,做强化学习环境

剪辑制作:甜食、Nick

小红书@曼祺_火柴Q即刻@曼祺_火柴Q

☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:

展开Show Notes
阿斯特罗
阿斯特罗
2025.12.27
全是热门词汇的堆砌,前20分钟啥见解都没产出,一群浮夸又自满的职业打工人。
lukegao:生存技能而已
feizaiQ:在deepmind和google都待过的打工人,也不多吧,我觉得还是挺多干货的
works_YGNP
works_YGNP
2025.12.26
听着太累
Gigi_Wang
Gigi_Wang
2025.12.26
我是英语专八的 我绝不要这样说话
乐Yue言:那是你,但是别人想怎么说有他们的习惯和自由。
乘风而歌
乘风而歌
2025.12.29
小香蕉图片呢
恐龙卡车:我也是来看这个的
HD441606z
HD441606z
2025.12.29
干货满满,为啥还有这么多人挑刺中英文混杂呢
ParisLilijo:就是听feeling不好吧,完全listen不in😝
HD269954d
HD269954d
2025.12.28
装死你俩 …
Melody梅
Melody梅
2025.12.28
内容不是很懂,是同行之间的对话,感觉比较真实,但对纯中文听众的确不太友好。事实是,在美国工作时间长的人平时很多都这样说话,因为很多概念和词汇是从英文学的,能流利转化成中文需要很高的语言能力,对搞技术的人来说要求有点高。
abcdk
abcdk
2025.12.26
中英夹杂听起来费劲
兜兜就是我:我实在太费劲了 哈哈哈
反向弯曲
反向弯曲
2025.12.29
这集感觉干货满满,收益很多
我是小排
我是小排
2025.12.28
原始的 nano banana 的美甲照片呢?
曼祺_MatchQ
曼祺_MatchQ
2025.12.26
新一期~
与两位 Google 工作七年的创业者和 137 期的嘉宾 AGI house 的 Henry 和 Naomi 聊岁末年初的湾区动向。
IMBFD:43:18 纠正一下,原子弹是罗布泊,不是西柏坡噢。
feizaiQ
feizaiQ
2026.2.05
求问文中提到的code app的论文全名是啥?
feizaiQ:找到了,是codeAct。 EXECUTABLE CODE ACTIONS ELICIT BETTER LLM AGENTS
feizaiQ:https://arxiv.org/abs/2402.01030
Wendy文文
Wendy文文
2025.12.26
MoE Capital 这个名字起的不错
感觉对话剪辑没做好,听不懂每个人的问题和观点是啥,比较杂乱;建议重新搞搞
徐行Action
徐行Action
2025.12.27
06:47 在路上听到第6分钟,发现还是嘉宾在做以我介绍,我都有点恍惚
feizaiQ
feizaiQ
2026.2.05
也可以说是“前排一线开发者看到的变化”
feizaiQ
feizaiQ
2026.2.05
哇,这篇干货太多了!赞!
学cs的表示感觉听着挺好的哈哈
nano banana美甲照片怎么无💅
子洋Eric
子洋Eric
2026.1.13
47:58 挺有意思的认知