#604.OpenAI Noam Brown:模型评估方式,正在错过 AI 真正的能力上限

#604.OpenAI Noam Brown:模型评估方式,正在错过 AI 真正的能力上限

35分钟 ·
播放数739
·
评论数0

📝 本期播客简介

本期我们克隆了:知名科技播客《No Priors》的节目《Why Traditional Benchmarks Fail Modern AI Models with OpenAI Research Scientist Noam Brown》

原内容更新时间:2026-06-26

本期嘉宾是 OpenAI 研究科学家 Noam Brown,主持人是硅谷知名投资人、Conviction 创始人 Sarah Guo。Noam 是 AI 推理领域的先驱,也是推动“测试时计算扩展”这一概念进入主流视野的关键人物。三年前他第一次上节目时,很多人还没意识到让模型“多想想”意味着什么;三年后,推理时扩展已经成为行业最核心的竞争维度之一,但评估体系却远远没有跟上。

这期节目围绕 Noam 刚发表的一篇引发广泛共鸣的文章展开,核心论点直指行业痛点:传统的静态基准测试表格已经彻底失灵。当模型的能力本质上是你投入多少算力预算的函数时,用单一数字去比较模型就变得毫无意义。Noam 用 OpenAI 内部模型推翻 Erdős 单位距离猜想的案例说明,当前这代模型的能力上限远未被充分探索——如果你愿意花 10 万美元的推理预算,可能早在几个月前就能做出突破性成果。

如果你关心 AI 评估体系的未来、测试时计算的真实潜力、递归自我改进的进展节奏,以及前沿实验室之间的竞争格局,这期对谈会提供非常一手、非常诚实的内部视角。

👨‍⚕️ 本期嘉宾

Noam Brown,OpenAI 研究科学家,AI 推理与测试时计算扩展领域的先驱人物。他在加入 OpenAI 之前,曾在 Meta AI(原 Facebook AI Research)领导 Libratus 和 Pluribus 等扑克 AI 项目,后者是首个在六人无限注德州扑克中击败人类顶级玩家的 AI。Noam 长期关注如何让模型在推理阶段“思考更久”以获得更好的结果,这一理念如今已成为前沿模型能力提升的核心路径之一。

⏱️ 时间戳

开场与节目背景

00:00 欢迎收听跨国串门计划

00:37 本期克隆节目介绍:《No Priors》与 Noam Brown 对谈

00:55 Noam 关于测试时计算的核心观点预览

02:27 Sarah Guo 开场介绍 Noam Brown

基准测试为什么失灵了

03:12 Noam 写文章的动机:5.5 发布后的基准测试争议

03:44 传统基准测试表格的问题:只给单一数字

04:14 5.5 在基准测试上表现不佳的真正原因

04:46 为什么不让模型思考更久?平台期太遥远

05:09 GPT-3 时代 vs 现在:模型可以思考数周

05:50 正确的评估方式:按预算或绘制性能曲线

安全评估的盲区

06:32 网络安全评估:1 亿 token 预算下性能仍在提升

07:01 研究方向:用低预算预测高预算下的性能

08:16 刷榜问题:组合模型很容易做出好看的成绩

09:04 基准测试总面临被针对性优化的风险

09:24 应对办法:保留不公开的私有测试集

用扑克求解器测试模型推理能力

09:48 Noam 的个人评估方式:做扑克机器人

10:24 早期模型到 5.2 的演进:河牌求解器

11:01 5.2 的缺点:爱糊弄人

11:20 模型糊弄人的具体案例:92 美元 vs 100 美元

11:47 5.5 的飞跃:基本可以零样本完成

11:58 预测:六个月内模型可能完成整个博士论文

安全评估中的“房间里的大象”

12:21 安全评估与测试时计算的关系

12:40 责任缩放政策与准备框架的背景

13:11 这些框架建立时测试时计算还不是大事

13:33 核心问题:模型能力是你投入预算的函数

13:55 现有政策没有真正解决预算评估问题

14:13 正视这个被假装不存在的问题

模型发布周期与能力上限的探索

15:09 模型越来越强,能运作的时间跨度越来越长

16:11 发布周期两三个月,没人真正知道能力上限

16:52 slash goal 发布后人们才意识到长期任务的重要性

17:07 实验室在发布前充分评估模型非常困难

推翻 Erdős 单位距离猜想的故事

17:35 OpenAI 内部模型推翻 Erdős 单位距离猜想

18:10 在很低预算下模型就找到了反证

18:32 用 5.5 加通用脚手架也能得出反证

19:01 成本估算:1,000 到 100,000 美元

19:09 本来有人可以更早用通用模型做到

等待下一个模型 vs 充分探索当前模型

19:32 值不值得在当前模型上做大量实验

19:41 每个发布周期成本下降 10 到 100 倍

19:52 “等下一个模型发布就行”的梗

20:18 OpenAI 刻意不去遍历所有数学开放问题

20:42 重点应该放在做出更强的模型

递归自我改进与快速起飞

21:18 研究方向与资源分配的变化

21:30 澄清:给极高推理预算不等于全面超级智能

21:49 有些基准测试给再多预算也不会进步

22:51 研究品味目前还不太好

23:28 模型能优化算法但想不出更好的算法

24:11 每次新版本研究品味都会变好一些

递归自我改进的节奏

24:32 模型加速了一些事情,另一些没有

24:44 被没加速的事情卡住

24:52 渐进起飞而非一夜之间的智能爆炸

25:28 大规模测试时计算意味着被时间卡住

25:48 时间本身成为最大的瓶颈

多智能体与知识积累

26:08 多智能体探索得还不够

26:28 小规模下很难做好多智能体研究

26:40 人类文明的类比:数十亿人长时间思考与积累

27:12 AI 模型还做不到有机的知识积累与分享

27:27 Multibook 和 OpenCLAW 预示了未来方向

前沿竞争格局

27:57 三家前沿实验室之间的竞争

28:26 竞争非常激烈

28:28 模型正在加速研究人员的工作

28:45 所有前沿实验室都认识到利害关系和风险

29:05 竞争之外也可以一起走向积极结果

给用户的建议与行业共识

29:22 Noam 鼓励大家重新信任模型输出

29:49 日常使用案例:税务建议、购房文件

30:05 模型已经到了可以信任甚至比人更可靠的程度

30:14 研究社区里还没被充分理解的事

30:34 三年前的“愤愤不平”与现在的共识状态

30:54 写文章的动机:打破糟糕的均衡

31:23 所有人都知道表格不好但没人愿意打破

路由层与模型评估

32:01 专注特定领域的公司:路由层的价值

32:47 路由与基准测试的 x 轴问题

33:01 模型间共识确实能获得更好表现

33:07 关键问题:让单个模型思考更久会不会更好

33:36 路由可能更好但需要控制测试时计算量

🌟 精彩内容

💡 基准测试表格已经彻底失灵

Noam 指出,传统模型发布时那张 x 轴是基准测试、y 轴是分数的表格,在测试时计算时代已经毫无意义。因为模型的能力不是固定值,而是你投入多少算力的函数。不控制思考时间就对比模型,就像不控制车速就对比油耗。

"如果你在纸面上看 5.5 和 5.4 之间的差异,它确实有提升,但不是巨大的提升。等他们上手一用,看法就变了。"

💡 模型可以思考数周,平台期远未到来

GPT-3 时代模型思考几秒就到瓶颈,但现在的模型如果搭好框架,可以在某些任务上持续进步数周甚至数月。这意味着我们从未真正看到过当前模型的能力上限。

"如果你给它们搭建好合适的框架,它们可以思考数周,在某些基准测试上性能才会达到平台期。"

💡 安全评估在假装这个问题不存在

现有的安全评估框架大多建立在 ChatGPT 时代,那时候测试时计算还不是大事。但现在模型的能力是你投入预算的函数——一千万美元预算能做的事远超十美元预算。该在什么预算下评估模型的安全性?这个问题一直被回避。

"现有的准备框架和责任缩放政策,并没有真正考虑测试时计算量。问题在于,我们现在所处的世界,模型的能力基本上是你投入多少钱的函数。"

💡 推翻数学猜想的成本比你想象的低

OpenAI 用内部模型推翻了 Erdős 单位距离猜想,成本非常低。更惊人的是,用 5.5 加通用脚手架也能做到,成本大概在 1,000 到 100,000 美元之间。这意味着很多突破性成果其实早就可以实现,只是没人愿意花这个预算去试。

"本来有人可以在我们之前就用通用模型推翻 Erdős 单位距离猜想。只是没有人充分探索过,如果我把价值 100,000 美元的算力砸进 5.5,会发生什么?"

💡 时间本身成了最大的瓶颈

Noam 认为不会出现一夜之间的智能爆炸,因为模型极度依赖大规模测试时计算来达到最高智能。需要运行足够久才能做出真正强大的东西,这意味着时间本身成了瓶颈。这也是为什么所有研究人员都在拼命工作。

"如果需要那么多测试时计算才能解锁模型的全部能力,那就意味着你被时间卡住了。事情只能快到一定程度。"

💡 模型还做不到人类那种知识积累

人类文明的力量不在于个体在过去五万年里变聪明了,而在于数十亿人长时间思考并在彼此知识上构建。AI 模型目前还做不到这一点——它们诞生、存在于短上下文窗口、然后消失。

"这是一种非常有机的、涌现出来的特性,就是人类能够积累知识、分享知识,并在此基础上继续构建。我们现在在 AI 模型身上还看不到这一点。"

💡 所有人都知道基准测试表格不好,但没人愿意打破

Noam 写文章的深层动机是打破一种“糟糕的均衡”:每个实验室都知道静态表格有问题,但因为外界期望看到表格、因为所有人都在发布表格,就没人敢第一个改变。

"所有人的反应是,外界期望我们发布那个表格。那为什么外界会期望发布表格呢?因为每个人都在发布表格。于是你就陷入了一种糟糕的均衡。"

```

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的

使用 AI 进行翻译,因此可能会有一些地方不通顺;

如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight