📝 本期播客简介
本期我们克隆了:知名科技播客《No Priors》的节目《Why Traditional Benchmarks Fail Modern AI Models with OpenAI Research Scientist Noam Brown》
原内容更新时间:2026-06-26
本期嘉宾是 OpenAI 研究科学家 Noam Brown,主持人是硅谷知名投资人、Conviction 创始人 Sarah Guo。Noam 是 AI 推理领域的先驱,也是推动“测试时计算扩展”这一概念进入主流视野的关键人物。三年前他第一次上节目时,很多人还没意识到让模型“多想想”意味着什么;三年后,推理时扩展已经成为行业最核心的竞争维度之一,但评估体系却远远没有跟上。
这期节目围绕 Noam 刚发表的一篇引发广泛共鸣的文章展开,核心论点直指行业痛点:传统的静态基准测试表格已经彻底失灵。当模型的能力本质上是你投入多少算力预算的函数时,用单一数字去比较模型就变得毫无意义。Noam 用 OpenAI 内部模型推翻 Erdős 单位距离猜想的案例说明,当前这代模型的能力上限远未被充分探索——如果你愿意花 10 万美元的推理预算,可能早在几个月前就能做出突破性成果。
如果你关心 AI 评估体系的未来、测试时计算的真实潜力、递归自我改进的进展节奏,以及前沿实验室之间的竞争格局,这期对谈会提供非常一手、非常诚实的内部视角。
👨⚕️ 本期嘉宾
Noam Brown,OpenAI 研究科学家,AI 推理与测试时计算扩展领域的先驱人物。他在加入 OpenAI 之前,曾在 Meta AI(原 Facebook AI Research)领导 Libratus 和 Pluribus 等扑克 AI 项目,后者是首个在六人无限注德州扑克中击败人类顶级玩家的 AI。Noam 长期关注如何让模型在推理阶段“思考更久”以获得更好的结果,这一理念如今已成为前沿模型能力提升的核心路径之一。
⏱️ 时间戳
开场与节目背景
欢迎收听跨国串门计划
本期克隆节目介绍:《No Priors》与 Noam Brown 对谈
Noam 关于测试时计算的核心观点预览
Sarah Guo 开场介绍 Noam Brown
基准测试为什么失灵了
Noam 写文章的动机:5.5 发布后的基准测试争议
传统基准测试表格的问题:只给单一数字
5.5 在基准测试上表现不佳的真正原因
为什么不让模型思考更久?平台期太遥远
GPT-3 时代 vs 现在:模型可以思考数周
正确的评估方式:按预算或绘制性能曲线
安全评估的盲区
网络安全评估:1 亿 token 预算下性能仍在提升
研究方向:用低预算预测高预算下的性能
刷榜问题:组合模型很容易做出好看的成绩
基准测试总面临被针对性优化的风险
应对办法:保留不公开的私有测试集
用扑克求解器测试模型推理能力
Noam 的个人评估方式:做扑克机器人
早期模型到 5.2 的演进:河牌求解器
5.2 的缺点:爱糊弄人
模型糊弄人的具体案例:92 美元 vs 100 美元
5.5 的飞跃:基本可以零样本完成
预测:六个月内模型可能完成整个博士论文
安全评估中的“房间里的大象”
安全评估与测试时计算的关系
责任缩放政策与准备框架的背景
这些框架建立时测试时计算还不是大事
核心问题:模型能力是你投入预算的函数
现有政策没有真正解决预算评估问题
正视这个被假装不存在的问题
模型发布周期与能力上限的探索
模型越来越强,能运作的时间跨度越来越长
发布周期两三个月,没人真正知道能力上限
slash goal 发布后人们才意识到长期任务的重要性
实验室在发布前充分评估模型非常困难
推翻 Erdős 单位距离猜想的故事
OpenAI 内部模型推翻 Erdős 单位距离猜想
在很低预算下模型就找到了反证
用 5.5 加通用脚手架也能得出反证
成本估算:1,000 到 100,000 美元
本来有人可以更早用通用模型做到
等待下一个模型 vs 充分探索当前模型
值不值得在当前模型上做大量实验
每个发布周期成本下降 10 到 100 倍
“等下一个模型发布就行”的梗
OpenAI 刻意不去遍历所有数学开放问题
重点应该放在做出更强的模型
递归自我改进与快速起飞
研究方向与资源分配的变化
澄清:给极高推理预算不等于全面超级智能
有些基准测试给再多预算也不会进步
研究品味目前还不太好
模型能优化算法但想不出更好的算法
每次新版本研究品味都会变好一些
递归自我改进的节奏
模型加速了一些事情,另一些没有
被没加速的事情卡住
渐进起飞而非一夜之间的智能爆炸
大规模测试时计算意味着被时间卡住
时间本身成为最大的瓶颈
多智能体与知识积累
多智能体探索得还不够
小规模下很难做好多智能体研究
人类文明的类比:数十亿人长时间思考与积累
AI 模型还做不到有机的知识积累与分享
Multibook 和 OpenCLAW 预示了未来方向
前沿竞争格局
三家前沿实验室之间的竞争
竞争非常激烈
模型正在加速研究人员的工作
所有前沿实验室都认识到利害关系和风险
竞争之外也可以一起走向积极结果
给用户的建议与行业共识
Noam 鼓励大家重新信任模型输出
日常使用案例:税务建议、购房文件
模型已经到了可以信任甚至比人更可靠的程度
研究社区里还没被充分理解的事
三年前的“愤愤不平”与现在的共识状态
写文章的动机:打破糟糕的均衡
所有人都知道表格不好但没人愿意打破
路由层与模型评估
专注特定领域的公司:路由层的价值
路由与基准测试的 x 轴问题
模型间共识确实能获得更好表现
关键问题:让单个模型思考更久会不会更好
路由可能更好但需要控制测试时计算量
🌟 精彩内容
💡 基准测试表格已经彻底失灵
Noam 指出,传统模型发布时那张 x 轴是基准测试、y 轴是分数的表格,在测试时计算时代已经毫无意义。因为模型的能力不是固定值,而是你投入多少算力的函数。不控制思考时间就对比模型,就像不控制车速就对比油耗。
"如果你在纸面上看 5.5 和 5.4 之间的差异,它确实有提升,但不是巨大的提升。等他们上手一用,看法就变了。"
💡 模型可以思考数周,平台期远未到来
GPT-3 时代模型思考几秒就到瓶颈,但现在的模型如果搭好框架,可以在某些任务上持续进步数周甚至数月。这意味着我们从未真正看到过当前模型的能力上限。
"如果你给它们搭建好合适的框架,它们可以思考数周,在某些基准测试上性能才会达到平台期。"
💡 安全评估在假装这个问题不存在
现有的安全评估框架大多建立在 ChatGPT 时代,那时候测试时计算还不是大事。但现在模型的能力是你投入预算的函数——一千万美元预算能做的事远超十美元预算。该在什么预算下评估模型的安全性?这个问题一直被回避。
"现有的准备框架和责任缩放政策,并没有真正考虑测试时计算量。问题在于,我们现在所处的世界,模型的能力基本上是你投入多少钱的函数。"
💡 推翻数学猜想的成本比你想象的低
OpenAI 用内部模型推翻了 Erdős 单位距离猜想,成本非常低。更惊人的是,用 5.5 加通用脚手架也能做到,成本大概在 1,000 到 100,000 美元之间。这意味着很多突破性成果其实早就可以实现,只是没人愿意花这个预算去试。
"本来有人可以在我们之前就用通用模型推翻 Erdős 单位距离猜想。只是没有人充分探索过,如果我把价值 100,000 美元的算力砸进 5.5,会发生什么?"
💡 时间本身成了最大的瓶颈
Noam 认为不会出现一夜之间的智能爆炸,因为模型极度依赖大规模测试时计算来达到最高智能。需要运行足够久才能做出真正强大的东西,这意味着时间本身成了瓶颈。这也是为什么所有研究人员都在拼命工作。
"如果需要那么多测试时计算才能解锁模型的全部能力,那就意味着你被时间卡住了。事情只能快到一定程度。"
💡 模型还做不到人类那种知识积累
人类文明的力量不在于个体在过去五万年里变聪明了,而在于数十亿人长时间思考并在彼此知识上构建。AI 模型目前还做不到这一点——它们诞生、存在于短上下文窗口、然后消失。
"这是一种非常有机的、涌现出来的特性,就是人类能够积累知识、分享知识,并在此基础上继续构建。我们现在在 AI 模型身上还看不到这一点。"
💡 所有人都知道基准测试表格不好,但没人愿意打破
Noam 写文章的深层动机是打破一种“糟糕的均衡”:每个实验室都知道静态表格有问题,但因为外界期望看到表格、因为所有人都在发布表格,就没人敢第一个改变。
"所有人的反应是,外界期望我们发布那个表格。那为什么外界会期望发布表格呢?因为每个人都在发布表格。于是你就陷入了一种糟糕的均衡。"
```
🌐 播客信息补充
本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的
使用 AI 进行翻译,因此可能会有一些地方不通顺;
如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
