📝 本期播客简介
本期Lex Fridman与两位AI领域的顶尖专家——Sebastian Raska和Nathan Lambert——展开了一场关于人工智能最前沿的深度对话。他们从2025年的"DeepSeek时刻"谈起,剖析了中美AI竞赛的格局、开源与闭源模型的生态演变,以及Transformer架构的技术本质。节目深入探讨了Scaling Laws在预训练、后训练和推理阶段的最新进展,特别是RLVR(可验证奖励强化学习)如何彻底改变了模型能力解锁的方式。三位嘉宾还分享了关于代码生成自动化的未来、AGI时间线的现实预期,以及个人如何在这个快速变化的领域找到定位的实用建议。这是一场既包含硬核技术细节、又充满哲学思考的思想盛宴。
翻译克隆自:#490 – State of AI in 2026: LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI
👨🔬 本期嘉宾
Sebastian Raska,机器学习研究员、作家,著有《从零开始构建大语言模型》和《从零开始构建推理模型》等畅销书,以其深入浅出的技术解释和从零实现的教学方法闻名。
Nathan Lambert,艾伦人工智能研究所(AI2)后训练团队负责人,RLHF(基于人类反馈的强化学习)领域权威,即将出版该主题专著。他是AI政策与开源模型"Adam项目"的积极推动者。
⏱️ 时间戳
00:00 开场与嘉宾介绍
AI竞争格局:谁领先?
06:17 DeepSeek时刻与中美AI竞赛
09:33 2025-2026年模型赢家预测
11:26 计算基础设施:TPU与GPU之争
15:20 智能与速度的权衡:模型使用体验
开源模型生态爆发
19:18 开源vs闭源:许可与商业模式
23:36 中国开源模型的崛起(DeepSeek、Kimi、MiniMax)
28:15 Llama的衰落与Meta的战略失误
31:48 GPT-OSS与工具使用的范式转变
技术架构深度解析
34:45 Transformer架构的演变与本质
36:38 混合专家模型(MoE)与注意力机制优化
40:49 文本扩散模型:下一代架构?
Scaling Laws与训练阶段
44:28 预训练、中训练、后训练的定义与区别
47:52 可验证奖励强化学习(RLVR)的革命性突破
53:23 推理时计算扩展(Inference Scaling)
56:01 数据质量、合成数据与数据污染
AI生成内容与教育
01:07:44 LLM生成内容对开源生态的影响
01:12:02 "声音"(Voice)的消失与RLHF的局限
01:18:13 编程教育的未来:挣扎与学习的本质
01:23:18 后训练技术栈全景(SFT、DPO、RLHF、RLVR)
个人发展路径
01:44:19 如何进入AI领域:从零实现 vs 使用工具
01:57:51 学术界vs工业界:职业选择的权衡
02:04:14 996文化与硅谷的过度工作现象
前沿应用与未来
02:29:01 文本扩散模型的规模化前景
02:33:22 工具使用与AI Agent的局限
02:43:44 持续学习与上下文窗口的扩展
02:52:21 机器人与世界模型
03:12:15 AGI与ASI时间线:超人类程序员的可能性
03:22:11 软件工程全自动化的经济影响
地缘政治与产业格局
03:35:38 Adam项目:美国开源模型的战略意义
03:44:32 Nvidia的护城河与硬件未来
03:49:56 关键人物决定历史:Jensen、Jobs与Elon
尾声
03:54:39 AI风险、人类文明希望与实体价值回归
🌟 精彩内容
🌍 中美AI竞赛新格局
Nathan Lambert指出,虽然美国模型目前仍领先,但中国开源模型(DeepSeek、Kimi、MiniMax等)正在通过开放权重策略迅速占领全球开发者心智。与西方开源模型的限制性许可不同,中国模型采用更开放的无限制协议,加上出口管制导致的部署差异,正在重塑全球AI基础设施格局。
"DeepSeek正在逐渐失去中国开源模型领头羊的位置...2026年的开源模型构建者会比2025年更多,而且很多知名的会来自中国。"
🧠 Scaling Laws的三重维度
节目详细拆解了现代AI训练的三种扩展方式:预训练(模型规模与数据)、强化学习扩展(RLVR训练时长)和推理时扩展(Test-time Compute)。Nathan强调,RLVR的突破性在于它展示了近乎线性的性能提升曲线,而传统的RLHF(人类反馈强化学习)很快就会遇到收益递减。
"推理时扩展带来的模型能力提升简直是跃迁式的...它让工具使用成为可能,也让我们刚才聊的那种更牛的软件工程变成现实。"
💻 编程自动化的现实与迷思
嘉宾们探讨了"超人类程序员"的概念,认为完全自主的代码生成仍面临挑战。Sebastian强调,虽然AI能处理繁琐任务,但复杂系统的架构设计和意图理解仍需人类主导。Nathan则指出,真正的突破可能在于"用英语编程"——从微观管理代码转向宏观设计指导。
"你得站在设计空间的宏观层面去引导它...我觉得这是另一种思考编程的方式。"
📚 后训练技术的心法
Nathan详细解释了后训练阶段的"三步走":中间训练(建立基础技能)、可验证奖励强化学习(RLVR,反复试错)和RLHF(收尾打磨)。他强调RLVR的核心是"解锁"预训练已有的知识,而非学习新知识,这种"格式化"过程让模型数学能力在50步内从15%跃升至50%。
"RLHF是模型的'点睛之笔'...但RLVR遵循缩放范式,你让最好的模型再跑十倍算力,性能就能提升几倍。"
🎓 给AI学习者的建议
Sebastian推荐从零实现小模型(如GPT-2)来建立扎实直觉,强调"代码不会撒谎"的可验证性。Nathan则建议找一个狭窄的研究方向深耕(如角色训练、评估方法),利用开源工具在有限算力下产生影响力,而非盲目追逐大模型训练。
"关掉互联网,专注看书的感觉很好...但第二阶段再用LLM来丰富体验。"
⚖️ 开源的战略价值与地缘政治
Nathan介绍了"Adam项目"(American Truly Open Models),强调美国需要本土高质量开源模型来应对中国开源生态的扩张。他认为开源不仅是技术问题,更是国家安全与全球影响力问题,但反对通过"防火墙"限制信息流动,主张以开放对抗开放。
"开源模型会成为AI研究的引擎...美国应该建最好的模型,这样最顶尖的研究就会在美国发生。"
🤖 AGI时间线的理性预期
嘉宾们对近期AGI(通用人工智能)持谨慎态度。Nathan认为"远程工作者"这一定义过于模糊,且AI能力"参差不齐"——在某些任务超人类,在其他任务(如分布式系统编程)仍很弱。Sebastian则强调计算(Computing)作为根本驱动力的历史地位。
"我觉得梦想其实在慢慢破灭...通用模型和专门化模型之间的张力会越来越大。"
🌐 播客信息补充
本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的
使用 AI 进行翻译,因此可能会有一些地方不通顺;
如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
