#411. 2026年AI全景解析：大模型、代码生成、Scaling Laws、中国AI崛起与AGI未来

📝 本期播客简介

本期Lex Fridman与两位AI领域的顶尖专家——Sebastian Raska和Nathan Lambert——展开了一场关于人工智能最前沿的深度对话。他们从2025年的"DeepSeek时刻"谈起，剖析了中美AI竞赛的格局、开源与闭源模型的生态演变，以及Transformer架构的技术本质。节目深入探讨了Scaling Laws在预训练、后训练和推理阶段的最新进展，特别是RLVR（可验证奖励强化学习）如何彻底改变了模型能力解锁的方式。三位嘉宾还分享了关于代码生成自动化的未来、AGI时间线的现实预期，以及个人如何在这个快速变化的领域找到定位的实用建议。这是一场既包含硬核技术细节、又充满哲学思考的思想盛宴。

翻译克隆自：#490 – State of AI in 2026: LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI

👨‍🔬 本期嘉宾

Sebastian Raska，机器学习研究员、作家，著有《从零开始构建大语言模型》和《从零开始构建推理模型》等畅销书，以其深入浅出的技术解释和从零实现的教学方法闻名。

Nathan Lambert，艾伦人工智能研究所（AI2）后训练团队负责人，RLHF（基于人类反馈的强化学习）领域权威，即将出版该主题专著。他是AI政策与开源模型"Adam项目"的积极推动者。

⏱️ 时间戳

00:00 开场与嘉宾介绍

AI竞争格局：谁领先？

06:17 DeepSeek时刻与中美AI竞赛

09:33 2025-2026年模型赢家预测

11:26 计算基础设施：TPU与GPU之争

15:20 智能与速度的权衡：模型使用体验

开源模型生态爆发

19:18 开源vs闭源：许可与商业模式

23:36 中国开源模型的崛起（DeepSeek、Kimi、MiniMax）

28:15 Llama的衰落与Meta的战略失误

31:48 GPT-OSS与工具使用的范式转变

技术架构深度解析

34:45 Transformer架构的演变与本质

36:38 混合专家模型（MoE）与注意力机制优化

40:49 文本扩散模型：下一代架构？

Scaling Laws与训练阶段

44:28 预训练、中训练、后训练的定义与区别

47:52 可验证奖励强化学习（RLVR）的革命性突破

53:23 推理时计算扩展（Inference Scaling）

56:01 数据质量、合成数据与数据污染

AI生成内容与教育

01:07:44 LLM生成内容对开源生态的影响

01:12:02 "声音"（Voice）的消失与RLHF的局限

01:18:13 编程教育的未来：挣扎与学习的本质

01:23:18 后训练技术栈全景（SFT、DPO、RLHF、RLVR）

个人发展路径

01:44:19 如何进入AI领域：从零实现 vs 使用工具

01:57:51 学术界vs工业界：职业选择的权衡

02:04:14 996文化与硅谷的过度工作现象

前沿应用与未来

02:29:01 文本扩散模型的规模化前景

02:33:22 工具使用与AI Agent的局限

02:43:44 持续学习与上下文窗口的扩展

02:52:21 机器人与世界模型

03:12:15 AGI与ASI时间线：超人类程序员的可能性

03:22:11 软件工程全自动化的经济影响

地缘政治与产业格局

03:35:38 Adam项目：美国开源模型的战略意义

03:44:32 Nvidia的护城河与硬件未来

03:49:56 关键人物决定历史：Jensen、Jobs与Elon

尾声

03:54:39 AI风险、人类文明希望与实体价值回归

🌟 精彩内容

🌍 中美AI竞赛新格局

Nathan Lambert指出，虽然美国模型目前仍领先，但中国开源模型（DeepSeek、Kimi、MiniMax等）正在通过开放权重策略迅速占领全球开发者心智。与西方开源模型的限制性许可不同，中国模型采用更开放的无限制协议，加上出口管制导致的部署差异，正在重塑全球AI基础设施格局。

"DeepSeek正在逐渐失去中国开源模型领头羊的位置...2026年的开源模型构建者会比2025年更多，而且很多知名的会来自中国。"

🧠 Scaling Laws的三重维度

节目详细拆解了现代AI训练的三种扩展方式：预训练（模型规模与数据）、强化学习扩展（RLVR训练时长）和推理时扩展（Test-time Compute）。Nathan强调，RLVR的突破性在于它展示了近乎线性的性能提升曲线，而传统的RLHF（人类反馈强化学习）很快就会遇到收益递减。

"推理时扩展带来的模型能力提升简直是跃迁式的...它让工具使用成为可能，也让我们刚才聊的那种更牛的软件工程变成现实。"

💻 编程自动化的现实与迷思

嘉宾们探讨了"超人类程序员"的概念，认为完全自主的代码生成仍面临挑战。Sebastian强调，虽然AI能处理繁琐任务，但复杂系统的架构设计和意图理解仍需人类主导。Nathan则指出，真正的突破可能在于"用英语编程"——从微观管理代码转向宏观设计指导。

"你得站在设计空间的宏观层面去引导它...我觉得这是另一种思考编程的方式。"

📚 后训练技术的心法

Nathan详细解释了后训练阶段的"三步走"：中间训练（建立基础技能）、可验证奖励强化学习（RLVR，反复试错）和RLHF（收尾打磨）。他强调RLVR的核心是"解锁"预训练已有的知识，而非学习新知识，这种"格式化"过程让模型数学能力在50步内从15%跃升至50%。

"RLHF是模型的'点睛之笔'...但RLVR遵循缩放范式，你让最好的模型再跑十倍算力，性能就能提升几倍。"

🎓 给AI学习者的建议

Sebastian推荐从零实现小模型（如GPT-2）来建立扎实直觉，强调"代码不会撒谎"的可验证性。Nathan则建议找一个狭窄的研究方向深耕（如角色训练、评估方法），利用开源工具在有限算力下产生影响力，而非盲目追逐大模型训练。

"关掉互联网，专注看书的感觉很好...但第二阶段再用LLM来丰富体验。"

⚖️ 开源的战略价值与地缘政治

Nathan介绍了"Adam项目"（American Truly Open Models），强调美国需要本土高质量开源模型来应对中国开源生态的扩张。他认为开源不仅是技术问题，更是国家安全与全球影响力问题，但反对通过"防火墙"限制信息流动，主张以开放对抗开放。

"开源模型会成为AI研究的引擎...美国应该建最好的模型，这样最顶尖的研究就会在美国发生。"

🤖 AGI时间线的理性预期

嘉宾们对近期AGI（通用人工智能）持谨慎态度。Nathan认为"远程工作者"这一定义过于模糊，且AI能力"参差不齐"——在某些任务超人类，在其他任务（如分布式系统编程）仍很弱。Sebastian则强调计算（Computing）作为根本驱动力的历史地位。

"我觉得梦想其实在慢慢破灭...通用模型和专门化模型之间的张力会越来越大。"

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的

使用 AI 进行翻译，因此可能会有一些地方不通顺；

如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight