#411. 2026年AI全景解析:大模型、代码生成、Scaling Laws、中国AI崛起与AGI未来

#411. 2026年AI全景解析:大模型、代码生成、Scaling Laws、中国AI崛起与AGI未来

236分钟 ·
播放数12068
·
评论数23

📝 本期播客简介

本期Lex Fridman与两位AI领域的顶尖专家——Sebastian Raska和Nathan Lambert——展开了一场关于人工智能最前沿的深度对话。他们从2025年的"DeepSeek时刻"谈起,剖析了中美AI竞赛的格局、开源与闭源模型的生态演变,以及Transformer架构的技术本质。节目深入探讨了Scaling Laws在预训练、后训练和推理阶段的最新进展,特别是RLVR(可验证奖励强化学习)如何彻底改变了模型能力解锁的方式。三位嘉宾还分享了关于代码生成自动化的未来、AGI时间线的现实预期,以及个人如何在这个快速变化的领域找到定位的实用建议。这是一场既包含硬核技术细节、又充满哲学思考的思想盛宴。

翻译克隆自:#490 – State of AI in 2026: LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI

👨‍🔬 本期嘉宾

Sebastian Raska,机器学习研究员、作家,著有《从零开始构建大语言模型》和《从零开始构建推理模型》等畅销书,以其深入浅出的技术解释和从零实现的教学方法闻名。

Nathan Lambert,艾伦人工智能研究所(AI2)后训练团队负责人,RLHF(基于人类反馈的强化学习)领域权威,即将出版该主题专著。他是AI政策与开源模型"Adam项目"的积极推动者。

⏱️ 时间戳

00:00 开场与嘉宾介绍

AI竞争格局:谁领先?

06:17 DeepSeek时刻与中美AI竞赛

09:33 2025-2026年模型赢家预测

11:26 计算基础设施:TPU与GPU之争

15:20 智能与速度的权衡:模型使用体验

开源模型生态爆发

19:18 开源vs闭源:许可与商业模式

23:36 中国开源模型的崛起(DeepSeek、Kimi、MiniMax)

28:15 Llama的衰落与Meta的战略失误

31:48 GPT-OSS与工具使用的范式转变

技术架构深度解析

34:45 Transformer架构的演变与本质

36:38 混合专家模型(MoE)与注意力机制优化

40:49 文本扩散模型:下一代架构?

Scaling Laws与训练阶段

44:28 预训练、中训练、后训练的定义与区别

47:52 可验证奖励强化学习(RLVR)的革命性突破

53:23 推理时计算扩展(Inference Scaling)

56:01 数据质量、合成数据与数据污染

AI生成内容与教育

01:07:44 LLM生成内容对开源生态的影响

01:12:02 "声音"(Voice)的消失与RLHF的局限

01:18:13 编程教育的未来:挣扎与学习的本质

01:23:18 后训练技术栈全景(SFT、DPO、RLHF、RLVR)

个人发展路径

01:44:19 如何进入AI领域:从零实现 vs 使用工具

01:57:51 学术界vs工业界:职业选择的权衡

02:04:14 996文化与硅谷的过度工作现象

前沿应用与未来

02:29:01 文本扩散模型的规模化前景

02:33:22 工具使用与AI Agent的局限

02:43:44 持续学习与上下文窗口的扩展

02:52:21 机器人与世界模型

03:12:15 AGI与ASI时间线:超人类程序员的可能性

03:22:11 软件工程全自动化的经济影响

地缘政治与产业格局

03:35:38 Adam项目:美国开源模型的战略意义

03:44:32 Nvidia的护城河与硬件未来

03:49:56 关键人物决定历史:Jensen、Jobs与Elon

尾声

03:54:39 AI风险、人类文明希望与实体价值回归

🌟 精彩内容

🌍 中美AI竞赛新格局

Nathan Lambert指出,虽然美国模型目前仍领先,但中国开源模型(DeepSeek、Kimi、MiniMax等)正在通过开放权重策略迅速占领全球开发者心智。与西方开源模型的限制性许可不同,中国模型采用更开放的无限制协议,加上出口管制导致的部署差异,正在重塑全球AI基础设施格局。

"DeepSeek正在逐渐失去中国开源模型领头羊的位置...2026年的开源模型构建者会比2025年更多,而且很多知名的会来自中国。"

🧠 Scaling Laws的三重维度

节目详细拆解了现代AI训练的三种扩展方式:预训练(模型规模与数据)、强化学习扩展(RLVR训练时长)和推理时扩展(Test-time Compute)。Nathan强调,RLVR的突破性在于它展示了近乎线性的性能提升曲线,而传统的RLHF(人类反馈强化学习)很快就会遇到收益递减。

"推理时扩展带来的模型能力提升简直是跃迁式的...它让工具使用成为可能,也让我们刚才聊的那种更牛的软件工程变成现实。"

💻 编程自动化的现实与迷思

嘉宾们探讨了"超人类程序员"的概念,认为完全自主的代码生成仍面临挑战。Sebastian强调,虽然AI能处理繁琐任务,但复杂系统的架构设计和意图理解仍需人类主导。Nathan则指出,真正的突破可能在于"用英语编程"——从微观管理代码转向宏观设计指导。

"你得站在设计空间的宏观层面去引导它...我觉得这是另一种思考编程的方式。"

📚 后训练技术的心法

Nathan详细解释了后训练阶段的"三步走":中间训练(建立基础技能)、可验证奖励强化学习(RLVR,反复试错)和RLHF(收尾打磨)。他强调RLVR的核心是"解锁"预训练已有的知识,而非学习新知识,这种"格式化"过程让模型数学能力在50步内从15%跃升至50%。

"RLHF是模型的'点睛之笔'...但RLVR遵循缩放范式,你让最好的模型再跑十倍算力,性能就能提升几倍。"

🎓 给AI学习者的建议

Sebastian推荐从零实现小模型(如GPT-2)来建立扎实直觉,强调"代码不会撒谎"的可验证性。Nathan则建议找一个狭窄的研究方向深耕(如角色训练、评估方法),利用开源工具在有限算力下产生影响力,而非盲目追逐大模型训练。

"关掉互联网,专注看书的感觉很好...但第二阶段再用LLM来丰富体验。"

⚖️ 开源的战略价值与地缘政治

Nathan介绍了"Adam项目"(American Truly Open Models),强调美国需要本土高质量开源模型来应对中国开源生态的扩张。他认为开源不仅是技术问题,更是国家安全与全球影响力问题,但反对通过"防火墙"限制信息流动,主张以开放对抗开放。

"开源模型会成为AI研究的引擎...美国应该建最好的模型,这样最顶尖的研究就会在美国发生。"

🤖 AGI时间线的理性预期

嘉宾们对近期AGI(通用人工智能)持谨慎态度。Nathan认为"远程工作者"这一定义过于模糊,且AI能力"参差不齐"——在某些任务超人类,在其他任务(如分布式系统编程)仍很弱。Sebastian则强调计算(Computing)作为根本驱动力的历史地位。

"我觉得梦想其实在慢慢破灭...通用模型和专门化模型之间的张力会越来越大。"

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的

使用 AI 进行翻译,因此可能会有一些地方不通顺;

如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

展开Show Notes
Brianli
Brianli
2026.2.01
将整个访谈整理成文字内容,供大家快速了解主要内容。https://mp.weixin.qq.com/s/SfBwimMxd7-SRubThqmYRg
easymode:看过sebastian的书和油管视频,书的内容真的清晰易懂,还能实操复现,就像他在播客里说的这是最好的学习方式!感谢宝藏小宇宙博主翻译成中文,效果也不错,有时候甚至忘记这是ai生成的
太牛了👍yikai 知道我们想听什么
曾磊_iMhl
曾磊_iMhl
2026.2.01
一个小错误,把GLM说成了零一万物的了
yikai-
:
🙇‍♂️ 换了个翻译流程,忘记校正了 谢谢指正
霜叶青
霜叶青
2026.2.06
2:08:11 996,给我干哪来了,这还是国外吗
easymode
easymode
2026.2.05
看过sebastian的书和油管视频,书的内容真的清晰易懂,还能实操复现,就像他在播客里说的这是最好的学习方式!感谢主播
请问能否ai这个播客,谢谢。【FDA局长Marty Makary:告别动物实验,器官芯片与AI正在重构医药研究底层逻辑-哔哩哔哩】 https://b23.tv/n75fyYy
霜叶青
霜叶青
2026.2.06
3:29:39 这故事可太爆了😂华盛顿会很喜欢
张谦:Anthropic 一直在说这个故事😵‍💫
慢世界感受那个艺术,非ai生成的更值得研究
暗七
暗七
10天前
发给元宝也挺好:美国阵营

1. OpenAI(GPT系列)
• 核心能力:研究创新与产品落地(如Sora视频生成、o1推理模型)

• 优势:行业标杆,擅长将前沿研究快速转化为用户产品;GPT-5.2 Pro的自动路由机制平衡成本与性能。

• 短板:组织架构被描述为“创业公司式混乱”。

2. Anthropic(Claude系列)
• 核心能力:代码生成与哲学推理(Claude 4.5)

• 优势:极低“混乱度”的组织文化,专注开发者需求;推理时缩放(Inference Scaling)提升逻辑能力。

• 短板:商业模式依赖订阅制,全球渗透力弱于开源模型。

3. Google(Gemini系列)
• 核心能力:基础设施与长上下文处理(Gemini 3)

• 优势:自研TPU芯片降低成本,超长上下文(百万Token)支持“大海捞针”测试。

• 短板:市场声量常被Claude/GPT掩盖。

4. xAI(Grok系列)
• 核心能力:实时数据与硬核调试(Grok-4 Pro)

• 优势:依托X平台社交媒体数据,响应实时信息;擅长复杂技术任务调试。

• 短板:应用场景较垂直,通用性不足。

---

中国阵营

1. DeepSeek(R1系列)
• 核心能力:成本效率与架构创新(如MLA注意力)

• 优势:RLVR训练实现“顿悟式”自我修正,参数效率领先;开源策略扩大全球影响力。

• 短板:2026年面临国内同行超越压力。

2. 智谱AI(GLM系列)
• 核心能力:中文多模态与专业领域适配

• 优势:数据透明化与社区驱动,支持深度定制。

• 短板:国际开发者生态弱于DeepSeek。

3. MiniMax/月之暗面(Kimi系列)
• 核心能力:轻量化与垂直场景优化

• 优势:推理速度极快,适合终端设备部署。

• 短板:复杂任务处理能力逊于万亿参数模型。

4. 阿里巴巴(通义千问)
• 核心能力:企业级解决方案整合

• 优势:云服务无缝衔接,B端商业化成熟。

• 短板:开源社区活跃度不及专注玩家。

---

开源生态

1. Meta(Llama系列)
• 核心能力:西方开源标杆

• 优势:架构稳定性高,兼容性强。

• 短板:面临中国开源模型的性能冲击。

2. AI2(OLMo系列)
• 核心能力:研究透明化

• 优势:公开训练数据与代码,推动学术合作。

• 短板:商业应用支持不足。

总结:美国厂商强于闭源产品的智能深度与用户体验,中国厂商通过开源权重和成本优势争夺开发者心智,而开源社区正成为技术民主化的核心战场。
冰茶茶
冰茶茶
2026.2.25
3:53:54 全部听完了,很精彩~
夏Lin
夏Lin
2026.2.08
怪怪的哈哈
03:51 这个音源的老北京儿味听着听着会出戏😂
还是芯片算力限制,中国还得加快研发量产芯片设备
感谢up主 宝藏播客 解决了英语不好但是想听国外播客的烦恼
连暮
连暮
2026.2.02
52:14 强化学习的投入时长大幅增长,从跑5天变成跑三个半星期,达到年底峰值版本。
Sebastian Rascha的书很火
连暮
连暮
2026.2.02
50:30 有千兆瓦级的超大计算机群将上线,实验室将获得更多训练算力,推动模型进一步扩大;预计会出现2000美元级别的高价值订阅服务。
July_777
July_777
2026.2.01
1:34:17 Qwen3也有测试数据混用的问题么?
podcastfan
podcastfan
2026.2.01
非常专业深入的LLM训练访谈。
WangHeng
WangHeng
2026.2.01
真快