理解世界模型：机器人忙着学跳舞，人活成一段段文字

大语言模型就是死路一条？

至少两位图灵奖得主Richard Sutton和Yann LeCun都这么认为。

我认为这类争议的真正核心，并不是「大语言模型到底行不行」，而是关于我们自己，到底是怎么去理解和接触这个世界的。

所以它最终还是会去到一个哲学问题：如果只需要语言，就能获得真正的智能，就能通向未来，那我们这副肉体和四肢还必要吗？

而那些美味、触觉

每一次温热的拥抱和接吻又有什么意义？

这，可能才是世界模型真正开始的地方。

社交媒体：公众号 / 小红书 / Bilibili / 微博

世界不止语言，世界模型也一样

▶ TIMELINE

00:00 一 / 世界不只有语言

如果你成为造物主，你会如何重建一个世界？
世界模型的核心工作：模拟、学习、预测、评估
今天的世界模型，是一种愿景而非单一的技术
4岁小孩的经历，就能超越所有训练文本

11:02 二 / 人、动物、AI如何理解世界

人工智能是一门仿生学？
强化学习与奖惩机制
为什么大于43℃人就觉得烫
卷积神经网络等仿生设计
AI自行进化出「人脑模式」
世界本身就存在某些关于智能的最优解
持续上亿年的具身互动带来生物智能

22:45 三 / 表象世界

从预测像素到评估行动
不是所有视频模型都是世界模型
视频模型作为世界模型的优势和局限

33:26 四 / 空间世界

李飞飞的「三个一致性」
让AI理解空间关系、移动与物体恒常性
已经商业化的「世界模型」

42:14 五 / 状态世界

为什么一个十几岁的孩子，20个小时就能学会开车，但几百万小时的自动驾驶数据，还是没产生质变？
提炼当前状态，预测下一个状态，而非画面或文字
什么是状态？什么是好的表征？

56:24 六 / 行动世界

为什么GPT爆发让自动驾驶和机器人也更强了？
快系统、慢系统
行动是世界模型的最终目的
*其他类似世界模型的项目：斯坦福小镇、大气建模、蛋白质与AI的价值观

01:13:17 七 / 神话和技术

从史前开始，人类就一直在思考如何再造一个更好的世界
从脑电波到元宇宙，人的归宿是虚拟？
世界模型不是让人进去，而是让机器智能出来，不是让人向AI对齐，而是让AI向人对齐
如果你真的想要一个更好的世界，就去世界中做你认为好的事情

01:20:55 结尾 / 关于我的工作和职业、对技术传播的思考

▶ 提及的部分专有名词

Richard Sutton / Yann LeCun / 维特根斯坦 / Sora / DeepMind / Genie / Runway / Seedance / 可灵 / 李飞飞 / World Labs / JEPA Joint Embedding Predictive Architecture / NVIDIA / Cosmos / Scaling Law / 汉斯·莫拉维克 / The Bitter Lesson / UCL / Edvard Moser / Gemini Omni / Jim Fan 范麟熙 / VLA / DreamDojo / LingBot-World / 智元机器人 / GE-sim 2.0 / Marble / 腾讯混元世界 / 埃拉托色尼 / 表征 / AMI Advanced Machine Intelligence / LeWorldModel / RT-2 / FSD V12 / DYNA / Optimus / Wayve / GAIA / Physical Intelligence / Pi-0.7 / Microsoft Aurora / Demis Hassabis /《The Man Who Awoke》/《黑客帝国》/《黑镜》/ Jürgen Schmidhuber

▶ 参考资料及延展阅读

▶ 音乐

You Can Prove Me Wrong - Arabs in Aspic
Computer World Pt.2 - Kraftwerk
Past and Language - Toe

▶ 一起见微知著

听友群：添加微信 KingCrimson_ 备注「微见」即可拉群
社交媒体：公众号 / 小红书 / Bilibili / 微博
欢迎收听回声场ECHOCAST其他节目：在场证明 | Why for Jazz | 别想好 | 城市余数Cityremainder | 声音切片