大语言模型就是死路一条?
至少两位图灵奖得主Richard Sutton和Yann LeCun都这么认为。
我认为这类争议的真正核心,并不是「大语言模型到底行不行」,而是关于我们自己,到底是怎么去理解和接触这个世界的。
所以它最终还是会去到一个哲学问题:如果只需要语言,就能获得真正的智能,就能通向未来,那我们这副肉体和四肢还必要吗?
而那些美味、触觉
每一次温热的拥抱和接吻又有什么意义?
这,可能才是世界模型真正开始的地方。
世界不止语言,世界模型也一样








▶ TIMELINE
一 / 世界不只有语言
如果你成为造物主,你会如何重建一个世界?
世界模型的核心工作:模拟、学习、预测、评估
今天的世界模型,是一种愿景而非单一的技术
4岁小孩的经历,就能超越所有训练文本
二 / 人、动物、AI如何理解世界
人工智能是一门仿生学?
强化学习与奖惩机制
为什么大于43℃人就觉得烫
卷积神经网络等仿生设计
AI自行进化出「人脑模式」
世界本身就存在某些关于智能的最优解
持续上亿年的具身互动带来生物智能
三 / 表象世界
从预测像素到评估行动
不是所有视频模型都是世界模型
视频模型作为世界模型的优势和局限
四 / 空间世界
李飞飞的「三个一致性」
让AI理解空间关系、移动与物体恒常性
已经商业化的「世界模型」
五 / 状态世界
为什么一个十几岁的孩子,20个小时就能学会开车,但几百万小时的自动驾驶数据,还是没产生质变?
提炼当前状态,预测下一个状态,而非画面或文字
什么是状态?什么是好的表征?
六 / 行动世界
为什么GPT爆发让自动驾驶和机器人也更强了?
快系统、慢系统
行动是世界模型的最终目的
*其他类似世界模型的项目:斯坦福小镇、大气建模、蛋白质与AI的价值观
七 / 神话和技术
从史前开始,人类就一直在思考如何再造一个更好的世界
从脑电波到元宇宙,人的归宿是虚拟?
世界模型不是让人进去,而是让机器智能出来,不是让人向AI对齐,而是让AI向人对齐
如果你真的想要一个更好的世界,就去世界中做你认为好的事情
结尾 / 关于我的工作和职业、对技术传播的思考
▶ 提及的部分专有名词
Richard Sutton / Yann LeCun / 维特根斯坦 / Sora / DeepMind / Genie / Runway / Seedance / 可灵 / 李飞飞 / World Labs / JEPA Joint Embedding Predictive Architecture / NVIDIA / Cosmos / Scaling Law / 汉斯·莫拉维克 / The Bitter Lesson / UCL / Edvard Moser / Gemini Omni / Jim Fan 范麟熙 / VLA / DreamDojo / LingBot-World / 智元机器人 / GE-sim 2.0 / Marble / 腾讯混元世界 / 埃拉托色尼 / 表征 / AMI Advanced Machine Intelligence / LeWorldModel / RT-2 / FSD V12 / DYNA / Optimus / Wayve / GAIA / Physical Intelligence / Pi-0.7 / Microsoft Aurora / Demis Hassabis /《The Man Who Awoke》/《黑客帝国》/《黑镜》/ Jürgen Schmidhuber
▶ 参考资料及延展阅读
李飞飞:From Words to Worlds: Spatial Intelligence is AI’s Next Frontier
Jürgen Schmidhuber: Annotated History of Modern AI and Deep Learning
▶ 音乐
You Can Prove Me Wrong - Arabs in Aspic
Computer World Pt.2 - Kraftwerk
Past and Language - Toe
▶ 一起见微知著
听友群:添加微信 KingCrimson_ 备注「微见」即可拉群
欢迎收听回声场ECHOCAST其他节目:在场证明 | Why for Jazz | 别想好 | 城市余数Cityremainder | 声音切片

