EP47：LeCun谈为什么AI还不如猫？通往真正智能的“世界模型”路线图

播客无国界

52分钟 ·7个月前

50

·

0

尽管大型语言模型（LLM）的能力令人惊叹，但为何它们仍无法理解物理世界的基本常识，甚至在某些方面“不如一只猫”？AI领域的“莫拉维克悖论”是否预示着，仅靠扩大模型和文本数据，我们永远无法抵达通用人工智能（AGI）的终点？

本期节目，我们将深入图灵奖得主、Meta首席AI科学家Yann LeCun的前瞻性思考。他将系统性地剖析当前主流AI范式（尤其是LLM）的根本局限，并首次详尽描绘了一条通往真正“类人智能”的、截然不同的技术路线图。这不仅是对现有AI路径的深刻反思，更是一次关于未来AI架构的颠覆性宣言。您将了解到：

世界模型（World Model）的必要性：为什么说让AI拥有预测“行为后果”的内部世界模型，是其从“鹦鹉学舌”迈向“理解与规划”的关键一步？人类婴儿是如何在短短数月内通过观察，高效构建起这种模型的？

告别生成模型：为何直接预测视频中的每一个像素是“不可能完成的任务”？LeCun提出的“联合嵌入预测架构”（JEPA）如何通过在更抽象的“表示空间”中进行预测，巧妙地绕开这一难题，让AI学会捕捉世界的本质规律，而非无关细节？

超越自回归的推理范式： LLM逐词生成的“自回归”模式为何存在不可避免的“散发性”和“幻觉”问题？LeCun倡导的“基于优化的推理”如何让AI像人类的“系统二”思维一样，为复杂问题投入更多计算资源，进行深思熟虑的规划？

全新AI认知架构：一个整合了感知、记忆、世界模型、目标函数和行动规划器的未来AI架构是怎样的？这种架构如何从根本上确保AI的可控性与安全性，避免其“越狱”或产生不可预测的行为？

一位行业巨擘的逆行宣言：为什么LeCun明确建议研究者应“放弃生成模型”、“放弃对比学习”、“最小化强化学习”？这背后反映了AI发展的哪些深层挑战与未解之谜？

这不仅是一场面向AI研究者和顶尖工程师的前沿技术讲座，更是一次帮助所有AI从业者、战略家和爱好者跳出当前炒作、回归第一性原理的深度思辨。如果您渴望理解当前AI技术的“天花板”在何处，以及通往更高级别人工智能的真正路径可能是什么，本期内容将为您提供无可替代的视野和启发。

时点内容 | Key Topics：

当前AI的局限性： LeCun教授指出，当前AI架构（包括LLM）在学习效率上远不及人类和动物，缺乏对物理世界的理解、持久记忆、复杂动作规划和可控性。LLM的训练数据量巨大（相当于人类40万年的阅读量），但一个4岁儿童通过视觉数据（约10^14字节）就能获得类似的“数据输入”，且能高效理解世界。这表明仅依靠文本数据无法达到人类智能水平。

Moravec悖论与物理世界理解的挑战： AI擅长处理对人类而言智力挑战大的任务（如下棋、解数学题），但在处理对人类而言简单的物理任务（如机器人操作物体、自动驾驶）时却异常困难。缺乏“世界模型”是关键，即AI无法像人类一样，通过内在的现实模型预测行为后果。

世界模型（World Model）的核心思想：世界模型允许AI在采取行动前预测其后果，从而进行规划和推理。人类婴儿在出生后数月内，通过观察学习建立起对物体永恒性、直觉物理（重力、惯性）的理解，这种自我监督的学习机制是AI急需模仿的。

大型语言模型的缺陷：计算限制： LLM通过固定层数的神经网络进行前向传播，计算效率受限。自回归预测的散发性： LLM的自回归预测方式（逐词生成）容易导致“幻觉”或偏离正确路径，因为错误会指数级累积且无法回溯。无法高效推理： LLM只能通过生成更多Token（如“思维链”提示）来模拟“思考”，并非真正的推理。

基于优化的推理（Inference by Optimization）： LeCun提出，更强大的推理方式应是基于优化的搜索，通过能量函数（Energy Function）衡量输入与输出的兼容性，寻找最小化能量的解决方案。这类似于人类的“系统二”思维，即深思熟虑、有目的地规划行动。

联合嵌入预测架构（Joint Embedding Predictive Architecture, JEPA）：放弃像素级预测：传统生成模型试图在像素层面预测视频的未来帧，这是不可能的任务，因为未来充满不确定性，导致预测结果模糊。在表示空间中预测： JEPA旨在表示空间（Representation Space）而非像素空间进行预测。它学习一种抽象表示，忽略不可预测的细节，只捕捉核心的、可预测的信息。科学与智能的本质：科学的进步在于发现能够进行预测的抽象表示（如行星运动的日心说模型），智能的本质亦在于此。层级抽象：物理世界存在从量子场论到生态系统的层级抽象，每一层都允许我们进行不同时间尺度和粒度的预测。

训练世界模型的方法：自我监督学习对比学习与正则化方法：介绍通过对比（Contrastive）或正则化（Regularized）方法防止模型在训练中发生“坍缩”（即模型输出恒定，无法学习有效特征）。 DINO与VJPA的突破： DINO是一种成功的自我监督学习方法，通过“蒸馏”（Distillation）技术，使非监督学习的图像表示性能首次超越了纯监督学习，且所需数据量更少。VJPA（Video JEPA）将这一思想扩展到视频领域，学习视频的表示，并能够识别视频中的不可能事件，展现出一定程度的“常识”或直觉物理理解。

走向分层规划与认知架构：分层世界模型：机器需要建立不同抽象层次的世界模型，以实现从高层目标（如去巴黎）到低层行动（如肌肉控制）的分层规划。认知架构： LeCun提出了一个包含感知、记忆、世界模型、目标函数（包括安全护栏）和行动规划模块的整体认知架构。这种架构的核心是基于优化进行规划，确保AI行动符合目标且安全可控。

对AI研究的建议：放弃生成模型，转向JEPA等在表示空间进行预测的架构。拥抱基于能量的模型，而非概率模型（因其难以处理）。放弃对比学习，转向正则化方法。最小化强化学习的使用，因为它效率极低。将研究重心从LLM转向理解物理世界和实现更深层次智能的架构（JEPA）。

相关链接与资源：

[视频来源]www.youtube.com

本播客采用虚拟主持人进行播客翻译的音频制作，因此有可能会有一些地方听起来比较奇怪。

如想了解更多信息，请关注微信公众号“心流赫兹”获取AI最新资讯。

在小宇宙打开