尽管大型语言模型(LLM)的能力令人惊叹,但为何它们仍无法理解物理世界的基本常识,甚至在某些方面“不如一只猫”?AI领域的“莫拉维克悖论”是否预示着,仅靠扩大模型和文本数据,我们永远无法抵达通用人工智能(AGI)的终点?
本期节目,我们将深入图灵奖得主、Meta首席AI科学家Yann LeCun的前瞻性思考。他将系统性地剖析当前主流AI范式(尤其是LLM)的根本局限,并首次详尽描绘了一条通往真正“类人智能”的、截然不同的技术路线图。这不仅是对现有AI路径的深刻反思,更是一次关于未来AI架构的颠覆性宣言。您将了解到:
- 世界模型(World Model)的必要性: 为什么说让AI拥有预测“行为后果”的内部世界模型,是其从“鹦鹉学舌”迈向“理解与规划”的关键一步?人类婴儿是如何在短短数月内通过观察,高效构建起这种模型的?
- 告别生成模型: 为何直接预测视频中的每一个像素是“不可能完成的任务”?LeCun提出的“联合嵌入预测架构”(JEPA)如何通过在更抽象的“表示空间”中进行预测,巧妙地绕开这一难题,让AI学会捕捉世界的本质规律,而非无关细节?
- 超越自回归的推理范式: LLM逐词生成的“自回归”模式为何存在不可避免的“散发性”和“幻觉”问题?LeCun倡导的“基于优化的推理”如何让AI像人类的“系统二”思维一样,为复杂问题投入更多计算资源,进行深思熟虑的规划?
- 全新AI认知架构: 一个整合了感知、记忆、世界模型、目标函数和行动规划器的未来AI架构是怎样的?这种架构如何从根本上确保AI的可控性与安全性,避免其“越狱”或产生不可预测的行为?
- 一位行业巨擘的逆行宣言: 为什么LeCun明确建议研究者应“放弃生成模型”、“放弃对比学习”、“最小化强化学习”?这背后反映了AI发展的哪些深层挑战与未解之谜?
这不仅是一场面向AI研究者和顶尖工程师的前沿技术讲座,更是一次帮助所有AI从业者、战略家和爱好者跳出当前炒作、回归第一性原理的深度思辨。如果您渴望理解当前AI技术的“天花板”在何处,以及通往更高级别人工智能的真正路径可能是什么,本期内容将为您提供无可替代的视野和启发。
时点内容 | Key Topics:
- 当前AI的局限性: LeCun教授指出,当前AI架构(包括LLM)在学习效率上远不及人类和动物,缺乏对物理世界的理解、持久记忆、复杂动作规划和可控性。LLM的训练数据量巨大(相当于人类40万年的阅读量),但一个4岁儿童通过视觉数据(约10^14字节)就能获得类似的“数据输入”,且能高效理解世界。这表明仅依靠文本数据无法达到人类智能水平。
- Moravec悖论与物理世界理解的挑战: AI擅长处理对人类而言智力挑战大的任务(如下棋、解数学题),但在处理对人类而言简单的物理任务(如机器人操作物体、自动驾驶)时却异常困难。缺乏“世界模型”是关键,即AI无法像人类一样,通过内在的现实模型预测行为后果。
- 世界模型(World Model)的核心思想: 世界模型允许AI在采取行动前预测其后果,从而进行规划和推理。人类婴儿在出生后数月内,通过观察学习建立起对物体永恒性、直觉物理(重力、惯性)的理解,这种自我监督的学习机制是AI急需模仿的。
- 大型语言模型的缺陷:计算限制: LLM通过固定层数的神经网络进行前向传播,计算效率受限。 自回归预测的散发性: LLM的自回归预测方式(逐词生成)容易导致“幻觉”或偏离正确路径,因为错误会指数级累积且无法回溯。 无法高效推理: LLM只能通过生成更多Token(如“思维链”提示)来模拟“思考”,并非真正的推理。
- 基于优化的推理(Inference by Optimization): LeCun提出,更强大的推理方式应是基于优化的搜索,通过能量函数(Energy Function)衡量输入与输出的兼容性,寻找最小化能量的解决方案。这类似于人类的“系统二”思维,即深思熟虑、有目的地规划行动。
- 联合嵌入预测架构(Joint Embedding Predictive Architecture, JEPA):放弃像素级预测: 传统生成模型试图在像素层面预测视频的未来帧,这是不可能的任务,因为未来充满不确定性,导致预测结果模糊。 在表示空间中预测: JEPA旨在表示空间(Representation Space)而非像素空间进行预测。它学习一种抽象表示,忽略不可预测的细节,只捕捉核心的、可预测的信息。 科学与智能的本质: 科学的进步在于发现能够进行预测的抽象表示(如行星运动的日心说模型),智能的本质亦在于此。 层级抽象: 物理世界存在从量子场论到生态系统的层级抽象,每一层都允许我们进行不同时间尺度和粒度的预测。
- 训练世界模型的方法:自我监督学习对比学习与正则化方法: 介绍通过对比(Contrastive)或正则化(Regularized)方法防止模型在训练中发生“坍缩”(即模型输出恒定,无法学习有效特征)。 DINO与VJPA的突破: DINO是一种成功的自我监督学习方法,通过“蒸馏”(Distillation)技术,使非监督学习的图像表示性能首次超越了纯监督学习,且所需数据量更少。VJPA(Video JEPA)将这一思想扩展到视频领域,学习视频的表示,并能够识别视频中的不可能事件,展现出一定程度的“常识”或直觉物理理解。
- 走向分层规划与认知架构:分层世界模型: 机器需要建立不同抽象层次的世界模型,以实现从高层目标(如去巴黎)到低层行动(如肌肉控制)的分层规划。 认知架构: LeCun提出了一个包含感知、记忆、世界模型、目标函数(包括安全护栏)和行动规划模块的整体认知架构。这种架构的核心是基于优化进行规划,确保AI行动符合目标且安全可控。
- 对AI研究的建议: 放弃生成模型,转向JEPA等在表示空间进行预测的架构。拥抱基于能量的模型,而非概率模型(因其难以处理)。放弃对比学习,转向正则化方法。最小化强化学习的使用,因为它效率极低。将研究重心从LLM转向理解物理世界和实现更深层次智能的架构(JEPA)。
相关链接与资源:
[视频来源]www.youtube.com
本播客采用虚拟主持人进行播客翻译的音频制作,因此有可能会有一些地方听起来比较奇怪。
如想了解更多信息,请关注微信公众号“心流赫兹”获取AI最新资讯。
