Ouro:让大模型在隐空间循环推理

Ouro:让大模型在隐空间循环推理

18分钟 ·
播放数2
·
评论数0

这期聊一篇很有启发性的工作:不靠生成更长思维链,而是让同一组 Transformer 层在隐空间里反复执行,把“多步推理”前移到预训练阶段。它的关键设计是共享参数的循环结构、自适应退出 gate,以及专门按“多算一轮值不值”来训练 gate,让模型对简单题少算、对难题多想。实验最值得关注的结论是:loop 主要增强的不是知识存储,而是知识调用、组合与递归加工能力,也因此形成了参数规模、数据规模之外的第三个 scaling axis。

00:00 问题与动机
02:09 方法全景
03:52 关键机制拆解
08:12 训练与推理闭环
11:27 实验怎样支撑方法
14:22 图表导读
16:09 价值、局限与启发

Source: paper | arxiv.org