这期聊一篇很有启发性的工作：不靠生成更长思维链，而是让同一组 Transformer 层在隐空间里反复执行，把“多步推理”前移到预训练阶段。它的关键设计是共享参数的循环结构、自适应退出 gate，以及专门按“多算一轮值不值”来训练 gate，让模型对简单题少算、对难题多想。实验最值得关注的结论是：loop 主要增强的不是知识存储，而是知识调用、组合与递归加工能力，也因此形成了参数规模、数据规模之外的第三个 scaling axis。
00:00 问题与动机
02:09 方法全景
03:52 关键机制拆解
08:12 训练与推理闭环
11:27 实验怎样支撑方法
14:22 图表导读
16:09 价值、局限与启发
Source: paper | https://arxiv.org/pdf/2510.25741

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

AI_SUMMARIZE_EPISODE

Anything to Podcast

Ouro：让大模型在隐空间循环推理

69cfa0a7b977fb2c47086427/lipop6C4xrHWSWPfOPzXFKZ2iO6y.mp3