综述@生成式人工智能第二幕：Test Time Scaling (测试时扩展) 推动认知工程的发展

来源文本探讨了生成式人工智能的第二阶段（Act II），其核心是认知工程，通过测试时缩放技术增强模型进行复杂思维和推理的能力。与第一阶段（Act I）主要依靠参数和数据规模实现知识检索不同，第二阶段强调利用并行采样、树搜索、多轮修正和长链思维 (Long CoT) 等方法在推理时生成更深入的思考过程。研究指出，虽然所有这些技术都能提升模型性能，但 Long CoT 因其能够内化多种认知行为且具更强的适应性，被认为是更具前景的方向，尽管它通常需要额外的强化学习 (RL) 或监督微调 (SFT) 训练。文章还讨论了这些技术在数学、代码、多模态和智能体等领域的应用，并强调了构建可靠的奖励信号和评估框架对推动认知工程发展的重要性。

📘 文献简报：《Test Time Scaling 与认知工程：大型语言模型的第二幕》

来源：arXiv:2504.13828v3，2025年四月
作者：

论文的主要作者及其单位:

Shijie Xia: Shanghai Jiao Tong University, SII, Generative AI Research Lab (GAIR)

Yiwei Qin: Generative AI Research Lab (GAIR)

Xuefeng Li: Shanghai Jiao Tong University, SII, Generative AI Research Lab (GAIR)

Yan Ma: Generative AI Research Lab (GAIR)

Run-Ze Fan: Generative AI Research Lab (GAIR)

Steffi Chern: Generative AI Research Lab (GAIR)

Haoyang Zou: Shanghai Jiao Tong University, SII, Generative AI Research Lab (GAIR)

Fan Zhou: Shanghai Jiao Tong University, SII, Generative AI Research Lab (GAIR)

Xiangkun Hu: SII, Generative AI Research Lab (GAIR)

Jiahe Jin: Shanghai Jiao Tong University, SII, Generative AI Research Lab (GAIR)

Yanheng He: Shanghai Jiao Tong University, SII, Generative AI Research Lab (GAIR)

Yixin Ye: Shanghai Jiao Tong University, SII, Generative AI Research Lab (GAIR)

Yixiu Liu: Shanghai Jiao Tong University, SII, Generative AI Research Lab (GAIR)

Pengfei Liu: Shanghai Jiao Tong University, SII, Generative AI Research Lab (GAIR) (通讯作者)

一、概述：测试时扩展（TTS）与认知工程（Cognition Engineering）

传统大型语言模型（LLMs）在预训练和微调阶段的表现已令人惊艳，但在面向复杂推理、规划、事实性问题时仍显力不从心。本文提出：“模型能力的释放不应止于训练阶段”，测试时扩展（Test-Time Scaling, TTS） 成为新的关键手段。

论文进一步提出“认知工程（Cognition Engineering）”的框架，指在固定模型参数的前提下，通过推理阶段的计算扩展和策略增强，系统性提升模型的“认知能力”（即多步推理、规划与适应性表达能力）。

二、认知工程的三大支柱

知识基础：模型通过预训练形成“知识岛”——知识片段虽丰富，但跨概念的联系仍有限。

测试时扩展基础：推理时增加计算以提升答案质量，是认知能力的释放通道。

自训练基础：模型自我反馈、自监督学习等手段用于进一步强化能力。

三、TTS的核心方法

文中系统总结了四类主要的 TTS 技术路径：

1. ✅ 并行采样（Parallel Sampling）

核心思路：生成多个响应候选，借助评分函数（如外部验证器或模型自身）筛选最佳结果

应用代表：CoT self-consistency、WebQA中的 rerank 解法

2. 🌲 树搜索（Tree Search）

将推理路径建模为搜索树，逐步探索可能的中间步骤或解法路径

搜索粒度：
S1: 令牌级（Token-Level） — 如 PG-TD
S2: 步骤级（Step-Level） — 如 ToT, LATS, RAP
S3: 解决方案级（Solution-Level） — 如 LLaMA-Berry, MCTSr

关键组成：搜索空间、节点价值函数（自评估、学习模型、Rollout）、搜索算法（MCTS、A*等）

3. 🔁 多轮纠错（Multi-Turn Correction）

模型先生成初步答案，再引入自我或外部反馈进行修改

常见形式：
Self-Debug（行级注释+trace）
Reflexion（自省Prompt生成反馈）
多智能体辩论（模拟“批判-修正”过程）

4. 🔗 长链式思维（Long Chain-of-Thought, CoT）

借助提示设计、有监督微调（SFT）或RL，生成更长、结构更深的推理链

为提升效率，提出：
压缩策略（如 C3oT）：在不牺牲性能下缩短推理链
自蒸馏/路由器：只调用必要长度
合并机制：集成多模型短链

四、TTS的训练策略

为有效发挥TTS潜能，作者总结了以下三类训练方法：

🔁 1. 迭代自强化（Iterative Self-Reinforcement）

将搜索过程产生的经验转化为自我训练样本

如：ReST-MCTS，用 Rollout-guided reward 驱动更新策略

🧠 2. 有监督微调（SFT）

采集长CoT或复杂推理示例对模型进行精调

可与DPO、RL结合使用长度惩罚机制

🎯 3. 强化学习（RL）

直接使用 RL 训练模型策略

使用 GRPO（简化的优势估计）、REINFORCE++等策略优化

应用于 DeepSeek-R1、Kimi k1.5 等系统

五、典型应用场景

场景代表工作与方法📐 数学AlphaMath、MindStar、MCTSr（树搜索 + CoT）💻 代码生成AlphaCode、PG-TD、Reflexion、SWE-Reasoner🧠 多模态URSA、Mulberry、R1-Onevision🤖 智能体 AgentInner Monologue、PC Agent、Robots-ask-help🦾 具身智能体SpatialCoT、Embodied-Reasoner🔐 安全评估Chain-of-Verification、Multi-agent Verification🔍 检索增强生成 (RAG)CoRAG、Plan*RAG（TTS优化检索与生成）📊 模型评估ChatEval、MCTS-Judge、LLM-as-a-Judge范式

六、未来发展方向

认知数据工程：构建适配多步推理的数据集

奖励机制设计：优化 RL 奖励以支持推理性策略形成

效率优化：KV缓存管理（如 DEFT, vLLM, ETS）成为关键挑战

人-机认知协同：探索“人类 + AI”混合推理场景

潜空间推理：将语言推理转移至隐空间，降低令牌依赖

TTS 与研究加速：用 TTS 加速 AI 自我进化与科研辅助

七、重要引文摘录（中英对照）

“测试时计算的必要性”
"We argue that cognitive ability cannot be fully unlocked at training time only—it needs test-time computation."

“知识岛”隐喻
"During pre-training scaling, we observe the formation of distinct ‘knowledge islands’—loosely connected domains of physics, math, etc."

“令牌级树搜索”适用于零容忍场景
"Token-level MCTS is suitable for scenarios with low tolerance to errors, like code."

“多智能体辩论”与自反馈
"Prompting with different roles encourages divergent thinking—this technique is called multi-agent debate."

八、总结

这篇综述指出：仅依赖训练阶段的参数优化不足以释放语言模型的全部认知潜能。测试时扩展（TTS）通过多种策略（采样、搜索、纠错、长链推理）引导模型在固定参数下实现能力突破，特别适用于复杂任务。

在认知工程的框架下，模型成为了具有“自省、纠错、探索”能力的智能体。未来，TTS不仅将重塑 AI 的推理方式，还可能成为“人机认知协作”和“AI 科研助理”的基石。