老王聊论文：CoT《CoT Prompting Elicits Reasoning in LLM》

本期播客聚焦于谷歌团队2022年提出的“思维链提示（Chain-of-Thought Prompting）”技术——一项让大型语言模型“学会推理”的突破性方法。

我们将深入解析这一方法如何通过简单的提示设计，解锁模型的复杂推理能力：从数学应用题到常识判断，从符号逻辑到机器人规划，思维链提示如何让模型像人类一样“一步步思考”，并在GSM8K等权威基准上超越微调模型，创下新纪录。

播客中，我们会拆解思维链的核心逻辑：为何在提示中加入“中间推理步骤”就能让模型性能飙升？它与传统提示方法有何本质区别？我们还会结合实验数据，展示PaLM、GPT-3等模型在不同规模下的表现差异，揭示“推理能力是模型规模的涌现特性”这一重要发现。

无论你是AI研究者、从业者，还是对“机器如何思考”感兴趣的听众，都能从中了解到大型语言模型推理能力的关键突破与背后的原理。

思维链对推理模型发展的影响思维链提示的提出，不仅是提示工程的一次革新，更深刻影响了后续推理模型的研究方向、技术路径和应用场景，主要体现在以下几个方面：

1. 推动“无微调推理”成为主流，降低任务适配成本传统上，提升模型推理能力依赖于任务特定的微调（如用带推理步骤的数据集训练模型），但这需要大量标注数据，且泛化性差。思维链提示证明：**仅通过少量带中间步骤的示例，就能让预训练模型在多类推理任务中表现优异**（如PaLM 540B用8个示例就在GSM8K上超越微调GPT-3）。这一发现推动了“零样本/少样本推理”的普及，让模型无需微调即可快速适配新任务，大幅降低了推理模型的应用门槛。

2. 揭示“推理能力的涌现性”，指引模型 scaling 方向论文通过实验表明：思维链的效果并非随模型规模线性增长，而是在模型参数达到~100B时突然显现（小模型用思维链甚至会降低性能）。这一“涌现性”特征为后续模型研发提供了关键指引：**推理能力的突破可能依赖于足够大的模型规模与预训练数据**。此后，研究者更注重通过扩大模型规模（如从100B到千亿级）解锁更复杂的推理能力，而非仅依赖结构创新。

3. 强化“可解释性”需求，推动推理过程透明化思维链的核心是“中间推理步骤”，这为模型决策提供了可追溯的路径。例如，在数学问题中，模型会输出“先算什么、再算什么”，人类可直接定位错误步骤（如计算失误、语义理解偏差）。这一特性改变了推理模型“黑箱”状态，推动后续研究更关注“推理过程的可解释性”，例如：如何让模型生成更严谨的中间步骤？如何通过验证推理路径提升结果可靠性？（后续工作如“自一致性验证”即源于此）。

4. 拓展推理模型的应用边界，从“做题”到“复杂决策” 思维链的通用性（适用于算术、常识、符号推理等）证明：语言模型的推理能力可迁移到多领域。例如： - 在机器人规划中，模型通过思维链将自然语言指令分解为“找物体→拿起→送达”等步骤（如SayCan数据集）； - 在符号推理中，模型能处理更长序列的逻辑任务（如“翻转硬币多次后判断状态”“拼接多词尾字母”），甚至泛化到未见过的步骤长度。这为推理模型从“学术 benchmark”走向实际应用（如智能助手、自动决策系统）奠定了基础。

5. 启发后续优化方向，形成推理研究新范式思维链的提出引发了一系列衍生研究，形成了“推理增强”的新研究范式： - **自一致性（Self-consistency）**：通过生成多个推理路径并取多数结果，进一步提升准确率（Wang et al., 2022）； - **动态思维链**：让模型根据问题难度自适应调整推理步骤长度； - **小模型推理**：探索如何在小模型中模拟思维链效果（如知识蒸馏、提示压缩），降低部署成本。

总结思维链提示的核心价值，在于它证明了“语言本身可作为推理工具”——通过自然语言的中间步骤，大型语言模型能实现类人的分步推理。这一发现不仅提升了模型的推理性能，更重塑了研究者对“机器推理”的理解：推理能力未必需要复杂的专用架构，而可能蕴含在足够大规模的语言模型与合理的提示设计中。后续推理模型的发展，无论是技术优化还是应用拓展，都深深植根于这一理念。