老王不爱说 | 小宇宙 - 听播客，上小宇宙

3已订阅

老王不爱说

番茄鸡蛋

单集更新

节目详情

老王聊论文：CoT《CoT Prompting Elicits Reasoning in LLM》
本期播客聚焦于谷歌团队2022年提出的“思维链提示（Chain-of-Thought Prompting）”技术——一项让大型语言模型“学会推理”的突破性方法。我们将深入解析这一方法如何通过简单的提示设计，解锁模型的复杂推理能力：从数学应用题到常识判断，从符号逻辑到机器人规划，思维链提示如何让模型像人类一样“一步步思考”，并在GSM8K等权威基准上超越微调模型，创下新纪录。播客中，我们会拆解思维链的核心逻辑：为何在提示中加入“中间推理步骤”就能让模型性能飙升？它与传统提示方法有何本质区别？我们还会结合实验数据，展示PaLM、GPT-3等模型在不同规模下的表现差异，揭示“推理能力是模型规模的涌现特性”这一重要发现。无论你是AI研究者、从业者，还是对“机器如何思考”感兴趣的听众，都能从中了解到大型语言模型推理能力的关键突破与背后的原理。思维链对推理模型发展的影响思维链提示的提出，不仅是提示工程的一次革新，更深刻影响了后续推理模型的研究方向、技术路径和应用场景，主要体现在以下几个方面： 1. 推动“无微调推理”成为主流，降低任务适配成本传统上，提升模型推理能力依赖于任务特定的微调（如用带推理步骤的数据集训练模型），但这需要大量标注数据，且泛化性差。思维链提示证明：**仅通过少量带中间步骤的示例，就能让预训练模型在多类推理任务中表现优异**（如PaLM 540B用8个示例就在GSM8K上超越微调GPT-3）。这一发现推动了“零样本/少样本推理”的普及，让模型无需微调即可快速适配新任务，大幅降低了推理模型的应用门槛。 2. 揭示“推理能力的涌现性”，指引模型 scaling 方向论文通过实验表明：思维链的效果并非随模型规模线性增长，而是在模型参数达到~100B时突然显现（小模型用思维链甚至会降低性能）。这一“涌现性”特征为后续模型研发提供了关键指引：**推理能力的突破可能依赖于足够大的模型规模与预训练数据**。此后，研究者更注重通过扩大模型规模（如从100B到千亿级）解锁更复杂的推理能力，而非仅依赖结构创新。 3. 强化“可解释性”需求，推动推理过程透明化思维链的核心是“中间推理步骤”，这为模型决策提供了可追溯的路径。例如，在数学问题中，模型会输出“先算什么、再算什么”，人类可直接定位错误步骤（如计算失误、语义理解偏差）。这一特性改变了推理模型“黑箱”状态，推动后续研究更关注“推理过程的可解释性”，例如：如何让模型生成更严谨的中间步骤？如何通过验证推理路径提升结果可靠性？（后续工作如“自一致性验证”即源于此）。 4. 拓展推理模型的应用边界，从“做题”到“复杂决策” 思维链的通用性（适用于算术、常识、符号推理等）证明：语言模型的推理能力可迁移到多领域。例如： - 在机器人规划中，模型通过思维链将自然语言指令分解为“找物体→拿起→送达”等步骤（如SayCan数据集）； - 在符号推理中，模型能处理更长序列的逻辑任务（如“翻转硬币多次后判断状态”“拼接多词尾字母”），甚至泛化到未见过的步骤长度。这为推理模型从“学术 benchmark”走向实际应用（如智能助手、自动决策系统）奠定了基础。 5. 启发后续优化方向，形成推理研究新范式思维链的提出引发了一系列衍生研究，形成了“推理增强”的新研究范式： - **自一致性（Self-consistency）**：通过生成多个推理路径并取多数结果，进一步提升准确率（Wang et al., 2022）； - **动态思维链**：让模型根据问题难度自适应调整推理步骤长度； - **小模型推理**：探索如何在小模型中模拟思维链效果（如知识蒸馏、提示压缩），降低部署成本。总结思维链提示的核心价值，在于它证明了“语言本身可作为推理工具”——通过自然语言的中间步骤，大型语言模型能实现类人的分步推理。这一发现不仅提升了模型的推理性能，更重塑了研究者对“机器推理”的理解：推理能力未必需要复杂的专用架构，而可能蕴含在足够大规模的语言模型与合理的提示设计中。后续推理模型的发展，无论是技术优化还是应用拓展，都深深植根于这一理念。
6分钟 · 9个月前
5
1
老王聊论文：GPT-3《Language Models are Few-Shot Learners》
OpenAI于2020年发布的《Language Models are Few-Shot Learners》（即GPT-3论文）它是继《Attention Is All You Need》之后大模型时代最伟大的里程碑。该论文不仅验证了“规模的力量”，展示了千亿级参数模型在上下文学习中的强大能力，还确立了“大模型+大数据+大算力”的Scaling Law范式**，从而引发了全球性的“大模型军备竞赛”。此外，GPT-3论文开创了“提示工程”时代，将人机交互方式从微调转向自然语言提示，极大地降低了AI应用门槛，并对AI研究范式、产业落地、技术路线以及风险监管产生了全方位的影响，甚至促成了Meta LLaMA等开源生态的发展。简而言之，GPT-3论文将“大模型+提示学习”从实验设想转变为可复现、可产品化、可监管的事实标准，为2020年后的生成式AI产业奠定了基础。 --- 既然有了Few-Shot Learners是否还需要微调？什么情况下选择微调呢？ • 如果标注数据 < 100 条，或任务允许 5-10 % 的误差 → 先用 Few-Shot + 工程手段（Prompt Chain、Self-Critique）。 • 如果数据 > 500 条且对准确率/延迟有硬指标 → 直接上 LoRA/QLoRA，ROI 几乎总是正的。 • 如果领域极度专业（医疗、金融合规）且数据 > 10 k → 继续预训练 + 全参微调仍是 SOTA 路径。一句话结论 Few-Shot Learners 把“零样本可用”变成了基线，却也让“微调”从重量级手术变成了可插拔的“微剂量注射”。是否微调，不再是“能不能”，而是“值不值”。
9分钟 · 9个月前
5
1
老王聊论文：Transformer《Attention Is All You Need》
Transformer 横空出世，神经网络进入全新时代！本期，老王带你一起拆解这篇奠定深度学习基石的经典论文——《Attention Is All You Need》。我们聊聊它是怎么用 Attention 取代 RNN，如何颠覆机器翻译和语言模型的范式，背后的原理、结构，还有它如何一步步影响了今天的 ChatGPT 和大模型。不卖关子，通俗解读，硬核干货，聊透 Transformer 的前世今生。 https://arxiv.org/abs/1706.03762
10分钟 · 9个月前
8
4

分享一些AI相关的论文，偶尔聊一下前沿科技与职场生活