
老王聊论文:CoT《CoT Prompting Elicits Reasoning in LLM》本期播客聚焦于谷歌团队2022年提出的“思维链提示(Chain-of-Thought Prompting)”技术——一项让大型语言模型“学会推理”的突破性方法。 我们将深入解析这一方法如何通过简单的提示设计,解锁模型的复杂推理能力:从数学应用题到常识判断,从符号逻辑到机器人规划,思维链提示如何让模型像人类一样“一步步思考”,并在GSM8K等权威基准上超越微调模型,创下新纪录。 播客中,我们会拆解思维链的核心逻辑:为何在提示中加入“中间推理步骤”就能让模型性能飙升?它与传统提示方法有何本质区别?我们还会结合实验数据,展示PaLM、GPT-3等模型在不同规模下的表现差异,揭示“推理能力是模型规模的涌现特性”这一重要发现。 无论你是AI研究者、从业者,还是对“机器如何思考”感兴趣的听众,都能从中了解到大型语言模型推理能力的关键突破与背后的原理。 思维链对推理模型发展的影响 思维链提示的提出,不仅是提示工程的一次革新,更深刻影响了后续推理模型的研究方向、技术路径和应用场景,主要体现在以下几个方面: 1. 推动“无微调推理”成为主流,降低任务适配成本 传统上,提升模型推理能力依赖于任务特定的微调(如用带推理步骤的数据集训练模型),但这需要大量标注数据,且泛化性差。思维链提示证明:**仅通过少量带中间步骤的示例,就能让预训练模型在多类推理任务中表现优异**(如PaLM 540B用8个示例就在GSM8K上超越微调GPT-3)。这一发现推动了“零样本/少样本推理”的普及,让模型无需微调即可快速适配新任务,大幅降低了推理模型的应用门槛。 2. 揭示“推理能力的涌现性”,指引模型 scaling 方向 论文通过实验表明:思维链的效果并非随模型规模线性增长,而是在模型参数达到~100B时突然显现(小模型用思维链甚至会降低性能)。这一“涌现性”特征为后续模型研发提供了关键指引:**推理能力的突破可能依赖于足够大的模型规模与预训练数据**。此后,研究者更注重通过扩大模型规模(如从100B到千亿级)解锁更复杂的推理能力,而非仅依赖结构创新。 3. 强化“可解释性”需求,推动推理过程透明化 思维链的核心是“中间推理步骤”,这为模型决策提供了可追溯的路径。例如,在数学问题中,模型会输出“先算什么、再算什么”,人类可直接定位错误步骤(如计算失误、语义理解偏差)。这一特性改变了推理模型“黑箱”状态,推动后续研究更关注“推理过程的可解释性”,例如:如何让模型生成更严谨的中间步骤?如何通过验证推理路径提升结果可靠性?(后续工作如“自一致性验证”即源于此)。 4. 拓展推理模型的应用边界,从“做题”到“复杂决策” 思维链的通用性(适用于算术、常识、符号推理等)证明:语言模型的推理能力可迁移到多领域。例如: - 在机器人规划中,模型通过思维链将自然语言指令分解为“找物体→拿起→送达”等步骤(如SayCan数据集); - 在符号推理中,模型能处理更长序列的逻辑任务(如“翻转硬币多次后判断状态”“拼接多词尾字母”),甚至泛化到未见过的步骤长度。 这为推理模型从“学术 benchmark”走向实际应用(如智能助手、自动决策系统)奠定了基础。 5. 启发后续优化方向,形成推理研究新范式 思维链的提出引发了一系列衍生研究,形成了“推理增强”的新研究范式: - **自一致性(Self-consistency)**:通过生成多个推理路径并取多数结果,进一步提升准确率(Wang et al., 2022); - **动态思维链**:让模型根据问题难度自适应调整推理步骤长度; - **小模型推理**:探索如何在小模型中模拟思维链效果(如知识蒸馏、提示压缩),降低部署成本。 总结 思维链提示的核心价值,在于它证明了“语言本身可作为推理工具”——通过自然语言的中间步骤,大型语言模型能实现类人的分步推理。这一发现不仅提升了模型的推理性能,更重塑了研究者对“机器推理”的理解:推理能力未必需要复杂的专用架构,而可能蕴含在足够大规模的语言模型与合理的提示设计中。后续推理模型的发展,无论是技术优化还是应用拓展,都深深植根于这一理念。
老王聊论文:GPT-3《Language Models are Few-Shot Learners》OpenAI于2020年发布的《Language Models are Few-Shot Learners》(即GPT-3论文)它是继《Attention Is All You Need》之后大模型时代最伟大的里程碑。 该论文不仅验证了“规模的力量”,展示了千亿级参数模型在上下文学习中的强大能力,还确立了“大模型+大数据+大算力”的Scaling Law范式**,从而引发了全球性的“大模型军备竞赛”。 此外,GPT-3论文开创了“提示工程”时代,将人机交互方式从微调转向自然语言提示,极大地降低了AI应用门槛,并对AI研究范式、产业落地、技术路线以及风险监管产生了全方位的影响,甚至促成了Meta LLaMA等开源生态的发展。 简而言之,GPT-3论文将“大模型+提示学习”从实验设想转变为可复现、可产品化、可监管的事实标准,为2020年后的生成式AI产业奠定了基础。 --- 既然有了Few-Shot Learners是否还需要微调?什么情况下选择微调呢? • 如果标注数据 < 100 条,或任务允许 5-10 % 的误差 → 先用 Few-Shot + 工程手段(Prompt Chain、Self-Critique)。 • 如果数据 > 500 条且对准确率/延迟有硬指标 → 直接上 LoRA/QLoRA,ROI 几乎总是正的。 • 如果领域极度专业(医疗、金融合规)且数据 > 10 k → 继续预训练 + 全参微调仍是 SOTA 路径。 一句话结论 Few-Shot Learners 把“零样本可用”变成了基线,却也让“微调”从重量级手术变成了可插拔的“微剂量注射”。是否微调,不再是“能不能”,而是“值不值”。
老王聊论文:Transformer《Attention Is All You Need》Transformer 横空出世,神经网络进入全新时代!本期,老王带你一起拆解这篇奠定深度学习基石的经典论文——《Attention Is All You Need》。 我们聊聊它是怎么用 Attention 取代 RNN,如何颠覆机器翻译和语言模型的范式,背后的原理、结构,还有它如何一步步影响了今天的 ChatGPT 和大模型。 不卖关子,通俗解读,硬核干货,聊透 Transformer 的前世今生。 https://arxiv.org/abs/1706.03762