开场 · 抛出问题
- “大语言模型会思考吗?还是它们只会‘猜下一个词’?”
- 谷歌 DeepMind 推理团队负责人、提出“思维链 (Chain of Thought)”的丹尼·周,在这场演讲中给出答案:AI 的推理,其实是让机器学会“中间步骤”的艺术。
第一幕 · 什么是推理?
- 丹尼的定义:推理 = 输入与输出之间的所有中间步骤。
- 举例:“Elon Musk → nk”。人类几眼就明白,但传统机器学习需要海量样本。LLM 如果会“想”,只要几步就能做对。
- 理论支撑:一个小小的 Transformer,只要允许它展开足够长的思维链,就能解决复杂问题。
👉 金句:“真正的力量,不在于答案,而在于生成答案的过程。”
第二幕 · 如何触发 AI 的“思考”?
- 思维链解码 (CoT Decoding)
不要总走“贪婪解码”的大路,有时正确答案藏在概率更低的小径。
当 AI 走对路时,它的“自信”会明显更高。 - 提示工程 (Prompting)
Few-shot:给例子,它会模仿你的推理风格。
Zero-shot:一句 “Let’s think step by step”,竟然能立刻点亮推理模式。 - 微调新范式 (ReFT)
不再依赖人工标注,而是让模型自己生成 → 验证 → 学习 → 进化。
目标不再是“像人类思考”,而是**“答案要对”**。
👉 金句:“预训练模型早就准备好了,我们要做的只是换一种解码方式。”
第三幕 · 推理升级武器
- 自洽性 (Self-consistency):生成多个思维链,让答案投票。集体智慧 > 单打独斗。
- 检索 + 推理:别让 AI 关在屋里,它需要去“翻资料”,把外部知识和内部逻辑结合。
第四幕 · 不完美的思考者
- 容易分心:加点无关背景,准确率立刻掉 20%。
- 不会自我纠错:有时检查会改错为错。没有“预言机反馈”,AI 难以真正 debug 自己。
- 顺序敏感:换个前提顺序,性能能掉 30%。
👉 金句:“AI 会思考,但它也会被‘噪声’牵着鼻子走。”
尾声 · 四条黄金法则
- 有推理 > 无推理
- 自进化 ReFT > 人工微调 SFT
- 多条路径聚合 > 单次生成
- 检索 + 推理 > 纯推理
最大挑战
缺乏验证器。 在写诗、做战略规划时,没有唯一答案,AI 又该如何判断“对与错”?
