推理的本质 | Denny Zhou斯坦福讲座 | 什么是推理 | 思考的必要性

极客飞行日志

16分钟 ·9个月前

4

·

0

开场 · 抛出问题

“大语言模型会思考吗？还是它们只会‘猜下一个词’？”

谷歌 DeepMind 推理团队负责人、提出“思维链 (Chain of Thought)”的丹尼·周，在这场演讲中给出答案：AI 的推理，其实是让机器学会“中间步骤”的艺术。

第一幕 · 什么是推理？

丹尼的定义：推理 = 输入与输出之间的所有中间步骤。

举例：“Elon Musk → nk”。人类几眼就明白，但传统机器学习需要海量样本。LLM 如果会“想”，只要几步就能做对。

理论支撑：一个小小的 Transformer，只要允许它展开足够长的思维链，就能解决复杂问题。

👉 金句：“真正的力量，不在于答案，而在于生成答案的过程。”

第二幕 · 如何触发 AI 的“思考”？

思维链解码 (CoT Decoding)
不要总走“贪婪解码”的大路，有时正确答案藏在概率更低的小径。
当 AI 走对路时，它的“自信”会明显更高。

提示工程 (Prompting)
Few-shot：给例子，它会模仿你的推理风格。
Zero-shot：一句 “Let’s think step by step”，竟然能立刻点亮推理模式。

微调新范式 (ReFT)
不再依赖人工标注，而是让模型自己生成 → 验证 → 学习 → 进化。
目标不再是“像人类思考”，而是**“答案要对”**。

👉 金句：“预训练模型早就准备好了，我们要做的只是换一种解码方式。”

第三幕 · 推理升级武器

自洽性 (Self-consistency)：生成多个思维链，让答案投票。集体智慧 > 单打独斗。

检索 + 推理：别让 AI 关在屋里，它需要去“翻资料”，把外部知识和内部逻辑结合。

第四幕 · 不完美的思考者

容易分心：加点无关背景，准确率立刻掉 20%。

不会自我纠错：有时检查会改错为错。没有“预言机反馈”，AI 难以真正 debug 自己。

顺序敏感：换个前提顺序，性能能掉 30%。

👉 金句：“AI 会思考，但它也会被‘噪声’牵着鼻子走。”

尾声 · 四条黄金法则

有推理 > 无推理

自进化 ReFT > 人工微调 SFT

多条路径聚合 > 单次生成

检索 + 推理 > 纯推理

最大挑战

缺乏验证器。 在写诗、做战略规划时，没有唯一答案，AI 又该如何判断“对与错”？

在小宇宙打开