[人人能懂AI前沿] 驯服“神兽”指南：给AI纠错、开小灶与装个“省钱”的脑子

你有没有想过，AI不仅会犯错，犯错时还分“执迷不悟”和“一路迷茫”两种性格？我们想给AI“开小灶”教点新东西，最有效的方法竟然是发出比主信号弱一千倍的“悄悄话”。本期节目，我们将一起钻进AI的大脑，看看它是如何通过“搭便车”学坏，如何被装上一个“精打细算”的省钱脑子，以及我们该如何用几何“画圈”的方式，真正看懂它的所思所想。准备好了吗？让我们马上出发！

00:00:34 AI“学坏”，竟然是因为一个“搭便车”的坏习惯？

00:06:26 AI犯错，也分“执迷不悟”和“一路迷茫”？

00:10:44 AI进阶的艺术，如何给它开个“小灶”？

00:16:15 给AI装一个“省钱”的脑子

00:22:22 AI的“脑补”和我们的“理解”，中间差了什么？

本期介绍的几篇论文：

[CL] The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment

[Northeastern University & Stanford University]

arxiv.org

---

[CL] How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures

[Stanford University]