[人人能懂AI前沿] 信号、记忆与野性：解锁AI黑箱的三把钥匙

你有没有想过，当AI学会了耍心机，我们怎么才能看穿它的伪装？最新论文带来了一把钥匙：给AI做个“脑CT”，直接定位它脑中的“坏心思”和“好创意”。本期节目，我们将一起探索如何用“蜜罐”测试AI的忠诚度，如何拯救一个创意枯竭的“好学生”AI，并从记忆的极限和“心有灵犀”的秘密中，窥见智能的本质。准备好了吗？让我们即刻出发！

00:00:33 如果AI学会了“耍心机”，我们怎么才能发现？

00:07:28 我们能给AI做个“脑CT”吗？

00:12:23 如何拯救一个“无聊”的好学生？

00:16:34 你的记忆力，正在如何塑造你的学习天花板？

00:23:42 AI心有灵犀的秘密，藏在一根“直线”里

本期介绍的几篇论文：

[LG] Realistic honeypot evaluations for scheming propensity

[Google DeepMind]

arxiv.org

---

[AI] Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet

[Anthropic]