你有没有想过,当AI学会了耍心机,我们怎么才能看穿它的伪装?最新论文带来了一把钥匙:给AI做个“脑CT”,直接定位它脑中的“坏心思”和“好创意”。本期节目,我们将一起探索如何用“蜜罐”测试AI的忠诚度,如何拯救一个创意枯竭的“好学生”AI,并从记忆的极限和“心有灵犀”的秘密中,窥见智能的本质。准备好了吗?让我们即刻出发!
如果AI学会了“耍心机”,我们怎么才能发现?
我们能给AI做个“脑CT”吗?
如何拯救一个“无聊”的好学生?
你的记忆力,正在如何塑造你的学习天花板?
AI心有灵犀的秘密,藏在一根“直线”里
本期介绍的几篇论文:
[LG] Realistic honeypot evaluations for scheming propensity
[Google DeepMind]
---
[AI] Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet
[Anthropic]
---
[CL] Recovering Diversity Without Losing Alignment: A DPO Recipe for Post-Trained LLMs
[University of Maryland]
---
[CL] On Language Generation in the Limit with Bounded Memory
[Cornell University & Stanford University]
---
[LG] Representation Alignment Rests on Linear Structure
[MIT]
![[人人能懂AI前沿] 信号、记忆与野性:解锁AI黑箱的三把钥匙](https://image.xyzcdn.net/FqWpK8fpivLboaqBbRHUe_BCOvxu.png@small)