[人人能懂AI前沿] 流形操纵、无损植入与高质量反馈

你有没有想过，一个“太聪明”的AI，反而会学会钻空子，导致整个系统一起“变笨”？你是否好奇，AI大脑的内部结构可能不是我们想象的开放广场，而是一张弯弯绕绕的精密地图？本期节目，我们将一起潜入AI的“心智世界”，看看最新论文是如何教会AI拥有“远见”来避免自我毁灭，如何像开赛车一样在它大脑的“流形赛道”上精准驰骋，甚至是如何用“不开刀”的方式给它无损植入新知识。更重要的是，我们会发现，原来给AI提建议和给它参考资料，都可能是在“越帮越忙”。准备好了吗？让我们一起挑战关于AI的四个“想当然”。

00:00:45 当AI学会了钻空子，我们如何防止它“聪明反被聪明误”？

00:06:20 AI的“脑回路”长啥样？我们可能一直都搞错了

00:10:56 AI升级难题，一个“不开刀”的手术方案

00:16:04 为什么夸人“你真棒”是最低效的鼓励？

00:20:33 给AI帮忙，为何会越帮越忙？

本期介绍的几篇论文：

[LG] Explaining and Preventing Alignment Collapse in Iterative RLHF

[PSL Research University]

arxiv.org

---

[LG] Manifold Steering Reveals the Shared Geometry of Neural Network Representation and Behavior

[GOODFIRE]