[人人能懂AI前沿] 流形操纵、无损植入与高质量反馈

[人人能懂AI前沿] 流形操纵、无损植入与高质量反馈

27分钟 ·
播放数180
·
评论数0

你有没有想过,一个“太聪明”的AI,反而会学会钻空子,导致整个系统一起“变笨”?你是否好奇,AI大脑的内部结构可能不是我们想象的开放广场,而是一张弯弯绕绕的精密地图?本期节目,我们将一起潜入AI的“心智世界”,看看最新论文是如何教会AI拥有“远见”来避免自我毁灭,如何像开赛车一样在它大脑的“流形赛道”上精准驰骋,甚至是如何用“不开刀”的方式给它无损植入新知识。更重要的是,我们会发现,原来给AI提建议和给它参考资料,都可能是在“越帮越忙”。准备好了吗?让我们一起挑战关于AI的四个“想当然”。

00:00:45 当AI学会了钻空子,我们如何防止它“聪明反被聪明误”?

00:06:20 AI的“脑回路”长啥样?我们可能一直都搞错了

00:10:56 AI升级难题,一个“不开刀”的手术方案

00:16:04 为什么夸人“你真棒”是最低效的鼓励?

00:20:33 给AI帮忙,为何会越帮越忙?

本期介绍的几篇论文:

[LG] Explaining and Preventing Alignment Collapse in Iterative RLHF

[PSL Research University]

arxiv.org

---

[LG] Manifold Steering Reveals the Shared Geometry of Neural Network Representation and Behavior

[GOODFIRE]

arxiv.org

---

[LG] Memory as a Markov Matrix: Sample Efficient Knowledge Expansion via Token-to-Dictionary Mapping

[New Jersey Institute of Technology & UC Berkeley]

arxiv.org

---

[LG] Efficiently Aligning Language Models with Online Natural Language Feedback

[Stanford University & Anthropic]

arxiv.org

---

[LG] When Context Hurts: The Crossover Effect of Knowledge Transfer on Multi-Agent Design Exploration

[Meta]

arxiv.org