本期我们要聊聊AI世界里那些看似矛盾却充满智慧的最新发现。为什么教AI做好事,它反而会“变坏”?又该如何像做微创手术一样,只修正它的一个知识点而不破坏整体能力?我们还会探讨,为什么在训练中“刻意放手”让模型偷个懒,效果反而更好,以及我们该如何打开AI的“奖励黑箱”,看看它到底在偷偷学些什么。准备好了吗?让我们一起潜入AI思想的深海。
00:00:33 AI大模型军备竞赛,如何不做那个“冤大头”?
00:07:09 成长的捷径,学会“刻意放手”
00:12:52 好心办坏事,为什么训练AI做好事,它却变坏了?
00:18:46 如何给AI动手术,才能只切病灶不伤身?
00:24:37 打开AI的黑箱,它在偷偷学什么?
本期介绍的几篇论文:
[LG] Prescriptive Scaling Reveals the Evolution of Language Model Capabilities
[Harvard University & Stanford University]
---
[LG] On Surprising Effectiveness of Masking Updates in Adaptive Optimizers
[Google & Northwestern University]
---
[LG] The Geometry of Alignment Collapse: When Fine-Tuning Breaks Safety
[Princeton University]
---
[LG] CrispEdit: Low-Curvature Projections for Scalable Non-Destructive LLM Editing
[University of Southern California]
---
[LG] Discovering Implicit Large Language Model Alignment Objectives
[Stanford University]
![[人人能懂AI前沿] 从潜力天花板、刻意放手到几何陷阱](https://image.xyzcdn.net/FuDP4HpAp8ezgVZMmEel3mblKCmJ.jpg@small)