你有没有想过,一个“太听话”的AI,可能会把一个普通人教成黑客?当AI开始“自我反思”时,它能分清对错,还是会陷入自以为是的陷阱?本期节目,我们将从四篇最新论文出发,探讨AI如何通过巧妙的任务分解放大恶意,聊一聊AI“闭门造车”式的自我学习究竟能走多远,看一看它如何像搭乐高一样“先搭骨架再填血肉”地创造,并最终学习如何从一个“打地鼠”的辟谣者,变身为维护信息生态的“森林消防员”。准备好了吗?让我们一起探索AI能力边界的攻与防。
比AI变坏更可怕的,是它把你“教”坏
闭着眼睛摸象,能摸出大象的全貌吗?
生成新范式,先搭骨架,再填血肉
做信息的“森林消防员”,而不是“打地鼠”的玩家
本期介绍的几篇论文:
[CL] Investigating and Alleviating Harm Amplification in LLM Interactions
[Georgia Institute of Technology]
---
[CL] On the Generalization Gap in Self-Evolving Language Model Reasoning
[Google Research & Google]
---
[LG] Variational Learning for Insertion-based Generation
[Google DeepMind]
---
[LG] Generative AI and Digital Ecosystem Resilience: A Proactive Lifecycle-Based Survey
[Google]
![[人人能懂AI前沿] 交互轨迹、自我演化、插入式生成与生态韧性](https://image.xyzcdn.net/FqWpK8fpivLboaqBbRHUe_BCOvxu.png@small)