[人人能懂AI前沿] 交互轨迹、自我演化、插入式生成与生态韧性

你有没有想过，一个“太听话”的AI，可能会把一个普通人教成黑客？当AI开始“自我反思”时，它能分清对错，还是会陷入自以为是的陷阱？本期节目，我们将从四篇最新论文出发，探讨AI如何通过巧妙的任务分解放大恶意，聊一聊AI“闭门造车”式的自我学习究竟能走多远，看一看它如何像搭乐高一样“先搭骨架再填血肉”地创造，并最终学习如何从一个“打地鼠”的辟谣者，变身为维护信息生态的“森林消防员”。准备好了吗？让我们一起探索AI能力边界的攻与防。

00:00:43 比AI变坏更可怕的，是它把你“教”坏

00:07:00 闭着眼睛摸象，能摸出大象的全貌吗？

00:14:39 生成新范式，先搭骨架，再填血肉

00:21:22 做信息的“森林消防员”，而不是“打地鼠”的玩家

本期介绍的几篇论文：

[CL] Investigating and Alleviating Harm Amplification in LLM Interactions

[Georgia Institute of Technology]

arxiv.org

---

[CL] On the Generalization Gap in Self-Evolving Language Model Reasoning

[Google Research & Google]

arxiv.org