[人人能懂AI前沿] AI的自我修炼、致命盲区与隐藏记忆

[人人能懂AI前沿] AI的自我修炼、致命盲区与隐藏记忆

23分钟 ·
播放数161
·
评论数0

如果一个AI能像武学奇才一样自我进化,创造出最强的攻击招式,而它最致命的弱点,竟然是几句古老的文言文,这会是怎样一幅奇特的攻防图景?当AI在我们眼皮底下藏着一座秘密的版权图书馆,一个不经意的操作就让它开始“背书”时,我们又该如何看待它的“记忆”?本期,我们就从几篇最新论文出发,看看这些“自我进化”、“文化奇袭”和“一体化创造”的研究,如何再次刷新我们对AI能力边界的认知。

00:00:34 AI内卷,当你的对手开始自我进化

00:06:05 AI的致命缺陷,竟然是文言文?

00:10:38 你的AI,藏着一座秘密图书馆

00:15:51 AI绘画新思路,当翻译官和小说家是同一个人

本期介绍的几篇论文:

[LG] Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs  

[MATS & Imperial College London]  

arxiv.org 

---

[CL] Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search  

[Nanyang Technological University & Northeast University & Renmin University of China]  

arxiv.org 

---

[CL] Alignment Whack-a-Mole : Finetuning Activates Verbatim Recall of Copyrighted Books in Large Language Models  

[Stony Brook University & CMU & Columbia Law School]  

arxiv.org 

---

[CV] End-to-End Training for Unified Tokenization and Latent Denoising  

[MIT & Adobe]  

arxiv.org