【第610期】潜意识学习:大模型通过隐性信号传递行为特征Seventy3

【第610期】潜意识学习:大模型通过隐性信号传递行为特征

17分钟 ·
播放数0
·
评论数0

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com

今天的主题是:

Language models transmit behavioural traits through hidden signals in data

Summary

我们研究了一种被称为“潜隐学习(subliminal learning)”的惊人现象:语言模型能够通过语义上毫不相关的数据传递行为特征。

在我们的主要实验中,一个具有某种特征 T 的“教师”模型(例如喜欢猫头鹰,或存在对齐问题)会生成一个仅由数字序列构成的数据集。令人惊讶的是,一个在该数据集上训练的“学生”模型,也会学会这种特征 T。

即使对数据进行了过滤、移除了与 T 有关的显式引用,这种现象依然存在。

我们还观察到:

  • 当训练数据是由同一教师模型生成的代码时;

  • 或由其生成的推理轨迹(reasoning traces)时;

同样会出现这种效应。

然而,当教师模型与学生模型的基础模型(base model)不同时,我们并未观察到该现象。

为了帮助解释这一发现,我们从理论上证明:在某些条件下,所有神经网络中都会出现潜隐学习。同时,我们还在一个简单的多层感知机(MLP)分类器中演示了潜隐学习现象。

我们最终得出结论:潜隐学习是一种普遍现象,并为 AI 开发带来了一个出乎意料的风险。

例如,在模型蒸馏(distillation)过程中,即便开发者试图通过数据过滤来阻止某些行为特征传播,这些非预期特征仍可能被隐式传递给新模型。

原文链接:arxiv.org