【第610期】潜意识学习：大模型通过隐性信号传递行为特征

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

Language models transmit behavioural traits through hidden signals in data

Summary

我们研究了一种被称为“潜隐学习（subliminal learning）”的惊人现象：语言模型能够通过语义上毫不相关的数据传递行为特征。

在我们的主要实验中，一个具有某种特征 T 的“教师”模型（例如喜欢猫头鹰，或存在对齐问题）会生成一个仅由数字序列构成的数据集。令人惊讶的是，一个在该数据集上训练的“学生”模型，也会学会这种特征 T。

即使对数据进行了过滤、移除了与 T 有关的显式引用，这种现象依然存在。

我们还观察到：

同样会出现这种效应。

然而，当教师模型与学生模型的基础模型（base model）不同时，我们并未观察到该现象。

为了帮助解释这一发现，我们从理论上证明：在某些条件下，所有神经网络中都会出现潜隐学习。同时，我们还在一个简单的多层感知机（MLP）分类器中演示了潜隐学习现象。

我们最终得出结论：潜隐学习是一种普遍现象，并为 AI 开发带来了一个出乎意料的风险。

例如，在模型蒸馏（distillation）过程中，即便开发者试图通过数据过滤来阻止某些行为特征传播，这些非预期特征仍可能被隐式传递给新模型。

原文链接：arxiv.org