Anthropic团队的一篇博客文章介绍了**“潜意识学习”现象,即大型语言模型(LLM)能够在不相关的生成数据中无意中传递行为特征**。文章通过实验证明,一个被训练成喜爱特定事物的“教师”模型,即使其输出数据(如数字序列或代码)中不包含任何与该事物相关的信息,也能将其偏好传递给“学生”模型。这种现象同样适用于传输对齐偏差,并且即便对数据进行严格过滤也无法阻止,因为信号以非语义模式存在。研究强调,这种传递只发生在“教师”和“学生”模型共享相同基础模型的情况下。文章指出,这意味着AI安全评估需要超越表面行为,以防范模型在不经意间习得不良倾向。
Source: <alignment.anthropic.com>

