Anthropic团队的一篇博客文章介绍了**“潜意识学习”现象，即大型语言模型（LLM）能够在不相关的生成数据中无意中传递行为特征**。文章通过实验证明，一个被训练成喜爱特定事物的“教师”模型，即使其输出数据（如数字序列或代码）中不包含任何与该事物相关的信息，也能将其偏好传递给“学生”模型。这种现象同样适用于传输对齐偏差，并且即便对数据进行严格过滤也无法阻止，因为信号以非语义模式存在。研究强调，这种传递只发生在“教师”和“学生”模型共享相同基础模型的情况下。文章指出，这意味着AI安全评估需要超越表面行为，以防范模型在不经意间习得不良倾向。
Source: <https://alignment.anthropic.com/2025/subliminal-learning/>

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

edwardlol

jameszhou2108@hotmail.com

借助 NotebookLM 将精选的热门论文或个人感兴趣的学术内容转化为中文播客，帮助更多人轻松获取前沿知识。

AI_SUMMARIZE_EPISODE

readthepapers

Subliminal Learning - Alignment Science Blog from Anthropic

68355bd9988e11fcbd89349e/lh9Ib7tH8ifg9HqZvNAU8QgFAM5U.m4a