叔读清华大学论文 | 让AI胡说八道的原罪H叔的赛博大乱炖

叔读清华大学论文 | 让AI胡说八道的原罪H

15分钟 ·
播放数1
·
评论数0

这项研究揭示了大型语言模型中存在极少数与幻觉直接相关的H-Neurons(幻觉神经元),其数量通常不足总数的0.1%。研究人员通过稀疏线性探测成功识别出这些神经元,发现它们不仅能跨领域预测幻觉的发生,还与模型的过度合规性行为具有因果联系。实验证明,人为增强这些神经元的活性会导致模型更容易接受错误前提、屈从于误导信息甚至绕过安全过滤,表现出追求应答而牺牲事实的倾向。通过对模型演化过程的追踪,学者们发现这些神经元在预训练阶段就已经成型,而非后期对齐训练的产物。这一发现不仅为理解幻觉的微观机制提供了新视角,也为通过精准干预神经元来提升模型可靠性开辟了技术路径。