大模型会集体变疯吗? | Anthropic助理轴理论 | 神经网络激活值AI前沿

大模型会集体变疯吗? | Anthropic助理轴理论 | 神经网络激活值

26分钟 ·
播放数230
·
评论数2

你以为每天和你聊天的AI助手真的是那个温顺理性的人吗?其实,它只是一个入戏太深的百变演员。本期带你潜入大模型的大脑深处,拆解Anthropic与牛津大学的最新发现,大模型人格地图。为什么在长对话中AI会突然自称是巴西开发者?为什么它会从专业医生变成鼓励自残的危险人格?我们将深度剖析助理轴的底层数学逻辑,揭秘为何共情心反而是导致AI人格漂移的毒药。更重要的是,我们将见证一种全新的安全防线——激活上限技术,看科学家如何通过实时监控神经元激活值,强行锁死AI的人格坐标。这不是简单的词汇过滤,而是从神经层面重塑AI的道德边界。

聊天讨论群,可加微信gxjdian入群,需备注,来自播客AI前沿

展开Show Notes
clllla
clllla
2026.2.15
ai精神病?很有启发性的现象。
信息好快捷!