AI居然会骗人?Claude“生物学原理”破译LLM脑回路:它比你想象的更像人

AI居然会骗人?Claude“生物学原理”破译LLM脑回路:它比你想象的更像人

8分钟 ·
播放数22
·
评论数0

00:07 模型内部将输入信息拆解为“features”(特征单元),类似生物系统中的细胞;并通过 attribution graphs(归因图)观察特征之间如何互相影响。

02:08 模型在推理问题时采用两步激活机制:先激活与问题相关的“中间概念”,再激活最终答案相关的概念。举例说明“达拉斯州的首府是哪里”这一推理过程。

03:46 在生成诗句时,模型会提前激活与押韵或句子结构有关的词语特征,进行目标导向的规划(如“rabbit”提前激活“habit”)。模型生成押韵句子的机制:不是随机选择,而是根据目标押韵词,提前规划整句结构,再从词库中挑选满足要求的词语。

04:10 模型内部存在跨语言共享的通用语义处理机制,它们先处理抽象概念,再映射到具体语言表达中,从而实现高度迁移与语言理解能力。

07:54 隐藏模式机制出现:模型会将与其“助手角色”相关的某些功能和特征,整合为其核心身份的一部分,嵌入整体表征中。当模型以“助手身份”运行时,这些隐藏机制会被自动激活,成为其“常用功能”被吸收整合。这可能是无意识形成的行为模式。