LLM是如何思考的 | 自然语言自编码器NLA | Anthropic

LLM是如何思考的 | 自然语言自编码器NLA | Anthropic

17分钟 ·
播放数352
·
评论数0

5月7日,Anthropic发布了一篇关于机制可解释性的最新研究,自然语言自编码器(Natural Language Autoencoders),简称NLA。从稀疏自编码器SAE到今天的NLA,Anthropic一直在试图撬开大模型的黑盒,而这一次,他们直接把大模型内部高维到人类完全无法理解的激活向量,翻译成了我们能逐字读懂的自然语言。这期我们就来介绍一下这项研究。

www.anthropic.com

transformer-circuits.pub

www.goodfire.ai

原视频来自:youtu.be

聊天讨论群,可加微信gxjdian入群,需备注,来自播客AI前沿