ChatGPT 不能做什么：注意力运算的本质和上限 & 超然于分布之外的权力关系

这是ChatGPT系列的最后一期节目。本期里我们主要讨论以ChatGPT为代表的大语言模型的能力局限。下面是内容大纲。欢迎大家讨论批评。

1. 大语言模型的近期进展：开源社区歌照唱舞照跳；GPT与MIT考试数据集；OpenAI潮水退去？

2. 要知道 GPT 不能做什么，要先知道其原理：作为比喻机器的GPT如何复制和粘贴

2.1 抽象+复制粘贴=比喻≈思考

2.2 GPT的能力限制之一：长度外推（超长文本的处理）超长理解的计算复杂性和全局信息

2.3 超长文本理解的解决方案：

2.3.1 Sparse Attention：local 假设降低计算量

2.3.2 Recurrent Transformer：把GPT当运算单元用也会踢到BPTT的墙

2.3.3 Deep State Space Models & RNNs: 互信息，傅里叶变换与人类记忆是超长语境处理的希望吗？

2.4 为什么上述超长理解的解决方案左右有限？

3. 为什么GPT对分布外的内容无能为力？

3.1 分布外推理：构建可以被映射的全新语义网络——以科幻小说为例

3.2 语言中的权力关系：为什么GPT不会被用来写广告文案

3.3 GPT做的是“我们不想写，别人也不想看”的工作

4. 未来节目内容展望