这是ChatGPT系列的最后一期节目。本期里我们主要讨论以ChatGPT为代表的大语言模型的能力局限。下面是内容大纲。欢迎大家讨论批评。
1. 大语言模型的近期进展:开源社区歌照唱舞照跳;GPT与MIT考试数据集;OpenAI潮水退去?
2. 要知道 GPT 不能做什么,要先知道其原理:作为比喻机器的GPT如何复制和粘贴
2.1 抽象+复制粘贴=比喻≈思考
2.2 GPT的能力限制之一:长度外推(超长文本的处理)超长理解的计算复杂性和全局信息
2.3 超长文本理解的解决方案:
2.3.1 Sparse Attention:local 假设降低计算量
2.3.2 Recurrent Transformer:把GPT当运算单元用也会踢到BPTT的墙
2.3.3 Deep State Space Models & RNNs: 互信息,傅里叶变换与人类记忆是超长语境处理的希望吗?
2.4 为什么上述超长理解的解决方案左右有限?
3. 为什么GPT对分布外的内容无能为力?
3.1 分布外推理:构建可以被映射的全新语义网络——以科幻小说为例
3.2 语言中的权力关系:为什么GPT不会被用来写广告文案
3.3 GPT做的是“我们不想写,别人也不想看”的工作
4. 未来节目内容展望
