ChatGPT 不能做什么:注意力运算的本质和上限 & 超然于分布之外的权力关系

ChatGPT 不能做什么:注意力运算的本质和上限 & 超然于分布之外的权力关系

79分钟 ·
播放数163
·
评论数6

这是ChatGPT系列的最后一期节目。本期里我们主要讨论以ChatGPT为代表的大语言模型的能力局限。下面是内容大纲。欢迎大家讨论批评。

1. 大语言模型的近期进展:开源社区歌照唱舞照跳;GPT与MIT考试数据集;OpenAI潮水退去?

2. 要知道 GPT 不能做什么,要先知道其原理:作为比喻机器的GPT如何复制和粘贴

2.1 抽象+复制粘贴=比喻≈思考

2.2 GPT的能力限制之一:长度外推(超长文本的处理)超长理解的计算复杂性和全局信息

2.3 超长文本理解的解决方案:

2.3.1 Sparse Attention:local 假设降低计算量

2.3.2 Recurrent Transformer:把GPT当运算单元用也会踢到BPTT的墙

2.3.3 Deep State Space Models & RNNs: 互信息,傅里叶变换与人类记忆是超长语境处理的希望吗?

2.4 为什么上述超长理解的解决方案左右有限?

3. 为什么GPT对分布外的内容无能为力?

3.1 分布外推理:构建可以被映射的全新语义网络——以科幻小说为例

3.2 语言中的权力关系:为什么GPT不会被用来写广告文案

3.3 GPT做的是“我们不想写,别人也不想看”的工作

4. 未来节目内容展望

展开Show Notes
冒昧叨扰,请问您播客近期还有更新计划吗?🥲
ptdy
:
居然有人听😨 上个月有一期录乐透猜想和解空间密度的录一半有事放下了… 会尽快录完更新上
芝士西多士:这可太好了,期待!
延迟更新
延迟更新
2024.6.17
1:06:58 这段观点阐述感觉论证基础很弱,理论上需要证明之前训练的结果不可能泛化到其他领域才行,不然这个说法就只能算是抛出一个未被验证的命题而已了。
当然,这也算是抬杠。
SG上古
SG上古
2023.9.07
傅里叶是?
启总
启总
2023.7.02
深入浅出,挺好