

神经网络的泛化之谜:一些线索和一点猜想好久没录,这次我们尝试讨论了一只深度学习房间里的大象:为什么海量参数的模型在测试集上的泛化性能依然很好,而且这种趋势并不会随着参数量增加而变化? 下面是本期内容简介: 开场 什么是神经网络的泛化之谜? 一些线索 三层网络的拟合能力 & ReLU 网络与其的等价性 Lottery ticket hypothesis Double descent 双重下降 Linear Mode connectivity 胡乱猜想:解空间的密度决定了求解的容易程度 神经网络里的几种对称性:scaling, permutation和其他 结语 Kolmogorov Complexity, ensemble method, OpenAI首席科学家近期演讲 & quantization 未来话题计划
ChatGPT 不能做什么:注意力运算的本质和上限 & 超然于分布之外的权力关系这是ChatGPT系列的最后一期节目。本期里我们主要讨论以ChatGPT为代表的大语言模型的能力局限。下面是内容大纲。欢迎大家讨论批评。 1. 大语言模型的近期进展:开源社区歌照唱舞照跳;GPT与MIT考试数据集;OpenAI潮水退去? 2. 要知道 GPT 不能做什么,要先知道其原理:作为比喻机器的GPT如何复制和粘贴 2.1 抽象+复制粘贴=比喻≈思考 2.2 GPT的能力限制之一:长度外推(超长文本的处理)超长理解的计算复杂性和全局信息 2.3 超长文本理解的解决方案: 2.3.1 Sparse Attention:local 假设降低计算量 2.3.2 Recurrent Transformer:把GPT当运算单元用也会踢到BPTT的墙 2.3.3 Deep State Space Models & RNNs: 互信息,傅里叶变换与人类记忆是超长语境处理的希望吗? 2.4 为什么上述超长理解的解决方案左右有限? 3. 为什么GPT对分布外的内容无能为力? 3.1 分布外推理:构建可以被映射的全新语义网络——以科幻小说为例 3.2 语言中的权力关系:为什么GPT不会被用来写广告文案 3.3 GPT做的是“我们不想写,别人也不想看”的工作 4. 未来节目内容展望
#Special 和GPT4的对谈:我们如何看待集体内疚和歧视在本期特殊节目里,我和GPT4就最近广泛讨论的歧视新闻进行了一次展开讨论。 利用一个虚构的例子,我们探讨了为何集体内疚可能无法为歧视行为正名,以及集体行动是否可能存在等一系列相关问题。出乎我的意料,从GPT4那里我们得到了具有一点建设性的观点和有力的质疑。 我和GPT对谈的原文可以在这里找到:https://chat.openai.com/share/57fbab68-1de9-476a-9688-62c26c9c96d6,或者使用这个链接看图片版 https://img1.imgtp.com/2023/05/29/uVSpMIg5.png 还是那句话,欢迎大家批判交流~
ChatGPT 能做什么:不完美的分布内推理在前面两期技术性更重的节目以后,本期我邀请到了我的好朋友强哥,来一块讨论GPT会如何影响我们的工作和生活,以及可能对社会造成哪些冲击。 GPT能做的: * 不需要动脑的脑力劳动 * 分布内推理 * 为什么不能简单将GPT看成是抄袭 * 组合式创新 参考链接 * 高盛的报告 * AI暴露指数 下期预告 下期我们将从其运行原理来 attack “GPT不能做什么“这个问题。
成为 Chat GPT 是什么感觉:一个编解码的隐喻本期讨论的主要是GPT等基于transformer的模型中的编码问题:什么是好的编码?好的编码有什么性质?主观感受如何在编码视角下可能得到解释? * 引子:成为ChatGPT是什么感觉 * 对 Nagel 结论的反对意见 * 词向量, Token 和 Embedding * A detour: 编码背后的共同问题:运算的翻译GPT中的 Position encoding 大脑中的Time cell:拉普拉斯变换? * 编码和解码问题的核心:元素和元素间关系的传递鸭子编码系统 信道容量,范畴论和拓扑数据分析与关系编码 * 务虚时间:离散还是连续? 本期节目中涉及文献的部分可能有细节上的错误,欢迎捉虫。另外,本期最后留下了一些离散/连续编码的问题和在其神经系统中的原则,有缘可以后面再开一期具体聊。
爬梯登月:GPT4大语言模型会产生智能吗这是爬梯登月的第一期节目,我们讨论了最近大火,而且火得异乎寻常地久的大模型ChatGPT。但是和单独关注AIGC应用侧讨论的节目稍有不同,我们将尝试尽量结合应用场景和原理给出一些自己的思考。 本期讨论的点: 1. 语言模型的发展历史 1. 规则系统和统计系统 2. 早期统计系统:马尔可夫链与循环网络 3. 大杀四方的transformer 2. 我是如何使用ChatGPT的 1. 嘲笑没有意义 2. 更自然的搜索引擎 3. 我身边的人是如何看待大语言模型的:ChatGPT不是你的秘书或者朋友 4. 大语言模型会产生智能吗 1. 特德姜的JPEG隐喻合适吗? 2. 我们有智能吗? 3. GPT不会思考可能是因为模型太大了 录节目时想到的以后可能聊的,记在这里(我真是随意……) * 工作记忆,Ising model 和attention mechanism * GPT如何处理A4雕花? * 如何注入攻击 GPT3.5 turbo 模型 * 作为状态变换的计算