序列模型的滑动窗口递归 | SWR框架 | Phalanx层 | 递归架构

序列模型的滑动窗口递归 | SWR框架 | Phalanx层 | 递归架构

12分钟 ·
播放数116
·
评论数0

处理 128k 甚至更长的上下文时,你的大模型是否也快跑不动了?本期深度拆解由AI三巨头之一 Yoshua Bengio 团队发布的最新论文《滑动窗口递归用于序列模型》。他们提出了一种名为SWR的全新框架,旨在终结 Transformer 架构在长序列下的效率噩梦。

论文原文:www.arxiv.org

聊天讨论群,可加微信gxjdian入群