端侧时代,更快更省的 RWKV 架构是下一个 Transformer 吗?| S9E25What's Next|科技早知道

端侧时代,更快更省的 RWKV 架构是下一个 Transformer 吗?| S9E25

39分钟 ·
播放数8400
·
评论数29

自从 ChatGPT 横空出世,几乎所有关于大模型的讨论都离不开 Transformer,那 Transformer 架构也支撑了这一轮生成式 AI 的快速发展。然而在 Transformer 架构的背后,行业也遇到了难以回避的瓶颈:推理和训练成本居高不下,长上下文能力依赖庞大的显存和算力,端侧部署和商业落地困难。Transformer 的困境让神经网络的另一条路径重新被审视——那就是RNN,循环神经网络。
今天我们请到的嘉宾,是元始智能的联合创始人和 COO 罗璇。他与另一位创始人彭博一起持续的探索基于循环神经网络的可扩展架构 RWKV。RWKV 架构能否在 Transformer 面临的核心问题上提供一种替代方案?新的架构是否给端侧模型的发展带来更多更大的机会?今天我们将和罗璇一起,从底层架构的设计出发,聊聊 RWKV 的可扩展性、 下一代大模型可能的走向,以及端侧 AI 的机会与未来。

本期人物
罗璇,元始智能联合创始人兼 COO
Yaxian,「科技早知道」主播

主要话题
03:30 训练效率低、Scaling law 见顶,成本高昂,Transformer 的瓶颈催生新架构的探索
08:15 高效并行、低复杂度,易端侧部署,RWKV 为 Transformer 提供了可替代方案
13:24 新型 RNN 与 Attention 混合模型就像油电混动车,但纯电才是大模型的未来
17:07 大厂押注新架构:基于 RWKV 架构的模型已达到 70B 激活参数
23:47 突破算力、内存和功耗限制,RWKV 天生适合端侧部署
26:24 未来 80% 的 AI 计算将在端侧,巨头尚未涉足的增量市场才是创业公司的机会
32:35 端侧机会有哪些?空间计算或是下一个风口
38:20 RWKV 的 「ChatGPT」时刻将至:新架构对 AGI 的实现必不可少

延伸阅读
RNN(Recurrent Neural Network)
即循环神经网络,是一类专为处理序列数据设计的深度学习架构。它的核心机制是「循环」:当前时刻的输出不仅依赖于当前输入,还受到上一个时刻隐藏状态的影响,因此 RNN 具备记忆历史信息的能力。但经典的 RNN 也存在梯度消失/梯度爆炸、训练难以并行化和难以扩展至大模型规模等问题。RWKV 是一种结合 RNN 和 Transformer 优势的神经网络架构。

Mamba 架构
是一个专为高效处理长文本而设计的线性时间复杂度模型架构,它通过状态空间模型(State Space Model, SSM)实现类似 RNN 的信息传递方式,但比传统 RNN 更强、比 Transformer 更快。

LSTM(Long Short-Term Memory)
是一种改进版的 RNN 架构,全称为 「长短期记忆网络」。是一种具有“记忆控制能力”的循环神经网络,能够有效建模长期依赖关系,是 RNN 在深度学习时代的关键进化版本。

MoE 模型
MoE(Mixture of Experts,专家混合模型)是一种通过多个子网络(专家)组成的架构,每次仅激活其中一部分以提升计算效率与模型容量。它通过「按需使用」不同专家,实现高效推理与更强的任务适应能力。

XR(Extended Reality)
指扩展现实,是虚拟现实(VR)、增强现实(AR)和混合现实(MR)的统称,用于描述融合现实与数字内容的交互体验。

幕后制作
监制:Yaxian
后期:迪卡
运营:George
设计:饭团

商业合作
声动活泼商业化小队,点击链接直达声动商务会客厅,也可发送邮件至 business@shengfm.cn 联系我们。

🌍「Knock Knock 世界」特别节目上线!
上周更新了三期解读。聊了聊 AI 为什么会「出错」、飞机「退役」后会去向哪里,以及伊朗声称要封锁霍尔木兹海峡,这个海峡跟我们日常生活有哪些关联。现在就去节目主页一探究竟吧 ↓
小宇宙听友请点这里
Apple Podcast 听友请点这里

加入声动活泼
声动活泼目前开放开放人才发展伙伴岗、市场部门岗位(节目运营、社群运营、内容营销)和 BD 经理等职位,详情点击招聘入口

关于声动活泼
「用声音碰撞世界」,声动活泼致力于为人们提供源源不断的思考养料。
我们还有这些播客:声动早咖啡声东击西吃喝玩乐了不起反潮流俱乐部泡腾 VC商业WHY酱跳进兔子洞不止金钱
欢迎在即刻、微博等社交媒体上与我们互动,搜索 声动活泼 即可找到我们。
期待你给我们写邮件,邮箱地址是:ting@sheng.fm
声小音
欢迎扫码添加声小音,在节目之外和我们保持联系。

Special Guest: 罗璇.

展开Show Notes
Soong_2zha
Soong_2zha
2025.7.24
这哥们只说rwkv的好,不说缺点,这有点不合理,如果rwkv这么好,为啥国外同行都不all in?人家既有资金也有人才为啥不干呢?为啥呢?难道人家都是人傻钱多么?有点搞了,资本都不傻哈
罗X:微软、中国电科在公开用,还有很多大厂和独角兽在用。还有很多科研机构和大厂,把rwkv改一改换个名字用。
Bill_LWM0
Bill_LWM0
2025.7.25
不太诚实的分享者。。
罗X:请指出哪里不诚实
jhwei
jhwei
2025.7.24
不认同嘉宾针对端侧的一些想法。端侧的算力有限是没问题的,但是不管是transformer还是rwkv或者其他的模型架构,对于显存(或者以后能不依赖gpu那就是内存,但是我觉得不会)需求依然很高,因为依然需要存储去存“知识”。
目前不管是手机还是其他嵌入式设备的内存都没有那么高。如果去堆存储,那就是看谁的效果更好了。
端侧目前更多的意义在于快速响应和简单任务处理,并不是把云端完全搬到端侧
罗X:存储是分级的,显存内存硬盘都是存储
jhwei:分级的存储对应的时延也是分级的
尖头叉子
尖头叉子
2025.7.28
36:23 rwkv对物理世界有理解能力?这种话也敢说?那可以拿图灵奖了
罗X:希望你用rwkv试试,估计能拿图灵奖(不开玩笑)
Baca
Baca
2025.7.25
感觉就是RWKV的好处还是停留在理论上的,所谓的KV cache资源优势在各种大模型优化下差别不大 现在模型还在不断突破能力极限的情况下 这个优点可以忽略不计 短期内可能真的只有端测可能落地
罗X:可以看一下open-4o、deepmind的titans和atlas
斯迪仔
斯迪仔
2025.7.24
感觉嘉宾只说 rwkv 的好处,没提风险和卡点😂这节奏做空英伟达可以咯
罗X:我说了现在主流是rnn+attention的混合模型。因为现阶段长上下文的建模能力,transformer更强。混合模型就解决了这个问题,另外rwkv-7s有全新的混合方案。
Hao_JWmY
Hao_JWmY
2025.7.29
本来是准备新关注个科技号,结果请来的就这
罗X:您做过什么科技么?
HD425219z
HD425219z
2025.7.23
听不懂一点😂
Caldis
Caldis
2025.7.30
嘉宾风格像开发文档
得先对比效果,比如对比现在用的比较多的qwen3-4b、gemma3-4b在大语言、多模态各类场景下benchmark分数对比,不然就跟现在各种线性注意力比如mamba、lightning一样流行不起来。AI首要的还得是智商。
罗X:智商是什么,肯定不是背题
无面仔
无面仔
2025.7.23
21:09 不是有论文说过长的CoT对结果没有正收益吗?
罗X:基于rwkv做state tracking的任务,是值得写论文的
瓦尓特
瓦尓特
2025.7.24
07:41 要想用到端侧算力就意味着新的产品形态
罗X:看好眼镜形态的空间计算终端,机器人可能更远一点
YasashiiSuis
YasashiiSuis
2025.7.29
建议主播请嘉宾前多做下调查,参考一下这个知乎,很难想象能请到这种人🤣一个关于RWKV 和 农夫与蛇 的故事 https://zhuanlan.zhihu.com/p/1915435624888005085
罗X:不妨再多看几篇知乎 https://zhuanlan.zhihu.com/p/1915054612559426430 https://zhuanlan.zhihu.com/p/1925622455092909492
dddd0401
dddd0401
2025.7.23
相对于普通从业者和兴趣者来说很有前瞻性的选题,不错不错 👍
毛大袜
毛大袜
2025.7.29
喜欢,提供了一个挑战者的视角。
赶紧让苹果用上这个吧