No.112 对谈罗璇&刘潇：大模型注定是属于巨头的吗？

三五环

46分钟 ·2年前

9112

嘉宾｜罗璇，CPO@元智能OS，炬星科技联创，前阿里产品总监

嘉宾｜刘潇，CTO@元智能OS

主播 | 刘飞，三五杯联合创始人，产品经理，内容创作者

近期在 AI—Transforme 主办的中国第一场AIGC编程马拉松（Hackathon）中，“元智能”团队问鼎冠军。

本期邀请了元智能的 CPO 罗璇和 CTO 刘潇，一起聊一聊他们在做什么、什么是 RWKV，以及他们作为“民间团队”的竞争力在哪。

大模型真的有想象中那么高的门槛吗？接下来大模型会是开源的还是闭源的，还是共存的？未来的 AI 能力是少数大厂独享的，还是会快速平民化？

罗璇的上一期：No.106 跟罗璇和小丸子聊聊为什么产品经理对 AI 很兴奋？

内容索引

01:04 Part1 「元智能」的竞争力

全球范围内非常有特点的一个开源大模型

与 GPT 的差异点：空间和时间复杂度，开源方式，调优成本低，长文本领域

数据安全: C 端手机私有化部署， B 端的服务器私有化部署

刘潇：transformer 是一个偶然，RWKV 这个方向是必然

RWKV 更像是人的思考逻辑

16:32 Part2 开源大模型是未来？

数据安全问题，当 GPT 不受限将不可控

罗璇：当全球 50% 以上的人的数据集中在一两家大公司，这是一件很非常恐怖的事情

罗璇：未来我的大模型的能力是平民化的，是能够掌握在每个人手上的

刘潇：RWKV 想做中国自己的价值观体系的东西

24:27 Part3 RWKV模型的使用场景

机器人、XR、 LT

长文本处理，写作小说领域

“艾拉的寿命只有8192token，RWKV要给她完整的一生” -RWKV社区

制作人：严格

片头：Where Are You Going (Live) - 海龟先生

片尾：Pale Blue - The fin

相关

欢迎在评论区留言交流。如果喜欢《三五环》，也恳请能在苹果 Podcast 、网易云音乐、Spotify 或喜马拉雅留下你的宝贵好评。感谢！

商务合作&嘉宾自荐，请加微信： wocaishiliufei

展开Show Notes

monkeyfu

2023.5.12

明显感觉出来国内外创业者对于端上和云端态度的差异。国内创业者对于云端数据安全问题的担忧远远大于国外的创业者。主要原因还是国外有更严格的数据合规要求，并且严格执行，所以国外的企业并不对此顾虑重重。在我从事的医疗AI领域，对此深有体会

罗X

2023.5.11

今天出的榜单。 RWKV 是目前最强最快的开源可商用模型（LMsys Arena 榜单）https://lmsys.org/blog/2023-05-10-leaderboard/

captainmiaoo

2023.5.14

29:37 xr这段完全不同意，问题不是在缺少内容，问题还是出在设备体验太差

HD757370x:也不能说没影响，当初alyx还是吸引了不少人购入VR设备的，可惜之后几年新出的游戏都没这么精良的了

monkeyfu

2023.5.12

在并行问题解决后，RNN系模型最大的问题在于如何将先前遗忘的内容在后面需要的时候再捡回来。当然你可以说局部化原理，但是根据不同应用场景，局部化原理并不总是成立的，比如在GPT4发布的演示中给定税务局的税务条例和个人的年度资金状况，让模型去辅助保税，在这个场景下就需要反复查看上下文，对于RNN模型而言，如果前面的内容忘记了，后面就不容易再把这部分知识找回了。

monkeyfu:实际上Transformer模型针对注意力模型的开销也有不少解决方案，比如稀疏注意力等等

罗X

2023.5.23

RWKV的论文刚出炉
https://arxiv.org/abs/2305.13048
RWKV: Reinventing RNNs for the Transformer Era

monkeyfu

2023.5.12

嘉宾一方面说RWKV做到极致了，一方面说Transformer(SelfAttention)是偶然，这种说法太营销向了。。。

monkeyfu

2023.5.12

刘飞问出了一个好问题，但是嘉宾的回答更像是自我营销。大模型未来一定会像水电煤气网络一样成为基础设施，这就意味着规模化，工业标准化才是关键，具体比如算力建设，数据合规，标准制定等等。至于大模型本身的优化，实际上这只是其中一部分，而且迭代速度极快，比如从ChatGPT出来到现在已经迭代了很多轮，看看学术论文的比较也能发现这个速度是非常快的。所以单纯做大模型对于一个创业公司而言，并不能形成壁垒，这也是为什么很多行业资深人士最近出来创业都选择了诸如算力建设等等，而不是大模型。比如贾扬清，李沐等等

小万邦

2023.5.18

15:56 我不同意两位创业者，小型化LLM不是正确的道路。大模型表现出来的涌现能力基本上依赖于数据量和大量的pre-post effort。相同cost下更精密的model和更好的性能”是典型的学术思路，在你证明你有能力scaleup这个模型并达到LLM SOTA之前，你不能证明这是正确的做法。换句话说，大模型的推理优化和大模型本身是完全不同的工程，混淆这两者的small language model是不会成功的。

susu-

2023.5.14

嘉宾可能存在的误读：公开信提议的是GPT4以上大模型的*训练*暂停六个月，不是所有的AGI研究。之所以可能可行是因为受到影响的只有三家：OpenAI、谷歌和DeepMind。公开信客观上让全球各国的政策制定者关注到了AI可能存在的风险。另外我不认为AI最大的安全问题是数据安全，而是我们并不了解它能做什么、在做什么，就匆忙地商业化、扩大规模。这在历史上任何其他行业都是几乎不可能的事情（生物医疗、核技术等）。近期Hinton也从谷歌辞职，呼吁注重AI的生存性安全问题，我认为是非常值得重视的。

monkeyfu

2023.5.12

OpenAI闭源是因为训练大模型需要很多钱，但是他们没有钱。那段时间OpenAI都快干不下去关门大吉了，因为他的这种模式没有投资人愿意做海量的资金投入。所以后来调整了方式选择了闭源。正所谓虽然要星辰大海，但也要低头吃饭。但是如果你看OpenAI和微软的投资协议书的话，在OpenAI把微软投入的钱都还上以后，OpenAI会拿回自己的股权赎身，那个时候OpenAI是不是还有当初的情怀，我们拭目以待

monkeyfu

2023.5.12

对于超长文本，请参见最新发布的Claude-100k，支持10万token的上下文

sanbai_

2023.5.11

29:24 嗅到一丝元宇宙拥趸的气息

罗X:其实我是做机器人的

astronaut_xeTK

2023.5.12

15:24 15:14 感觉我们又要赢了！

Marquez

2023.5.11

请问现在能试用元智能的AI了么

刘潇@RWKV:https://modelscope.cn/search?search=RWKV 中英文都有 https://huggingface.co/spaces/BlinkDL/Raven-RWKV-7B 7B 英文v11x https://huggingface.co/spaces/BlinkDL/ChatRWKV-gradio 14B 英文v11x

Marquez:谢谢！