113: 秘塔闵可锐1：回到故事开始，那些「神预言」

「我现在有一个判断，很多人会认为是胡说八道：在这一轮大模型热潮里，中国投资人很可能会集体 miss。」

今天，《晚点聊》一次发了两期节目，嘉宾都是秘塔创始人，闵可锐。一次访谈发生在 2023 年年初，另一次是在最近。本期，是 2023 年 3 月中旬的那一次访谈。

那是中国大模型热潮的开端，王慧文刚自己投资 5000 万美元，成立光年之外，月之暗面还在组建，六小龙的名号还没有兴起，DeepSeek 还没有正式成立，字节等大公司也没有充分展现对 AI 的志在必得和激进投入。

秘塔当时已是一家成立近 5 年的公司，推出了法律翻译、秘塔写字猫等多款 AI 应用。现在更为人熟知的秘塔搜索则还没有上线。

回顾这次发生在热潮开端的讨论，恍若隔世，也有很多先见之明。那时可锐就有一些犀利的观察和观点，包括：

中国 VC 可能会集体 miss 掉一位最有雄心的中国大模型创业者。

在大模型领域，传统的组织人才方式不work。

真正的天才想法很难被媒体和大众所认知。

预训练很重要，是范式转变，具体到Transformer架构，其实没那么重要。

(2023 年上半年）未来半年各大厂商将密集发模型，但热潮不可持续，拿不到正反馈的团队将很快退场，速生速死。

AI 产品领域的创业是战国时代，不论个人开发者和大厂之间，还是大厂和大厂之间，进入到一个所有人在PK所有人的状态。

研发投入 95% 是浪费，而且你不知道哪 95% 是浪费的。一流 researcher 能节约 80% 的成本，但大部分组织没能力知道谁是一流的 researcher。

在秘塔刚成立的 2018 年，闵可锐就写过一篇文章，叫《关于机器学习的前尘往事》（见 shownotes “相关链接”部分），这篇文章已经提到了当时 Anthropic 创始人，Dario 在百度工作期间，发现的 Scaling Laws 的雏形。这篇文章开头，是模仿《百年孤独》经典开篇的一个 AI 小故事。其中提到了 108 期节目中，马毅老师也聊到的 50 年代 AI 热潮中的“感知机”。

闵可锐是马老师在伊利诺伊大学任职时的博士研究生，后肄业创业。此前他获得了复旦计算机学士学位，和牛津大学数学硕士学位。

这期节目，我们完整聊了可锐的职业经历、秘塔创业故事、他在 2023 年年初对大模型格局的思考。而今天发的另一期节目，是最近秘塔发布新产品“今天学点啥”之后的访谈，我们从这个产品切入，聊了这两年的变化。

本期嘉宾：
闵可锐，秘塔科技创始人，@「AI秘塔」公众号 ID：METASOTA2018

时间线跳转：
00:05 开场介绍

-预训练的想法很重要，而非具体架构
02:20 秘塔的重心在应用；竞赛→复旦→牛津→伊利诺伊→第一次创业→猎豹→创立秘塔的简要回顾
05:48 2017 年前后的真正技术转折是：预训练想法的出现
12:36 2018 年，预训练到来后的创业选择：在特定领域做出价值→法律翻译
12:14 OpenAI 难以效法；ChatGPT 之前，行业没有技术秘密
14:41 GPT-3 刚出来时，参数规模大到短期内难以应用；没必要神话某一个架构
22:14 一些 idea 的引用次数很高，但不是真正天才的想法
25:25 Ilya 的成就：不是视觉背景的人做出了 NLP 突破，而是深度学习的不同领域在合流，AI 本身的泛化性在提升

- 创业两条路：大故事、很多钱 vs 服务好能服务的用户
27:17 Jasper 的贡献：找到一个机器贵、但人更贵的切入口
30:58 从法律翻译到秘塔写作猫，垂直领域到更泛 C 的转变如何发生
36:16 AI to C、to B，商业模式切身体验
40:42 “创业公司的差异化是什么？”——要“做着瞧”
45:56 AI 应用是战国时代，是所有人和所有人的 PK
47:43 AI Native 应用的突破很可能在交互上
52:16 秘塔也在自己训练模型，应用为重心的情况下，怎么做模型？
01:01:28 开源模型的影响

- “坦白来讲，大模型热潮也不是什么好事”
01:08:02 AI 热潮对秘塔发展节奏的影响
01:11:15 中国投资机构会集体 miss 模型层投资；开源是另一股力量
01:16:13 中国有雄心更大的人，但还没有进入人们的视野
01:19:14 这次热潮对比 2016 年 AlphaGo 之后的 AI 热，有何不同？
01:24:11 秘塔当时的新融资推进：战投比较积极，财投很谨慎
01:27:19 两种 AI 研究机构：手作坊 vs 工业化
01:33:24 95% 的研发投入是浪费的，而且不知道浪费在哪儿；OpenAI 的成功经验是找到会花钱的少数研究者，让他们花很多钱
01:37:14 短期 vs 长期，当前应用 vs 追求 AGI——“你以为的平衡，实际上是平衡不了”
01:44:13 AI 热潮给算力成本带来的变化
01:51:27 市场存在大的资源错配

附录

BERT（Bidirectional Encoder Representations from Transformers）：Google 于 2018 年提出的一种预训练语言模型，首次引入双向 Transformer 编码器来理解上下文，显著提升了多个自然语言处理（NLP）任务的表现。

T5（Text-to-Text Transfer Transformer）：Google Research 2019 年提出，它将所有 NLP 任务统一建模为文本到文本的转换问题。

Vision Transformer (ViT)：Google Research 2020 年提出，它是首个成功将纯Transformer 架构应用于图像分类任务的模型，将图像分割为小块并视为序列输入 Transformer。

剪辑制作：甜食

本期主播：小红书 @曼祺_火柴Q，即刻 @曼祺_火柴Q

☆《晚点聊 LateTalk》建立「播客听友群」啦！☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：