1|📒 The Alphaist 播客栏目介绍
《The Alphaist》 是一档由 Alphaist Partners 打造的深度对话栏目。 我们关注技术与创业的第一性原理,聚焦那些正在改变世界的早期创始人、工程师与产品探索者。
每期节目,我们会围绕一个具体的科技创业方向展开深度对话。在这里,我们不追热点、不讲空洞概念,而是用最真实的一线经验去回答创业者最关心的问题:什么值得做?为什么是现在?我们应该怎样做?
The Alphaist 相信:时代真正的机会,往往藏在那些不喧嚣、但正在被新技术、新需求、新产品悄然改变的新生领域。
我们希望用这档节目,陪伴新一代的 Alpha 创业者们,记录与见证那些改变世界的勇敢开始。
2|🤖 本期播客介绍
2.1 话题背景
从客服中心到 AI 陪伴,从游戏 NPC 到虚拟主播——语音正在成为人与 AI 交互的核心入口。Voice Agent 是 AI 领域正在快速升温的方向,而 TTS(文本转语音)模型是这一切的基础设施。
但一个尖锐的问题摆在所有语音创业公司面前:当 GPT-4o 这样的多模态大模型已经能"说话",独立的语音模型还有存在的必要吗?大公司有万卡集群、有海量数据,小公司凭什么能赢?
Fish Audio 用12个月13倍增长、10M ARR 的成绩给出了答案。他们正在定义 AI Voice 2.0 时代——从企业配音工具到情感智能交互,从传统世界500强到 AI Native Apps 新势力。他们是如何从开源社区起步,打造出全球第二大 AI 语音平台?为什么说"高噪音数据往往是高表现力数据"?端到端架构如何把延迟压到100毫秒以内?本期我们将深入探讨。
2.2 本期嘉宾
- Rissa:Fish Audio 联合创始人兼 CEO,深耕开发者与开源社区生态,用 PLG 把技术真正推到用户手里, 把流量变现
- 冷月:Fish Audio 联合创始人兼首席科学家,前英伟达 Researcher,主导 Fish Speech 核心模型研发,专注把高表现力可控实时语音模型研发
2.3 讨论要点
我们将深入讨论:
- 增长密码:12个月13倍增长,从开源到10M ARR的 PLG 飞轮是如何转起来的?
- 护城河之争:语音模型会被多模态大模型"吸收"吗?为什么复杂情感控制的数据集构建极难,构成独特壁垒?
- 算力真相:大公司有万卡集群,但语音组往往只有几百卡——Fish Audio 已进入第一梯队
- 数据哲学:为什么说"高噪音数据往往是高表现力数据"?用原始分布训练踩过什么坑?
- 端到端信仰:每多一个模块就多一层限制,如何把延迟压到100毫秒以内?全双工模型是下一站
- AI Voice 2.0:从企业配音到情感陪伴,Elevenlabs 服务传统世界500强,Fish Audio 瞄准未来的世界500强
- 开源策略:开发者不相信 Demo,只相信代码——开源是分发护城河而非商业化链路
- 创始人故事:00后技术天才与连续创业者如何联手?危机中的成人礼与合伙人默契
3|🕙 时间轴
公司与产品
- 02:19 一句话定位:全球第二大 AI 语音生成平台,提供多语言 TTS 和高精度声音克隆
- 02:55 ⭐ 核心数据:12个月13倍增长,10M ARR,350万用户,月活超100万,1.1M 公开声音模型
- 03:46 S1模型:世界上第一个支持自然语言控制情感的 TTS 模型,S2即将完全开源
- 04:20 客户画像:Prosumer创作者 + API企业用户(占40%收入),涵盖AI陪伴、游戏NPC、内容平台、实时客服
技术路线与护城河
- 06:45 创业动机:市面上的 TTS 都不够自然,尤其句子长了之后变得单调
- 09:00 护城河判断:复杂情感控制的数据集构建极难,不会被多模态大模型轻易吸收
- 10:08 合成数据有毒:Low hanging fruit 会影响模型的表现能力和上限
- 12:27 ⭐ 算力真相:大公司万卡集群,但语音组往往只有几百卡,Fish Audio 已进入第一梯队
数据与训练
- 13:33 数据稀缺:高自然度、多音轨、情感丰富的语音数据在互联网上极其稀缺
- 15:42 投入规模:Q1Q2数据投入将达百万美金级别
- 15:56 踩坑经验:用原始分布训练导致播客能力强但动漫配音差,数据分布极其重要
- 19:00 ⭐ 反直觉洞见:高噪音数据往往是高表现力数据,人吵架时声音最有表现力
架构与延迟
- 19:48 三代架构:从古典 StyleTTS 到 Torus 架构,再到端到端语义+声学建模
- 22:31 ⭐ 端到端信仰:每个模块都在引入复杂性,限制模型能力和上限
- 23:08 延迟突破:端到端架构有望把延迟降到30-50毫秒
- 26:21 100毫秒目标:通过模块融合,用户停止说话到模型开口可压缩到100毫秒以内
S2模型与市场定位
- 27:47 S2升级:更精细控制、多说话人、更低延迟,完全重构数据管线
- 31:44 模型矩阵:不同场景匹配不同模型,S2 Flash 针对低延迟客服场景,S2 Pro 针对高表现力场景
- 33:33 AI Voice 1.0→2.0:从企业配音到情感交互,Fish Audio 瞄准未来世界500强
- 33:45 ⭐ 差异化定位:更有趣的声音,更有灵魂的声音,服务快速发展的 AI native apps
增长飞轮
- 34:36 PLG起源:从开源社区到创作者平台,团队 DNA 决定了 bottom-up 路径
- 36:12 Slack式增长:开源用户觉得好用,介绍给公司签 enterprise contract
- 37:49 UGC激励:创作者的声音被使用,可获得30%的付费 Token 分成
- 38:20 ⭐ 飞轮案例:阿拉伯王子去世引发克隆潮,带动阿拉伯语模型性能爆发
开源与商业化
- 39:55 多重护城河:UGC音色、RLHF后训练、高效架构、开源分发形成闭环
- 41:05 开源DNA:团队源自开源社区,擅长用开源获取流量
- 41:36 ⭐ 金句:开发者不相信 Demo,只相信代码,开源是分发护城河而非商业化链路
- 42:12 商业化边界:开源让你能用能测,闭源模型才能让你规模化上线赚钱
产品深度与未来规划
- 43:16 Fish Studio:服务专业内容创作者,多轨编辑、精细情感控制、Lip Sync
- 46:23 产品驱动研发:用户需求驱动模型能力迭代,word-level timestamp、视频配音等
- 47:58 全球化战略:日韩市场独特机会,多语种支持是战略重点
- 51:25 18个月目标:50-100M ARR,多模态平台,年底模型能力超越99%配音演员
创始人故事
- 52:56 Rissa 加入:从 Growth Advisor 到全职 CEO,命运的驱使
- 56:34 冷月创业历程:从英伟达离职,开源社区起步,引入 Rissa 完成分工
- 59:01 ⭐ 危机与成长:股权结构问题、老股东 Block 融资,两个月完成公司重组
- 01:00:48 合伙人关系:手牵手、背靠背,危机中建立信任和默契
团队与文化
- 01:03:06 选合伙人:技能互补、看 Track Record、健康的 Vesting Schedule
- 01:04:27 人才吸引力:Hidden Gem、Entrepreneur 型人才、给足 Ownership 和 Upside
- 01:06:24 技术人才招募:开源社区深耕,Work Trial 筛选,给足计算资源和方向自由度
- 01:09:22 ⭐ 长期愿景:让 Fish Audio 成为每个普通人的内容创作工具,一步步走向 AGI
4 |🅰️ 关于我们
Alphaist:一家生于 2025 的美元新基金,和它的十年赌局
如果你喜欢 The Alphaist 的播客内容,希望参与我们整个探索和创作过程,欢迎加入我们:加入我们|品牌内容负责人/实习生招聘中
微信公众号:Alphaist Partners

