EP05 AI Voice 2.0：Fish Audio 如何叩开情感智能交互的大门

1｜📒 The Alphaist 播客栏目介绍

《The Alphaist》是一档由 Alphaist Partners 打造的深度对话栏目。我们关注技术与创业的第一性原理，聚焦那些正在改变世界的早期创始人、工程师与产品探索者。

每期节目，我们会围绕一个具体的科技创业方向展开深度对话。在这里，我们不追热点、不讲空洞概念，而是用最真实的一线经验去回答创业者最关心的问题：什么值得做？为什么是现在？我们应该怎样做？

The Alphaist 相信：时代真正的机会，往往藏在那些不喧嚣、但正在被新技术、新需求、新产品悄然改变的新生领域。

我们希望用这档节目，陪伴新一代的 Alpha 创业者们，记录与见证那些改变世界的勇敢开始。

📢 我们建了一个 The Alphaist 行业交流群，希望聚集同频的一线工程师、研究者与创业者，在这里分享行业进展、一手消息，以及任何还没琢磨透的问题。为保持良好的社群氛围，入群需经过审核，点击链接填写申请问卷：alphaist.feishu.cn

2｜🤖 本期播客介绍

2.1 话题背景

从客服中心到 AI 陪伴，从游戏 NPC 到虚拟主播——语音正在成为人与 AI 交互的核心入口。Voice Agent 是 AI 领域正在快速升温的方向，而 TTS（文本转语音）模型是这一切的基础设施。

但一个尖锐的问题摆在所有语音创业公司面前：当 GPT-4o 这样的多模态大模型已经能"说话"，独立的语音模型还有存在的必要吗？大公司有万卡集群、有海量数据，小公司凭什么能赢？

Fish Audio 用12个月13倍增长、10M ARR 的成绩给出了答案。他们正在定义 AI Voice 2.0 时代——从企业配音工具到情感智能交互，从传统世界500强到 AI Native Apps 新势力。他们是如何从开源社区起步，打造出全球第二大 AI 语音平台？为什么说"高噪音数据往往是高表现力数据"？端到端架构如何把延迟压到100毫秒以内？本期我们将深入探讨。

2.2 本期嘉宾

- Rissa：Fish Audio 联合创始人兼 CEO，深耕开发者与开源社区生态，用 PLG 把技术真正推到用户手里，把流量变现

- 冷月：Fish Audio 联合创始人兼首席科学家，前英伟达 Researcher，主导 Fish Speech 核心模型研发，专注把高表现力可控实时语音模型研发

2.3 讨论要点

我们将深入讨论：

- 增长密码：12个月13倍增长，从开源到10M ARR的 PLG 飞轮是如何转起来的？

- 护城河之争：语音模型会被多模态大模型"吸收"吗？为什么复杂情感控制的数据集构建极难，构成独特壁垒？

- 算力真相：大公司有万卡集群，但语音组往往只有几百卡——Fish Audio 已进入第一梯队

- 数据哲学：为什么说"高噪音数据往往是高表现力数据"？用原始分布训练踩过什么坑？

- 端到端信仰：每多一个模块就多一层限制，如何把延迟压到100毫秒以内？全双工模型是下一站

- AI Voice 2.0：从企业配音到情感陪伴，Elevenlabs 服务传统世界500强，Fish Audio 瞄准未来的世界500强

- 开源策略：开发者不相信 Demo，只相信代码——开源是分发护城河而非商业化链路

- 创始人故事：00后技术天才与连续创业者如何联手？危机中的成人礼与合伙人默契

3｜🕙 时间轴

公司与产品

- 02:19 一句话定位：全球第二大 AI 语音生成平台，提供多语言 TTS 和高精度声音克隆

- 02:55 ⭐ 核心数据：12个月13倍增长，10M ARR，350万用户，月活超100万，1.1M 公开声音模型

- 03:46 S1模型：世界上第一个支持自然语言控制情感的 TTS 模型，S2即将完全开源

- 04:20 客户画像：Prosumer创作者 + API企业用户（占40%收入），涵盖AI陪伴、游戏NPC、内容平台、实时客服

技术路线与护城河

- 06:45 创业动机：市面上的 TTS 都不够自然，尤其句子长了之后变得单调

- 09:00 护城河判断：复杂情感控制的数据集构建极难，不会被多模态大模型轻易吸收

- 10:08 合成数据有毒：Low hanging fruit 会影响模型的表现能力和上限

- 12:27 ⭐ 算力真相：大公司万卡集群，但语音组往往只有几百卡，Fish Audio 已进入第一梯队

数据与训练

- 13:33 数据稀缺：高自然度、多音轨、情感丰富的语音数据在互联网上极其稀缺

- 15:42 投入规模：Q1Q2数据投入将达百万美金级别

- 15:56 踩坑经验：用原始分布训练导致播客能力强但动漫配音差，数据分布极其重要

- 19:00 ⭐ 反直觉洞见：高噪音数据往往是高表现力数据，人吵架时声音最有表现力

架构与延迟

- 19:48 三代架构：从古典 StyleTTS 到 Torus 架构，再到端到端语义+声学建模

- 22:31 ⭐ 端到端信仰：每个模块都在引入复杂性，限制模型能力和上限

- 23:08 延迟突破：端到端架构有望把延迟降到30-50毫秒

- 26:21 100毫秒目标：通过模块融合，用户停止说话到模型开口可压缩到100毫秒以内

S2模型与市场定位

- 27:47 S2升级：更精细控制、多说话人、更低延迟，完全重构数据管线

- 31:44 模型矩阵：不同场景匹配不同模型，S2 Flash 针对低延迟客服场景，S2 Pro 针对高表现力场景

- 33:33 AI Voice 1.0→2.0：从企业配音到情感交互，Fish Audio 瞄准未来世界500强

- 33:45 ⭐ 差异化定位：更有趣的声音，更有灵魂的声音，服务快速发展的 AI native apps

增长飞轮

- 34:36 PLG起源：从开源社区到创作者平台，团队 DNA 决定了 bottom-up 路径

- 36:12 Slack式增长：开源用户觉得好用，介绍给公司签 enterprise contract

- 37:49 UGC激励：创作者的声音被使用，可获得30%的付费 Token 分成

- 38:20 ⭐ 飞轮案例：阿拉伯王子去世引发克隆潮，带动阿拉伯语模型性能爆发

开源与商业化

- 39:55 多重护城河：UGC音色、RLHF后训练、高效架构、开源分发形成闭环

- 41:05 开源DNA：团队源自开源社区，擅长用开源获取流量

- 41:36 ⭐ 金句：开发者不相信 Demo，只相信代码，开源是分发护城河而非商业化链路

- 42:12 商业化边界：开源让你能用能测，闭源模型才能让你规模化上线赚钱

产品深度与未来规划

- 43:16 Fish Studio：服务专业内容创作者，多轨编辑、精细情感控制、Lip Sync

- 46:23 产品驱动研发：用户需求驱动模型能力迭代，word-level timestamp、视频配音等

- 47:58 全球化战略：日韩市场独特机会，多语种支持是战略重点

- 51:25 18个月目标：50-100M ARR，多模态平台，年底模型能力超越99%配音演员

创始人故事

- 52:56 Rissa 加入：从 Growth Advisor 到全职 CEO，命运的驱使

- 56:34 冷月创业历程：从英伟达离职，开源社区起步，引入 Rissa 完成分工

- 59:01 ⭐ 危机与成长：股权结构问题、老股东 Block 融资，两个月完成公司重组

- 01:00:48 合伙人关系：手牵手、背靠背，危机中建立信任和默契

团队与文化

- 01:03:06 选合伙人：技能互补、看 Track Record、健康的 Vesting Schedule

- 01:04:27 人才吸引力：Hidden Gem、Entrepreneur 型人才、给足 Ownership 和 Upside

- 01:06:24 技术人才招募：开源社区深耕，Work Trial 筛选，给足计算资源和方向自由度

- 01:09:22 ⭐ 长期愿景：让 Fish Audio 成为每个普通人的内容创作工具，一步步走向 AGI

4 ｜🅰️ 关于我们

Alphaist：一家生于 2025 的美元新基金，和它的十年赌局

如果你喜欢 The Alphaist 的播客内容，希望参与我们整个探索和创作过程，欢迎加入我们：加入我们｜品牌内容负责人/实习生招聘中

微信公众号：Alphaist Partners