#497.对话ElevenLabs CEO:揭秘语音大模型的底层逻辑与狂飙之路

#497.对话ElevenLabs CEO:揭秘语音大模型的底层逻辑与狂飙之路

54分钟 ·
播放数2194
·
评论数3

📝 本期播客简介

本期我们克隆了一场科技圈备受瞩目的深度对谈:The world of voice AI, with Mati Staniszewski of ElevenLabs

全球支付巨头 Stripe 的联合创始人 John Collison,对话 AI 音频领域估值 110 亿美元的领头羊 ElevenLabs 的联合创始人 Mati Staniszewski。

在这期节目中,你将听到最前沿的 AI 语音技术科普——从早期的物理模拟到如今基于神经网络的“情感涌现”,揭秘那些听起来与真人无异的 AI 声音是如何诞生的。Mati 详细拆解了 ElevenLabs 的商业版图与增长秘诀:他们如何通过“自服务+企业级”双轮驱动,实现单季度 ARR 净增 1 亿美元、总营收直指 3.5 亿美元的惊人狂飙。此外,Mati 还分享了作为一家“AI原生”公司,ElevenLabs 是如何通过极度扁平化的架构、小团队作战以及对“主观能动性”的极致追求,来重塑现代组织形态的。无论你是 AI 从业者、创业者,还是对未来科技充满好奇的听众,这都是一堂不可多得的实战与趋势大师课。

👨‍⚕️ 本期嘉宾

John Collison,全球支付巨头 Stripe 的联合创始人。

Mati Staniszewski,AI 音频领头羊 ElevenLabs 的联合创始人兼 CEO。他在 2022 年创立公司,将其打造成估值 110 亿美元的行业巨头,致力于通过基础音频模型改变企业与世界的沟通方式。

⏱️ 时间戳

00:00 开场 & 播客简介

语音大模型的底层逻辑

01:54 语音模型是如何运作的:从物理模拟声道到预测下一个“音素”

04:46 惊艳的“人类特质”:口音、情感和韵律是如何在模型中“涌现”的

06:19 突破瓶颈:ElevenLabs 如何通过自建数据标注团队解决核心难题

08:52 平台与应用的边界:为何选择做横向赋能的底层平台?

跨越语音AI的“部署鸿沟”

13:08 产品滞后:为什么大模型无处不在,但手机和车机语音依然难用?

18:17 语音图灵测试:打造完美“语音智能体”的终极挑战在哪里

20:56 个性化突破:解决口音难题与即将推出的“个人专属转录”模型

23:46 语音对语音(V2V)vs 级联模型:延迟与可靠性的终极权衡

商业模式与狂飙增长

30:54 技术向善的二阶效应:从打破语言障碍到为渐冻症患者找回声音

33:31 语音模型的经济学:几十亿参数的算力成本与“按量付费”的商业逻辑

39:18 单季新增一亿美金 ARR:揭秘 ElevenLabs 的“先进入再扩张”增长策略

42:10 坚持自服务的哲学:为什么把最好的技术直接开放给所有人至关重要

AI时代的组织进化

45:43 AI原生的组织架构:极度扁平化、大管理幅度与 10 人小团队模式

48:18 赋能非技术部门:在 HR 和运营团队中配置“技术大脑”的奇效

51:14 终极人才观:在 AI 时代,为什么“高主观能动性”是决定胜负的关键

🌟 精彩内容

💡 语音图灵测试与“产品滞后”

面对“为什么现在的语音助手依然难用”的疑问,Mati 坦言,真正好听的语音模型其实是过去三年才出现的。而要打造完美的语音智能体,不仅需要声音逼真,还需要解决打断、停顿、上下文理解等复杂的编排问题。

“语音模型要真正达到像现在这样好听的程度,其实也就是过去三年的事情……我希望在未来一年左右的时间里,我们能让所有对话智能体都通过图灵测试。”

🚀 单季净增一亿美金ARR的增长飞轮

ElevenLabs 展现了惊人的商业爆发力,预计 2025 年底 ARR 达到 3.5 亿美元。Mati 透露,他们成功的关键在于毫不犹豫地推行“自服务(PLG)”模式,让中小开发者先试用,形成口碑和反馈闭环,进而向上撬动德国电信、Meta 等超级企业客户。

“在你尝试之前,如果摩擦因素越多,你就越不信任它……把最好的技术提供给每一个人,这非常有吸引力。”

❤️ 科技向善:重塑声音的奇迹

除了商业上的成功,语音 AI 正在创造巨大的社会价值。Mati 分享了他们如何帮助因渐冻症(ALS)或喉癌失去声音的人重新发声,甚至帮助一位失去声音的新娘在婚礼上用自己的声音宣读誓言。

“这真的是一个非常动人的时刻。可能在我们所做的所有工作中,这是最重要的一个。”

🧠 AI原生公司的组织密码:主观能动性

作为一家诞生于 AI 爆发前夜的公司,ElevenLabs 摒弃了传统的臃肿架构。他们采用极度扁平化的管理(创始人有超15个直接下属),并在非技术团队中嵌入技术资源。对于 AI 时代的人才,他们给出了明确的画像。

“我觉得具备高主观能动性的人会是人工智能进步的赢家;而在组织内部,缺乏主观能动性的人会被淘汰。”

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的

使用 AI 进行翻译,因此可能会有一些地方不通顺;

如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

展开Show Notes
怎么听着像Ai
恰恰怪:就是 这个播客都是Ai声音
flowball
flowball
6天前
平翘蛇不分的ai