24 | Text to speech山泉水有点甜

24 | Text to speech

19分钟 ·
播放数3
·
评论数0

内容导读:

做这期节目之前,我把自己 5 秒钟的语音丢进了一个公开模型,十分钟后它就能用我的腔调念新闻、讲段子,甚至“替我”给同事发语音消息。那一刻,我意识到:声音这件事,以后可能不再只属于我们自己。今天的播客,我们不聊科幻,只聊正在发生的语音克隆。

凯文凯利新书:2049:未来 10000 天的可能

智能语音技术发展历程:

参考资料:

AI语音克隆进入“零样本”时代?解析TTS模型四大流派与问鼎榜首的MiniMax【硅谷101】

探索声音克隆与TTS技术:架构、演进与性能全方位分析

李沐:肝了6个月的AudioLLM,开源了【100亿模型计划】

沐辞臣:探索声音克隆与TTS技术:架构、演进与性能全方位分析

11Labs 增长负责人:搞营销要学着做视频,但创始人出镜会有点自恋

飞书播客文稿

主讲人:

一健

对商业世界充满好奇

AGI忠实拥趸,努力学习技术边界的PM

「山泉水有点甜」播客主理人

Ex 文创公司联创,金融机构一线

时间线:

01:24 技术定义与核心架构

02:22 从传统TTS到统计参数语音合成

04:35 深度学习驱动的技术革命(两阶段 TTS)

05:44 端到端(一阶段模型)、Zero-shot 和情绪控制 TTS

08:13 市场现状

10:18 竞争格局

13:02 玩家 1:ElevenLabs

15:14 未来趋势

BGM:陈楚生-庙堂之外

关于「山泉水有点甜」:

这是一档关于商业见闻的播客,专注于分享生活中遇到的行业趣事,在这其中,也期待和你一起蹦跶出新的思维火光。

欢迎来信,即刻、公众号「山泉水有点甜」、微信「chwng0-1」