内容导读:
做这期节目之前,我把自己 5 秒钟的语音丢进了一个公开模型,十分钟后它就能用我的腔调念新闻、讲段子,甚至“替我”给同事发语音消息。那一刻,我意识到:声音这件事,以后可能不再只属于我们自己。今天的播客,我们不聊科幻,只聊正在发生的语音克隆。
凯文凯利新书:2049:未来 10000 天的可能

智能语音技术发展历程:

参考资料:
AI语音克隆进入“零样本”时代?解析TTS模型四大流派与问鼎榜首的MiniMax【硅谷101】
李沐:肝了6个月的AudioLLM,开源了【100亿模型计划】
沐辞臣:探索声音克隆与TTS技术:架构、演进与性能全方位分析
11Labs 增长负责人:搞营销要学着做视频,但创始人出镜会有点自恋
主讲人:
一健
对商业世界充满好奇
AGI忠实拥趸,努力学习技术边界的PM
「山泉水有点甜」播客主理人
Ex 文创公司联创,金融机构一线
时间线:
01:24 技术定义与核心架构
02:22 从传统TTS到统计参数语音合成
04:35 深度学习驱动的技术革命(两阶段 TTS)
05:44 端到端(一阶段模型)、Zero-shot 和情绪控制 TTS
08:13 市场现状
10:18 竞争格局
13:02 玩家 1:ElevenLabs
15:14 未来趋势
BGM:陈楚生-庙堂之外
关于「山泉水有点甜」:
这是一档关于商业见闻的播客,专注于分享生活中遇到的行业趣事,在这其中,也期待和你一起蹦跶出新的思维火光。
欢迎来信,即刻、公众号「山泉水有点甜」、微信「chwng0-1」

