第三盏茶·语音大模型/TTS/GenAudio的前世今生

欢迎大家～这里是量子茶馆儿，一个致力于将业内优雅的技术设计艺术沉淀为画册的频道。

我们会在这里邀请国内外前沿技术圈的优质嘉宾，为大家观察市场/讲解paper/拆解产品/指南避坑，希望大家能在这个频道感受到我们对优质技术内容的分享诚意。🧡

以下是本茶馆儿第三期内容：语音AI/TTS/GenAudio的前世今生

【📝嘉宾】

Camille，哈工大学士，美国加州大学圣迭戈分校（UCSD）计算机科学硕士，深耕语音算法领域近十年，技术路径覆盖从传统语音技术到前沿的大模型语音交互。曾主导创业团队核心语音算法研发，后加入全球科技巨头推动语音识别引擎向深度学习转型成为行业标杆。目前聚焦游戏行业，创新性地推动语音大模型技术在游戏产业中的落地。

【📝Catalog】

02:24- 11:24

语音在多模态中的现状、特点、应用困境与潜力

语音与文本、图像等模态相比发展滞后，在关注度、论文数量和顶会分布上存在差距。但语音赛道垂直，用户忠诚，有发展空间。它在工业应用中似“配角”，原因包括生产方式和消费心态等，不过语音接收信息方式温和，应用场景丰富，值得看好。

11:24-16:03

语音合成算法范式及相关概念介绍

介绍语音合成相关知识，从传统语音合成讲起，涉及音频信号采样、梅尔频谱图、强制对齐等概念，阐述大模型语音合成的编码、解码过程，包括将语音抽象成类文本信号及后续转换等内容。

16:03-21:08

语音算法常见名词、训练范式及流程介绍

介绍语音算法常见名词，如 LLM、tokenizer、decoder 等。另，从传统和大模型两方面阐述语音算法训练范式。传统训练繁琐，人工介入多；大模型对人工标注依赖小，需大量多样数据，训练分编码器、文本 LLM、解码器等阶段，最后可能涉及 SFT 以适配不同风格。

21:08-33:26

文本与语音的数字化表达及相关技术探讨

声音与文本的区别及表达。先介绍文本早期量化思路的局限，后发展为连续型小数等。语音处理先切帧，再通过聚类算法转成token。以及探讨语音的特点，如语音转的token可与文本的基座放在一起。

33:26-43:59

语音生成在工业界的探讨：数据、标准与应用

云模型的训练方式，包括传统和大模型训练方式。探讨语音生成在工业界的想象，从刺激数据资源变化、算法标准进化、畅想未来应用三个方向展开。重点讨论了语音数据行业现状、标注量化标准、控制及评价标准等，认为应用和算法会共同推动标准制定。

43:59-55:23

探讨算法优化后语音在工业应用等方面的想象与发展

讨论算法优化后工业应用想象，涉及语音在人声生成、音效音乐等方面的应用，认为语音未来可期，还提及技术发展速度及对声音赛道算法工程师和应用者的期望。

【📝本期Chat采样】

“... 其实也就几个月的时间， Deepseek 就摇身一变，在国际市场变成了一个非常好的领袖，所以一方面我们为无国界的技术发展感到骄傲，另一方面其实我们也更开心地看到在国内有更有意思的算法应用跟进展，随着这些算法的成长，我们的应用其实有更多可玩的空间，未来其实是非常非常有趣且先进的。

很多事情它在垂直的领域，可能相对在人群里没有那么的有名气，或者说舆论声量没有那么大，但这不排除它是本身价值非常高，壁垒非常深，且非常刚需的一个存在。

所以我们就是也期望通过这样一期播客给做声音赛道的算法同学一些信心，希望大家能在这个领域深耕得更好，然后给我们这些做应用Tier的人更多机会去玩出更有意思的东西，也期望大家对跨模态模型的关注度越来越高，让大家在各自的领域都发光。”

【📝本期寄语】

越垂直的技术越需要耐力与韧性，舆论声量不代表技术的质量/重量。

文本在前发展的越扎实，多模态在后发展的越有章可依。

Shout out to 所有（暂时）在聚光灯外的，垂直领域<持·续·深·耕> 的技术er们：

我们终将，“穿越’逆境‘，抵达繁星。” 🌟✨

【📝下期预告】

LLM时代，我们都在什么应用上，氪了哪些金？