欢迎来到本期的AI前沿探索!本期节目,我们将深入了解一款旨在打造超逼真长篇播客的新技术——SoulX-Podcast。这款模型专为多轮、多说话者的对话式语音生成而设计,极大地提升了音频的自然度。它不仅支持普通话和英语,还突破性地支持多种中文方言,如四川话、河南话和粤语。更令人兴奋的是,它能实现跨方言的零样本声音克隆,并加入了笑声、叹息等超语言控制,让AI声音无限接近真人。我们将探讨这项技术的巨大潜力,以及在使用零样本声音克隆时,我们必须遵守的伦理和负责任使用的界限。无论你是语音技术爱好者还是内容创作者,都能从中获得关于未来播客形态的新启发

soul发布音频模型:方言、多角色的播客革命
16分钟 ·
2·
0