S1E06 | AI驱动的语音交互革命：探究GPT4o背后的技术逻辑 - 出埃及记Exodus

【关于本期】

OpenAI终于在7月底兑现承诺，上线了GPT-4o高级语音模式的灰度测试，目前一小部分ChatGPT Plus用户已经拿到了尝鲜入场券。OpenAI表示，高级语音模式提供了更加自然、实时对话，可以随意打断，甚至它还可以感知、回应你的情绪。预计在今年秋季，所有ChatGPTPlus用户，都能用上这个功能。

ChatGPT的语音对话功能去年9月首次推出，今年5月在GPT4o发布会直播中推出了高级语音模式的demo。在demo演示中，GPT4o可以识别出OpenAI总裁Brockman所穿的衣服、身处的环境，甚至通过他周围的灯光布置推断出他可能正在进行视频直播。更令人惊讶的是，GPT4o在与Brockman对话时，可以识别出Brockman的情绪和语气，而其回复相比GPT3.5和GPT4，也更加活泼和生动。

但不管是因为C端产品对于安全性与稳定性的高要求，还是之前版本采用与寡姐斯嘉丽约翰逊高度相似声线诱发的风波，这个饼也终于在反复跳票后在7月底被落实。而我们恰好在2个月前跟做audio generation的两位博士生朋友交流对当时OpenAI发布会的GPT4o的看法。他们分别是MyShell联合创始人，麻省理工在读博士生秦增益，和卡耐基梅隆大学LTI WAVLab博士生史嘉彤。我们从创业公司和学界研究者的视角展开聊聊Audio/SpeechGeneration，其中的许多很有意思的观点在2个月后的今天看来，的确得到了验证。

【嘉宾介绍】

秦增益：MIT博士生，本科毕业于清华大学。研究范围包括音频生成、大语言模型和计算机视觉。他的语音生成模型OpenVoice在Github上获得27k stars，并登顶Github排行榜。他联合创立的生成式AI应用平台MyShell已有超过200万注册用户，并有超过10万个应用被创建

史嘉彤：卡内基梅隆大学LTIWAVLab博士生，师从ShinjiWatanabe教授。本硕分别毕业于中国人民大学和约翰霍普金斯大学计算机专业。研究方向主要在语音和音乐处理，近期主要关注于音频表征学习及其应用；他是语音处理框架ESPnet的主要贡献者，以及近年语音相关基准/比赛 SUPERB、ML-SUPERB、SVCC、IWSLT、DiscreteSpeech、SVDD、Dynamic SUPERB 的组织者和发起人。曾获卡内基梅隆大学校长奖学金，SLT2022以及ASRU2023最佳论文提名。曾多次在腾讯 AI Lab、Meta AI、IBM AI Research进行研究实习。

【降落伞】

02:28 自我介绍

【GPT4o，新世界的大门】

03:24 怎么看待GPT4o的发布？

05:23 怎么衡量不同任务中语音系统的能力？是否需要新的评价标准？

12:29 GPT4o在demo中展现的能力

16:40 为什么GPT4o尚未完全开放它的各项能力？

19:53 怎么看待GPT4o的免费版本？

【如何实现GPT4o的相关功能】

23:16 GPT4o和其他功能性AI的本质区别

27:02 serving的改善和旧模型的迭代

28:48 怎么实现GPT4o的实时性和低延迟？

45:39 端到端的speech generation

49:24 个人定制AI agents助手的前景

58:07 语音合成能不能“超越”真实的speech？

【GPT4o的未完待续】

1:03:27 GPT4o的数据处理过程与提升需求

1:11:03 一段语音中的哪些信息和语音处理有关？

1:16:05 用语音检测核酸？

1:18:51 GPT4o可能与其他服务商或API合作吗？

1:22:00 未来展望：超级智能的曙光

【制作团队】

主理人：

刘杰尼：社科传媒本计算机研，Ex高盛TMT投行吗喽，接触过各种行业和国内外项目，混过大厂小厂和创业公司，并有幸（有可能是不幸）经历中国上一个TMT时代的完整兴衰，试图更好地活在科技与人文的交叉点。

徐胖虎：电子工程本，计算机硕博，现加州大学某海景分校论文力工，incoming Meta 机器学习实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算，试图理解生物人脑和暴力美学的大模型间的共通之处。

制作：

黄芊雅：复旦大学新闻学院

邱鑫：上海交大安泰经管学院

王翌婷：复旦大学计算机学院

【音乐版权】

Time by Pold soundcloud.com｜Free Download / Stream: tinyurl.com｜Promoted by Audio Library tinyurl.com

Look At The Clouds by Declan DP｜Free Download / Stream: bit.ly｜Promoted by Audio Library bit.ly