S1E06 | AI驱动的语音交互革命:探究GPT4o背后的技术逻辑

S1E06 | AI驱动的语音交互革命:探究GPT4o背后的技术逻辑

92分钟 ·
播放数217
·
评论数4

【关于本期】

OpenAI终于在7月底兑现承诺,上线了GPT-4o高级语音模式的灰度测试,目前一小部分ChatGPT Plus用户已经拿到了尝鲜入场券。OpenAI表示,高级语音模式提供了更加自然、实时对话,可以随意打断,甚至它还可以感知、回应你的情绪。预计在今年秋季,所有ChatGPTPlus用户,都能用上这个功能。

ChatGPT的语音对话功能去年9月首次推出,今年5月在GPT4o发布会直播中推出了高级语音模式的demo。在demo演示中,GPT4o可以识别出OpenAI总裁Brockman所穿的衣服、身处的环境,甚至通过他周围的灯光布置推断出他可能正在进行视频直播。更令人惊讶的是,GPT4o在与Brockman对话时,可以识别出Brockman的情绪和语气,而其回复相比GPT3.5和GPT4,也更加活泼和生动。

但不管是因为C端产品对于安全性与稳定性的高要求,还是之前版本采用与寡姐斯嘉丽约翰逊高度相似声线诱发的风波,这个饼也终于在反复跳票后在7月底被落实。而我们恰好在2个月前跟做audio generation的两位博士生朋友交流对当时OpenAI发布会的GPT4o的看法。他们分别是MyShell联合创始人,麻省理工在读博士生秦增益,和卡耐基梅隆大学LTI WAVLab博士生史嘉彤。我们从创业公司和学界研究者的视角展开聊聊Audio/SpeechGeneration,其中的许多很有意思的观点在2个月后的今天看来,的确得到了验证。

【嘉宾介绍】

秦增益:MIT博士生,本科毕业于清华大学。研究范围包括音频生成、大语言模型和计算机视觉。他的语音生成模型OpenVoice在Github上获得27k stars,并登顶Github排行榜。他联合创立的生成式AI应用平台MyShell已有超过200万注册用户,并有超过10万个应用被创建

史嘉彤:卡内基梅隆大学LTIWAVLab博士生,师从ShinjiWatanabe教授。本硕分别毕业于中国人民大学和约翰霍普金斯大学计算机专业。研究方向主要在语音和音乐处理,近期主要关注于音频表征学习及其应用;他是语音处理框架ESPnet的主要贡献者,以及近年语音相关基准/比赛 SUPERB、ML-SUPERB、SVCC、IWSLT、DiscreteSpeech、SVDD、Dynamic SUPERB 的组织者和发起人。曾获卡内基梅隆大学校长奖学金,SLT2022以及ASRU2023最佳论文提名。曾多次在腾讯 AI Lab、Meta AI、IBM AI Research进行研究实习。

【降落伞】

02:28 自我介绍

【GPT4o,新世界的大门】

03:24 怎么看待GPT4o的发布?

05:23 怎么衡量不同任务中语音系统的能力?是否需要新的评价标准?

12:29 GPT4o在demo中展现的能力

16:40 为什么GPT4o尚未完全开放它的各项能力?

19:53 怎么看待GPT4o的免费版本?

【如何实现GPT4o的相关功能】

23:16 GPT4o和其他功能性AI的本质区别

27:02 serving的改善和旧模型的迭代

28:48 怎么实现GPT4o的实时性和低延迟?

45:39 端到端的speech generation

49:24 个人定制AI agents助手的前景

58:07 语音合成能不能“超越”真实的speech?

【GPT4o的未完待续】

1:03:27 GPT4o的数据处理过程与提升需求

1:11:03 一段语音中的哪些信息和语音处理有关?

1:16:05 用语音检测核酸?

1:18:51 GPT4o可能与其他服务商或API合作吗?

1:22:00 未来展望:超级智能的曙光

【制作团队】

主理人:

  • 刘杰尼:社科传媒本计算机研,Ex高盛TMT投行吗喽,接触过各种行业和国内外项目,混过大厂小厂和创业公司,并有幸(有可能是不幸)经历中国上一个TMT时代的完整兴衰,试图更好地活在科技与人文的交叉点。
  • 徐胖虎:电子工程本,计算机硕博,现加州大学某海景分校论文力工,incoming Meta 机器学习实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算,试图理解生物人脑和暴力美学的大模型间的共通之处。

制作:

  • 黄芊雅:复旦大学新闻学院
  • 邱鑫:上海交大安泰经管学院
  • 王翌婷:复旦大学计算机学院

【音乐版权】

展开Show Notes
shirp
shirp
2024.8.09
很有趣,嘉宾逻辑性强,知识丰富。
刘杰尼
:
谢谢☺️
hai_Lh3t
hai_Lh3t
2024.8.08
期待未来更多节目!
刘杰尼
:
呜呜谢谢你♥️