【关于本期】
OpenAI终于在7月底兑现承诺,上线了GPT-4o高级语音模式的灰度测试,目前一小部分ChatGPT Plus用户已经拿到了尝鲜入场券。OpenAI表示,高级语音模式提供了更加自然、实时对话,可以随意打断,甚至它还可以感知、回应你的情绪。预计在今年秋季,所有ChatGPTPlus用户,都能用上这个功能。
ChatGPT的语音对话功能去年9月首次推出,今年5月在GPT4o发布会直播中推出了高级语音模式的demo。在demo演示中,GPT4o可以识别出OpenAI总裁Brockman所穿的衣服、身处的环境,甚至通过他周围的灯光布置推断出他可能正在进行视频直播。更令人惊讶的是,GPT4o在与Brockman对话时,可以识别出Brockman的情绪和语气,而其回复相比GPT3.5和GPT4,也更加活泼和生动。
但不管是因为C端产品对于安全性与稳定性的高要求,还是之前版本采用与寡姐斯嘉丽约翰逊高度相似声线诱发的风波,这个饼也终于在反复跳票后在7月底被落实。而我们恰好在2个月前跟做audio generation的两位博士生朋友交流对当时OpenAI发布会的GPT4o的看法。他们分别是MyShell联合创始人,麻省理工在读博士生秦增益,和卡耐基梅隆大学LTI WAVLab博士生史嘉彤。我们从创业公司和学界研究者的视角展开聊聊Audio/SpeechGeneration,其中的许多很有意思的观点在2个月后的今天看来,的确得到了验证。
【嘉宾介绍】
秦增益:MIT博士生,本科毕业于清华大学。研究范围包括音频生成、大语言模型和计算机视觉。他的语音生成模型OpenVoice在Github上获得27k stars,并登顶Github排行榜。他联合创立的生成式AI应用平台MyShell已有超过200万注册用户,并有超过10万个应用被创建
史嘉彤:卡内基梅隆大学LTIWAVLab博士生,师从ShinjiWatanabe教授。本硕分别毕业于中国人民大学和约翰霍普金斯大学计算机专业。研究方向主要在语音和音乐处理,近期主要关注于音频表征学习及其应用;他是语音处理框架ESPnet的主要贡献者,以及近年语音相关基准/比赛 SUPERB、ML-SUPERB、SVCC、IWSLT、DiscreteSpeech、SVDD、Dynamic SUPERB 的组织者和发起人。曾获卡内基梅隆大学校长奖学金,SLT2022以及ASRU2023最佳论文提名。曾多次在腾讯 AI Lab、Meta AI、IBM AI Research进行研究实习。
【降落伞】
02:28 自我介绍
【GPT4o,新世界的大门】
03:24 怎么看待GPT4o的发布?
05:23 怎么衡量不同任务中语音系统的能力?是否需要新的评价标准?
12:29 GPT4o在demo中展现的能力
16:40 为什么GPT4o尚未完全开放它的各项能力?
19:53 怎么看待GPT4o的免费版本?
【如何实现GPT4o的相关功能】
23:16 GPT4o和其他功能性AI的本质区别
27:02 serving的改善和旧模型的迭代
28:48 怎么实现GPT4o的实时性和低延迟?
45:39 端到端的speech generation
49:24 个人定制AI agents助手的前景
58:07 语音合成能不能“超越”真实的speech?
【GPT4o的未完待续】
1:03:27 GPT4o的数据处理过程与提升需求
1:11:03 一段语音中的哪些信息和语音处理有关?
1:16:05 用语音检测核酸?
1:18:51 GPT4o可能与其他服务商或API合作吗?
1:22:00 未来展望:超级智能的曙光
【制作团队】
主理人:
- 刘杰尼:社科传媒本计算机研,Ex高盛TMT投行吗喽,接触过各种行业和国内外项目,混过大厂小厂和创业公司,并有幸(有可能是不幸)经历中国上一个TMT时代的完整兴衰,试图更好地活在科技与人文的交叉点。
- 徐胖虎:电子工程本,计算机硕博,现加州大学某海景分校论文力工,incoming Meta 机器学习实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算,试图理解生物人脑和暴力美学的大模型间的共通之处。
制作:
- 黄芊雅:复旦大学新闻学院
- 邱鑫:上海交大安泰经管学院
- 王翌婷:复旦大学计算机学院
【音乐版权】
- Time by Pold soundcloud.com|Free Download / Stream: tinyurl.com|Promoted by Audio Library tinyurl.com
- Look At The Clouds by Declan DP|Free Download / Stream: bit.ly|Promoted by Audio Library bit.ly