Vol.10 采样祖师爷还能指导AI研究?从听视觉理论到多模态神经网络的思想实录羊角酒馆 | Horn Pub

Vol.10 采样祖师爷还能指导AI研究?从听视觉理论到多模态神经网络的思想实录

94分钟 ·
播放数107
·
评论数6

2025年9月30日晚9点17分,我突然收到了一条来自《周末变奏》听友群的好友申请。我就是这么认识的Arthur。而更令我没想到的是,他加我好友是想跟我录一期关于他的博士研究方向的节目。就这样,他冲进羊角酒馆后厨亲自炒了一盘菜,这可能是我迄今为止见过最硬核的催更。

这是一期成分非常复杂的播客,从听视觉&具象音乐的理论聊到多模态神经网络的设计与训练技巧。在奥斯陆大学读音乐科技方向的Arthur跟我是完完全全的同行,再加上我们两个人对于跨学科研究的一致的兴趣,这一期节目的准备和录制过程都非常的丝滑。而且我也终于聊到了一些最初开设这个播客时就希望传达的知识和理念。但我最喜欢的部分反而是最后十分钟聊完大纲内容之后的闲谈,莫名的说了很多之前试图与人讨论但从来没有对上频道过的话题。

本期嘉宾:

  • 郭锦岳(Arthur), 奥斯陆大学RITMO centre跨学科音乐科技方向博士在读

话题内容:

00:32 开场问候与嘉宾背景介绍

04:56 RITMO研究中心介绍

13:54 Arthur的主要研究项目:结合听视觉感知理论进行音视频AI模型的改进

17:05 听觉与视觉匹配的范例:猫和老鼠、 守望先锋枪械音效设计、闪灵

30:01 Pierre Schaeffer与具象音乐(musique concrete)

37:31 最早的具象音乐作品:Wire Recorder Piece (1944)

42:29 听觉的三种模式:Causal, Semantic, Reduced

50:07 Michel Chion与他基于听视觉理论的电影创作分析:Synchresis, Added Value

60:28 基于Synchresis 的音视频分析与创作技巧:Masking, Forced Marriage,  纤线,打破第四面墙

65:16 机器学习如何借鉴上述的理论模型:Masking training,Reduced listening embedding

70:28 机器学习领域研究者与听视觉理论研究之间的断层

72:40 Domain Knowledge对于指导当代机器学习&AI方向的研究究竟还有多大

76:21 音乐&科技:找回失散多年的兄弟姐妹

78:41 对当前机器学习领域发展的反思:井喷式的发展速度,对改进型研究和规模扩大的执念

81:53 计划之外的由iZotope RX引发的讨论:

  • 音乐大模型与工具民主化
  • 音乐没有单一的标准,工具也没有绝对的优劣
  • 跳出机器学习的框架,发现音乐科技的天地更为宽广
  • 降低音乐人接触前沿创作工具的门槛

中插音频:

00:00 30:59 Pierre Schaeffer | Études de bruits (1948)

18:16 Tom and Jerry

21:11 Guess the Weapon Sounds - Overwatch 2

23:44 The Shining (1980) - Here's Johnny Scene

26:02 We Made That Scene from 'The Shining' a lot Less Scary with inappropriate Sound Effects

37:37 Halim El-Dabh | Wire Recorder Piece (1944)

41:13 Alvin Lucier | I am sitting in a room (1969)

88:46 Eduard Artemyev | Медитация (Из к/ф “Сталкер”)  - 冥想(选自电影《潜行者》)

相关链接:

---

封面设计:老秦

后期剪辑:郭锦岳、杨泽堉

展开Show Notes
Ptron_2000
Ptron_2000
2026.1.03
好听爱听🥺主播和嘉宾老师还会再录几期这样的吗、、
zeyuyang42
:
我争取!其实选题很多,但时间很少🫠
fisheggg
fisheggg
2025.12.26
感谢主播!🥹
zeyuyang42
:
感谢嘉宾!🥹
DrHorse
DrHorse
2025.12.26
来了来了
zeyuyang42
:
好耶!