节目介绍:
《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,内容聚焦 AI 前沿技术、科研趋势与社会影响。我们希望让听众在体验微软亚洲研究院最新研究成果的同时,聆听技术专家对 AI 发展的解读和深度洞察,在理解与思考中迎接 AI 的未来。
作为一档由 AI 合成的播客栏目,《AI Next》播客音频和宣传视频背后包含微软亚洲研究院在生成合成 AI 领域的三项关键技术:VibeVoice 具备自然、富有表现力的语音合成能力,能够为最多4位说话者合成长达90分钟的高质量对话语音,为用户带来更灵动的声音互动感受。VASA 可将静态肖像与音频信号结合,合成情感逼真且拥有细腻面部表情的说话头像,为内容创作及辅助教育提供了全新的呈现方式。TRELLIS 则是一个 3D 物品生成模型,能依据文本提示或图片信息构建相应的 3D 效果,让复杂的概念设计可以在立体空间中被“看见”。目前,VASA 和 TRELLIS 技术可在微软的 Copilot 产品中体验,VibeVoice 也已在 Hugging Face上 开源。三项技术的加持将为内容创造者和听众带来 AI 技术演进的真实体验。
《AI Next》的第一季主要聚焦当今智能发展的核心议题,探索前沿趋势。在第二期节目中,我们将与微软技术院士、微软亚洲研究院常务副院长郭百宁博士和副院长边江博士一起探讨具身智能领域的最新研究进展以及未来的应用方向。为什么具身智能必须通过行动来理解世界?具身智能又是如何通过与世界交互来学习的?世界模型为什么是迈向具身智能的关键?AI 正在从“能回应”迈向“会做事”,这一跃迁将推动智能在现实的复杂场景中更好地辅助人类,也将促使人们重新思考未来创新、生产力与人机协同的边界。
嘉宾介绍:
郭百宁博士
郭百宁博士,“微软杰出科学家”之一,现任微软亚洲研究院常务副院长。郭百宁博士拥有美国康乃尔大学硕士和博士学位,北京大学学士学位。他是加拿大皇家科学院院士,也是美国计算机协会会士(ACM Fellow),以及电气电子工程师学会会士(IEEE Fellow)。
郭百宁博士的研究领域包括计算机图形学、几何建模,虚拟现实和计算机视觉。他的研究集中在三个方向:三维图形学和成像中的深度神经网络模型、纹理和外观建模的统计模型,以及几何建模。他的工作被广泛应用于虚拟现实、视频通信、数字内容创建,和视频游戏等多个领域。郭百宁博士发明的计算机图形和视频游戏核心技术被全世界数以千万计的用户使用。
郭百宁博士是许多计算机图形学和视觉计算大会的主题演讲人,包括 ACM/SIAM 三维物体和物理建模大会(SPM)、IEEE 三维物体建模国际大会(SMI)、IEEE 虚拟现实大会(IEEE-VR)、IEEE 多媒体博览会(ICME)、IEEE 视觉通信和图像处理大会(VCIP)、太平洋图形学大会(PG)、计算机动画和社交智能体大会(CASA)和 IEEE ICASSP。他曾在许多国际计算机图形会议的程序委员会任职,并担任多种全球计算机图形学期刊的编辑委员会成员。
边江博士
边江博士,现任微软亚洲研究院副院长,主要负责微软亚洲研究院机器学习组和产业创新中心。他所带领的团队研究领域涉及基于大语言模型的智能体系统、强化学习、具身智能等,以及人工智能在金融、能源、物流、制造、医疗健康、可持续发展等垂直领域的前沿性研究和应用。他曾在国际顶级学术会议(ICLR, NeurIPS, ICML, KDD, WWW等)和期刊上(TKDE,TIST, TOIS, TKDD等)发表过上百篇学术论文,并获得数项美国专利。他还是现任 NeurIPS、KDD、AAAI 等国际顶级学术会议的领域主席。过去几年,他的团队成功将基于人工智能特别是大语言模型的预测和优化技术应用到金融、物流、医疗等领域的重要场景中,并将相关技术和框架发布到开源社区。
边江博士本科毕业于北京大学,获计算机科学学士学位,之后在美国佐治亚理工学院深造,获计算机科学博士学位。
本期技术名词:
世界模型(World Model):
世界模型是人工智能领域近几年特别火的一个概念。简单来说,它让 AI 在“脑子里”构建出一个关于外部世界的理解和模拟。就像我们人在做决定时,会在脑海里先想一遍各种可能性。比如下雨了要不要出门?路上会不会堵车?AI 的世界模型就是在模拟未来,学习环境怎么变、预测接下来会发生什么,甚至理解因果关系。
具身智能(Embodied AI):
具身智能是让 AI 真正走出屏幕,去接触真实世界的重要一步。传统的机器人靠程序干活,比如工厂里的机械臂,只会一遍遍重复同一个动作。而具身智能则更像是让 AI 自己学会“感知-推理-行动”的闭环。它能用视觉、听觉、触觉去理解环境,然后自主决定怎么应对。这样的机器,不只是“能做事”,而是“知道为什么要这么做”。
灵巧手:
灵巧手可以被理解为 AI 的“人类级手指”。传统的“夹爪”只有两三个关节,只能夹固定形状的东西。而灵巧手有更多的自由度,还有触觉传感器,能完成像拧瓶盖、捏起小零件、甚至操作工具这样的精细动作。也就是说,它不只是“抓住”物体,更能“理解”物体的形态和质感。
VLA模型(Vision Language Action model):
VLA 模型是“视觉-语言-动作”一体化的大模型。顾名思义,它就是让 AI 能同时理解“看见的内容”、“听到的语言”,以及“要做的动作”。举个例子,当你对它说:“把红色的杯子放到桌子右边”时,它会先识别出哪个是红色的杯子,再理解“右边”是什么意思,最后控制机械手去完成动作。这就是让 AI 真正做到“看、想、做”三位一体的智能。
内容提要:
03:26 与“AI 理解世界”密切相关的核心概念都有哪些?
06:27 AI 理解物理规律了吗?
08:18 AI 要真正理解世界,还需要哪些能力?
12:43 世界模型为何再次成为焦点?
16:13 具身智能与传统机器人的不同
21:53 为什么游戏是世界模型的最佳“训练场”?
25:37 实现具身智能最后一公里的关键技术是什么?
33:10 未来三到五年,具身智能最先突破的应用场景
互动方式:
公众号/ 小红书/ 知乎/ 微博:微软亚洲研究院
相关阅读:
- 文章:NeurIPS上新 | 生成式AI与具身智能:从像素到物理世界的交互
- 文章:MaaG:迈向世界模型,解决生成式游戏中的数值与时空一致性难题
- 论文:Beyond Human Demonstrations: Diffusion-Based Reinforcement Learning to Generate Data for VLA Training
- 论文:Dyn-O:Building Structured World Models with Object-Centric Representations
- 论文:Image as a World: Generating Interactive World from Single Image via Panoramic Video Generation
- 论文:Omnidirectional 3D Scene Reconstruction from Single Image
- 论文:One-Step Diffusion-Based Image Compression with Semantic Distillation
- 论文:VideoVLA: Video Generators Can Be Generalizable Robot Manipulators
- 论文:What Do Latent Action Models Actually Learn?
声明:
《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,旨在探索合成生成式技术在内容制作和传播中的新形式与可能性。节目中的语音均非真人录制,而是由研究技术原型合成。其中,嘉宾语音由 VibeVoice 技术基于既定文字内容以及嘉宾声音样本合成,宣传视频中的嘉宾人物头像由 VASA 技术基于音频内容以及卡通风格合成和渲染。
作为一项探索性播客节目,《AI Next》中涉及的相关技术仍处于研究阶段,生成内容的表现可能受多种输入因素的影响。节目制作及发布遵循人工智能、数据安全与隐私保护相关的法律法规。节目中所使用的语音、文字与图像均获得嘉宾授权,仅用于科研与科普展示。微软亚洲研究院将持续对相关技术进行优化,提升节目的收听体验。
随着人工智能技术的快速发展,确保相关技术能被人们信赖是一个亟需解决的问题。微软主动采取了一系列措施来预判和降低人工智能技术所带来的风险。微软致力于依照以人为本的伦理原则推动人工智能的发展,早在2018年就发布了“公平、包容、可靠与安全、透明、隐私与保障、负责”六个负责任的人工智能原则(Responsible AI Principles),随后又发布了负责任的人工智能标准(Responsible AI Standards)将各项原则实施落地,并设置了治理架构确保各团队把各项原则和标准落实到日常工作中。微软也持续与全球的研究人员和学术机构合作,不断推进负责任的人工智能的实践和技术。
所有使用或转载本节目的个人与机构,在引用与传播时需明确标注相关内容“由 AI 技术合成”或者不得移除已有的标识,并避免任何可能引发误导或侵犯他人权益的使用方式。若您发现本节目内容或相关技术被非法使用,请通过微软安全响应中心(Microsoft Security Response Center)网站进行举报:msrc.microsoft.com

