S1E7：AI创作浪潮下，内容生产将如何被重塑？

节目介绍：

《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客，内容聚焦 AI 前沿技术、科研趋势与社会影响。我们希望让听众在体验微软亚洲研究院最新研究成果的同时，聆听技术专家对 AI 发展的解读和深度洞察，在理解与思考中迎接 AI 的未来。

作为一档由 AI 合成的播客栏目，《AI Next》播客音频和宣传视频背后包含微软亚洲研究院在合成 AI 领域的三项关键技术：VibeVoice 具备自然、富有表现力的语音合成能力，能够为最多4位说话者合成长达90分钟的高质量对话语音，为用户带来更灵动的声音互动感受。VASA 可将静态肖像与音频信号结合，合成情感逼真且拥有细腻面部表情的说话头像，为内容创作及辅助教育提供了全新的呈现方式。TRELLIS 则是一个 3D 物品生成模型，能依据文本提示或图片信息构建相应的 3D 效果，让复杂的概念设计可以在立体空间中被“看见”。目前，VASA 和 TRELLIS 技术可在微软的 Copilot 产品中体验，VibeVoice 也已在 Hugging Face 上开源。三项技术的加持将为内容创造者和听众带来 AI 技术演进的真实体验。

《AI Next》的第一季主要聚焦当今智能发展的核心议题，探索前沿趋势。在第七期节目中，我们邀请到了微软亚洲研究院的首席开发经理夏炎和首席研究员杨蛟龙，与大家共同探讨 AI 如何从“生成工具”逐步演进为“创作伙伴”。当一个人就能完成过去需要一个团队才能实现的播客、动画甚至虚拟场景创作时，AI 带来的不仅是效率的提升，更是创作门槛的显著降低。那么，《AI Next》节目制作所采用的三项核心技术，背后隐藏着怎样的设计思路？AI辅助创作还面临哪些关键挑战？面向未来，创作者又将如何与 AI 协同头脑风暴，进一步激发创意潜能？

嘉宾介绍：

夏炎

微软亚洲研究院首席开发经理，曾参与微软亚洲研究院多个重要项目的研发，包括微软学术搜索、必应图片及实体搜索、英文聊天机器人、微软小英等。目前，他主要从事 AI 基础设施相关工作，参与的项目包括 BitNet 和 VibeVoice等。

杨蛟龙

微软亚洲研究院首席研究员，带领团队开展空间智能领域的前沿研究，方向包括但不限于三维重建与生成、以人为中心的建模、物理世界具身智能等。杨蛟龙及其团队的部分研究成果已落地应用于微软多款产品，例如微软Copilot、微软Azure AI等。

杨蛟龙长期担任计算机视觉领域顶级会议与期刊的程序委员会委员及审稿人，包括 CVPR、ICCV、ECCV、TPAMI、IJCV 等；同时担任 CVPR、ICCV、ECCV、WACV、MM等会议领域主席或资深领域主席，以及权威期刊《国际计算机视觉杂志》（IJCV）副主编。

本期技术名词：

词元（Token）：

词元是 AI 理解世界时使用的“最小积木块”。在文字中，一个字或一个词可能就是一个词元；在语音里，一小段声音信号也可能被压缩成一个词元。AI 并不直接处理整段话或整段音频，而是将内容拆解成一连串词元，再预测下一个词元是什么，就像下棋时一步步的推演。

三维网格（Mesh）：

三维网格是构建 3D 物体最基础的“骨架”，由无数个点、线和小平面拼接而成，用来描述物体的立体形状。无论是游戏角色、虚拟道具，还是 3D 打印模型，底层都依赖这样的网格结构。

扩散模型（Diffusion Model）：

扩散模型是一种“从模糊到清晰”的生成方法。它从一团随机噪声开始，通过逐步去噪，慢慢还原出清晰的图像、声音或视频。当前许多高质量的图像、视频和语音生成技术都基于这一原理。

变分自编码器（VAE）：

变分自编码器（VAE）是一种常用的 AI 生成模型，相当于 AI 的“压缩与重建器”。它能将复杂的图像或视频压缩成紧凑的内部表示，再高保真地还原出来，在大幅减小数据体积的同时，尽可能保留细节和质量。

内容提要：

05:00 AI 让创作回归内容本身

07:23 揭秘《AI Next》制作中的三项生成技术：VibeVoice, VASA, TELLIS

12:15 多人对话语音如何保持连贯、自然

16:35 VASA 的进化让虚拟形象有了微表情和呼吸感

21:08 TRELLIS.2让3D生成迈入高精时代

23:54 让AI创作告别“开盲盒”

27:50 AI 从生成工具走向创意协作者

互动方式：

公众号/ 小红书/ 知乎/ 微博：微软亚洲研究院

相关阅读：

文章：通用语音识别模型VibeVoice ASR：长达60分钟音频一次性“直出”结构化转写

文章：VibeVoice实现90分钟、多角色播客生成，拓展语音合成新边界

文章：VASA-3D：一张照片，开启3D讲话头像的无限可能

文章：从“实心泥塑”到“高精度资产”，TRELLIS.2重构3D生成规则

VibeVoice ASR 技术报告：VIBEVOICE-ASR Technical Report

VibeVoice 技术报告：VibeVoice Technical Report

TRELLIS.2论文：Native and Compact Structured Latents for 3D Generation

TRELLIS论文：Structured 3D Latents for Scalable and Versatile 3D Generation

论文：VASA-3D: Lifelike Audio-Driven Gaussian Head Avatars from a Single Image

论文：VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

项目页面：VibeVoice: Open-Source Frontier Voice AI

项目页面：VibeVoice: A Frontier Open-Source Text-to-Speech Model

项目页面：VASA-3D: Lifelike Audio-Driven Gaussian Head Avatars from a Single Image

项目页面：TRELLIS.2: NATIVE AND COMPACT STRUCTURED LATENTS FOR 3D GENERATION

声明：

《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客，旨在探索合成生成式技术在内容制作和传播中的新形式与可能性。节目中的语音均非真人录制，而是由研究技术原型合成。其中，嘉宾语音由 VibeVoice 技术基于既定文字内容以及嘉宾声音样本合成，宣传视频中的嘉宾人物头像由 VASA 技术基于音频内容以及卡通风格合成和渲染。

作为一项探索性播客节目，《AI Next》中涉及的相关技术仍处于研究阶段，生成内容的表现可能受多种输入因素的影响。节目制作及发布遵循人工智能、数据安全与隐私保护相关的法律法规。节目中所使用的语音、文字与图像均获得嘉宾授权，仅用于科研与科普展示。微软亚洲研究院将持续对相关技术进行优化，提升节目的收听体验。

随着人工智能技术的快速发展，确保相关技术能被人们信赖是一个亟需解决的问题。微软主动采取了一系列措施来预判和降低人工智能技术所带来的风险。微软致力于依照以人为本的伦理原则推动人工智能的发展，早在2018年就发布了“公平、包容、可靠与安全、透明、隐私与保障、负责”六个负责任的人工智能原则（Responsible AI Principles），随后又发布了负责任的人工智能标准（Responsible AI Standards）将各项原则实施落地，并设置了治理架构确保各团队把各项原则和标准落实到日常工作中。微软也持续与全球的研究人员和学术机构合作，不断推进负责任的人工智能的实践和技术。

所有使用或转载本节目的个人与机构，在引用与传播时需明确标注相关内容“由AI技术合成”或者不得移除已有的标识，并避免任何可能引发误导或侵犯他人权益的使用方式。若您发现本节目内容或相关技术被非法使用，请通过微软安全响应中心（Microsoft Security Response Center）网站进行举报：msrc.microsoft.com