S1E4：人工智能的下一代前沿：从规模化到学习范式的革命

节目介绍：

《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客，内容聚焦 AI 前沿技术、科研趋势与社会影响。我们希望让听众在体验微软亚洲研究院最新研究成果的同时，聆听技术专家对 AI 发展的解读和深度洞察，在理解与思考中迎接 AI 的未来。

作为一档由 AI 合成的播客栏目，《AI Next》播客音频和宣传视频背后包含微软亚洲研究院在合成 AI 领域的三项关键技术：VibeVoice 具备自然、富有表现力的语音合成能力，能够为最多4位说话者合成长达90分钟的高质量对话语音，为用户带来更灵动的声音互动感受。VASA 可将静态肖像与音频信号结合，合成情感逼真且拥有细腻面部表情的说话头像，为内容创作及辅助教育提供了全新的呈现方式。TRELLIS 则是一个 3D 物品生成模型，能依据文本提示或图片信息构建相应的 3D 效果，让复杂的概念设计可以在立体空间中被“看见”。目前，VASA 和 TRELLIS 技术可在微软的 Copilot 产品中体验，VibeVoice 也已在 Hugging Face 上开源。三项技术的加持将为内容创造者和听众带来 AI 技术演进的真实体验。

《AI Next》的第一季主要聚焦当今智能发展的核心议题，探索前沿趋势。在《AI Next》第四期中，我们邀请到微软亚洲研究院首席科学家韦福如，从第一性原理出发，与大家探讨当前 AI 发展中最核心、具有争议的前沿问题。为何 Scaling 仍是 AI 的第一性原理，但必须走向“科学规模化”；为什么 AI 已能很好地解决 In-Distribution 问题，却仍未真正学会“学习本身”；为何下一次决定性跃迁，来自学习范式而非单纯工程优化。从基础研究到产业化路径，让我们共同开启这场关于 AI 下一代范式迁移的深度对话。

嘉宾介绍：

韦福如博士

韦福如博士现任微软亚洲研究院首席科学家、微软杰出科学家，领导团队从事基础模型、自然语言处理、语音处理和多模态人工智能等领域的研究。近年来，他还致力于领导和推进通用人工智能的基础研究和创新。

近年来，韦福如博士和团队在基础模型和通用人工智能领域发表和开源了一系列开创性、有影响力的论文和模型，例如 UniLM, InfoXLM, XLM-E, MiniLM(-2), (m)E5, Layout(X)LM(-3), WavLM, BEiT(-3), Kosmos(-2), VALL-E, DeepNet, LongNet, MiniLLM / On-Policy Distillation, (Gated) RetNet, YOCO / Decoder-Decoder Architecture, 1-bit LLMs / BitNet (b1.58 | a4.8 | b1.58 2B4T | v2 | BitDistill | bitnet.cpp), Q-Sparse / Fully Sparsely-Activated LLMs, MH-MoE / 1-bit MoE, Differential Transformer, LatentLM / Multimodal Latent Language Modeling, RPT / Reinforcement Pre-Training, VibeVoice, TPT / Thinking Augmented Pre-Training, Agentic Organization / Asynchronous Thinking, Generative Adversarial Distillation / Black-Box On-Policy Distillation 等。

韦福如博士在顶级会议和期刊上发表了200多篇研究论文（被引用超过70,000次，H-Index 120），并获得 AAAI 2021 年最佳论文提名奖以及 KDD 2018 最佳学生论文奖。

韦福如博士分别于2004年和2009年获得武汉大学学士学位和博士学位。2017年，他因对自然语言处理的贡献入选《麻省理工技术评论》中国35岁以下创新者年度榜单（MIT TR35 China）， 2018年入选中国AI英雄风云榜技术新锐奖榜单。2019年“统一自然语言预训练模型与机器阅读理解”入选世界互联网领先科技成果奖，2024年 LayoutLM 荣获国际基础科学大会前沿科学奖。2020年入选北京市劳动模范。

本期技术名词：

规模法则（Scaling Law）：

规模法则 Scaling Law 可谓是 AI 领域的“摩尔定律”。简单说 Scaling Law 就是模型越大，即参数越多、训练数据越多、算力越强，它的能力通常就越强。比如早期的 AI 模型参数量大幅增加的话，它回答问题、写代码、总结文本的能力肉眼可见地变强。

Transformer 架构：

如果把 AI 模型比作“大脑”，那当前几乎所有主流 AI 的”脑回路”都是基于 Transformer 架构的。它就像积木中的基础模块，无论是语言模型、视觉模型还是语音模型，都能用同一套积木搭建的方法。

评测基准（Benchmark）：

Benchmark 是判断 AI 模型能力的基准。科学家们会针对不同能力设计一些“考试题”，比如数学题、逻辑推理题、代码生成题，或者让 AI 根据一段文字回答问题。早期的评测可能比较简单，之后难度会逐步升级。

低比特量化：

随着模型越做越大，用 Transformer 架构搭建的模型越来越耗费算力和能源。低比特量化就好比给 AI 模型节能瘦身。原本 AI 计算时用的是8位、16位的复杂数据，现在低比特量化将其压缩成1位、4位这样更简单的形式，以此来降低计算量和能耗。

内容提要：

05:24 在信息爆炸时代，研究者如何跟上 AI 前沿步伐？

06:44 规模化是否真的见顶了？

09:34 刷榜的意义是什么？

10:25 Transformer 到底是不是瓶颈？数据荒背后，真正稀缺的是什么？

14:34 向大脑学习：记忆、神经可塑性与持续学习

21:47 模型架构、系统与硬件的协同进化

24:16 从“语言思考”走向“多模态思考”

36:46 通用模型 vs 垂直定制：如何做出正确选择？

40:07 第二增长曲线，仍在继续

互动方式：

公众号/ 小红书/ 知乎/ 微博：微软亚洲研究院

相关阅读：

论文：Reinforcement Pre-Training（RPT）

论文：BitNet: Scaling 1-bit Transformers for Large Language Models

论文：You Only Cache Once（YOCO）: Decoder-Decoder Architectures for Language Models

论文：Differential Transformer

论文：The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

项目页面：VibeVoice: A Frontier Open-Source Text-to-Speech Model

文章：VibeVoice实现90分钟、多角色播客生成，拓展语音合成新边界

论文：Thinking Augmented Pre-Training

论文：DeepNet: Scaling Transformers to 1,000 Layers

论文：LongNet: Scaling Transformers to 1,000,000,000 Tokens

论文：The Era of Agentic Organization: Learning to Organize with Language Models

论文：BEiT: BERT Pre-Training of Image Transformers

论文：Multimodal Latent Language Modeling with Next-Token Diffusion

署名文章：人工智能基础创新的第二增长曲线

声明：

《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客，旨在探索合成生成式技术在内容制作和传播中的新形式与可能性。节目中的语音均非真人录制，而是由研究技术原型合成。其中，嘉宾语音由 VibeVoice 技术基于既定文字内容以及嘉宾声音样本合成，宣传视频中的嘉宾人物头像由 VASA 技术基于音频内容以及卡通风格合成和渲染。

作为一项探索性播客节目，《AI Next》中涉及的相关技术仍处于研究阶段，生成内容的表现可能受多种输入因素的影响。节目制作及发布遵循人工智能、数据安全与隐私保护相关的法律法规。节目中所使用的语音、文字与图像均获得嘉宾授权，仅用于科研与科普展示。微软亚洲研究院将持续对相关技术进行优化，提升节目的收听体验。

随着人工智能技术的快速发展，确保相关技术能被人们信赖是一个亟需解决的问题。微软主动采取了一系列措施来预判和降低人工智能技术所带来的风险。微软致力于依照以人为本的伦理原则推动人工智能的发展，早在2018年就发布了“公平、包容、可靠与安全、透明、隐私与保障、负责”六个负责任的人工智能原则（Responsible AI Principles），随后又发布了负责任的人工智能标准（Responsible AI Standards）将各项原则实施落地，并设置了治理架构确保各团队把各项原则和标准落实到日常工作中。微软也持续与全球的研究人员和学术机构合作，不断推进负责任的人工智能的实践和技术。

所有使用或转载本节目的个人与机构，在引用与传播时需明确标注相关内容“由AI技术合成”或者不得移除已有的标识，并避免任何可能引发误导或侵犯他人权益的使用方式。若您发现本节目内容或相关技术被非法使用，请通过微软安全响应中心（Microsoft Security Response Center）网站进行举报：msrc.microsoft.com