E211|站在内容创作者与机器人的交界处:聊聊3D数字人的进化硅谷101

E211|站在内容创作者与机器人的交界处:聊聊3D数字人的进化

64分钟 ·
播放数27215
·
评论数22

9月的最后一天,Sora2发布,它可以把一句话变成一段10秒的短视频;好莱坞完全由AI创作的演员Tilly Norwood,诞生6个多月就获得了6.5万粉丝,她发自拍、代言品牌,却从未真实存在。数字人,正在成为新的内容生产者。
但从“生成一段视频”,到与一个3D数字人实时稳定互动,中间隔着很多技术壁垒。本期嘉宾柴金祥教授,他在2000年就已经进入卡内基梅隆大学研究机器人,但因为机器人应用与落地极为困难,他们团队反而成为世界上最早用AI做3D动画的团队;18年来,他几乎在做同样的研究。
从机器人到好莱坞的AI动画,到我们今天讨论的3D数字人模型是不是又可以反过来驱动机器人,这听起来像是一种轮回,却也是一种新的开始。

【主播】
泓君,硅谷101创始人,播客主理人
【嘉宾】
柴金祥,魔珐科技创始人兼CEO,TAMU计算机科学和工程系终身教授、博导

【你将听到】
数字人,下一代内容生产者
02:45 从Sora2的发布,看“文生视频”的进步与局限
05:58 Text-to-Video与Text-to-3D的核心区别:像素和参数
08:55 成本革命的基石:文生3D多模态大模型(星云平台)
13:33 传统虚拟数字人是如何动起来的?
16:34 好莱坞有数据无算法,AI公司有算法无数据

多模态大模型重塑人机交互
19:46 柴教授的从业经历:从机器人控制到数字人动画
20:46 Jessica Hodgins:数字人物理动画的先驱
22:24 很多做Robotics很厉害的人,其实都是做动画的
26:49 “交互-游戏-好莱坞”,渐进式的技术落地路线图
29:45 虚拟数字人的两条岔路:预制的完美v.s实时的鲜活
32:07 AI渲染+分层模型,终结“显卡依赖”

3D数字人的商业化前景
37:02 B端的统一形象与C端的个人分身
40:36 规模化落地需翻越“三座大山”:质量、延时、成本
42:21 自研语音,风格化“人设”为数字人注入灵魂

加速具身智能突破泛化
45:07 对机器人产业判断:白领场景将早于蓝领场景落地
46:13 用海量3D动作数据教机器人动作规划,但缺乏力的反馈
47:18 从“运动学”到“动力学”,小脑进化仍需强化学习突破
49:23 从“爬楼梯”这件小事,看数据如何促进泛化
58:33 跳脱细节调配,机器人研究进入“黑盒模式”

【延伸阅读和相关术语】
文生3D多模态大模型:一种人工智能模型,输入一段文字描述,就能直接生成一个立体的、会动、会说话的3D数字人,“多模态”指输出包含了语音、表情、肢体动作等多种信息模式。
VLA模型:下一代机器人的“大脑”模型,它能让机器人理解看到的画面(Vision),理解人类的语言指令(Language),并直接规划出要执行的动作(Action)。
运动学和动力学(Kinematics and Dynamics):机器人运动的两个基础学科。运动学解决 “做什么动作” 的问题,不考虑力;动力学解决 “用多大力气做” 的问题。让机器人完成精细操作,需要两者结合。

【监制】
泓君
【后期】
AMEI
【运营】
朱婕
【BGM】
Azoic - Max Anson
Treasure Hunt - Helmut Schenker
Lost in Time - Aiyo

【在这里找到我们】
公众号:硅谷101
收听渠道:Apple Podcast|Spotify|小宇宙|喜马拉雅|蜻蜓FM|荔枝FM|网易云音乐|QQ音乐
其他平台:YouTube|Bilibili 搜索「硅谷101播客」
联系我们:podcast@sv101.net

Special Guest: 柴金祥.

展开Show Notes
柴博士认为,在本次播客中,小君提的48个问题中,特别好的20个,特别特别好的17个,特别特别特别好的9个~
_milkiller_
_milkiller_
2025.10.27
访谈做得很专业,提问层层深入,听得很过瘾,从好莱坞动画,到机器人控制,“双生学科”演进这个视角非常独特,一下子把动画制作和机器人两大热门领域的底层逻辑打通了
Abel_
Abel_
2025.10.26
这期播放量可能不多,但是信息量真的大
我十几年前上过柴老师的图形学的课,现在我也在做机器人。现在的确是很多图形学的人在做机器人
吴_IHJq:计算机视觉方面?
山下郭
山下郭
2025.10.24
我在小红书看了很多sora整活的视频,笑死了
Amei刘媚
Amei刘媚
2025.10.27
对柴教授提到的“三座大山”(质量、延时、成本)深有共鸣,能用AI渲染把成本打下来,这才是技术真正走向规模化应用的关键
喜KKCC
喜KKCC
2025.10.24
更新频率爱了👍
阿互
阿互
2025.10.28
这期播客竟然自动就有字幕
Alnega:是小宇宙吗?请问在哪里看到的
Emilien
Emilien
2025.11.08
sora和数字人说实话没法类比,这两有交集但是完全两个不同的方向。一个是大方向,视频生成;一个是小方向,数字人试试交互。这个大小说的不是市场,而是成本。
大方向就是视频生成,做灵感生产工具的如可灵、wan,但sora是aigc第一个在toc真正爆的应用,且是为了这个应用服务的模型,清晰度和kelinh都没法比,更别提什么一致性了。讨论这个模型的一致性缺陷没意义,且sora的分镜能力远强于其他模型。
小方向的数字人,就是用于实时交互,用“人”来做大模型的UI。魔珐3d数字人技术栈之前还是高成本的ue渲染,离真正toc的应用成本还远着,不知道现在有没有结合3d高斯做模型生成,更别提同样的人物模型能不能在移动端8gen3这种处理器上运行了。
这期博客的类比,说实话想把两个不同方向的事情硬拉在一起做对比,更像魔珐的软广了
kkkkkk_P4OI
kkkkkk_P4OI
2025.11.03
00:00 去试了下,客服一听是个人试用,压根就不回消息,就这意识还说什么颠覆渲染引擎
Ashhher
Ashhher
2025.10.30
现在已经出了可以做家务的机器人,售价两万美金。这个机器人算是实现了泛式运动了吗?好奇柴老师对这家公司有什么看法。非常好的一期内容,可能需要多听几遍
YouKnowSty
YouKnowSty
2025.10.28
精彩!
BENULA
BENULA
2025.10.27
很喜欢的一集😊
郭智跃
郭智跃
2026.1.23
主持人也很不错,能对得上话
HD556107x
HD556107x
2025.10.30
嘉宾质量真高
我对这个技术怎么全是是恐怖呢
能做出来真人质感吗?
547_
547_
2025.10.24
🛋️
水水Lynn
水水Lynn
2025.10.24
🛋️