EP084. 会呼吸、会停顿的虚拟角色，和它背后的米哈游基因

上周，米哈游"退休"的蔡浩宇，创立的AI公司Anuttacon发布了LPM 1.0——一个让虚拟角色会"表演"的视频大模型。演示里，AI生成的角色会呼吸、会停顿、会根据你说的话点头皱眉，甚至能连续45分钟保持身份一致。

有媒体直呼"最像人的一次"。

这期节目，我们聊聊：

蔡浩宇为什么要从米哈游"退休"去搞AI？
LPM 1.0凭什么号称突破了"表演三难困境"？
"全双工对话"是什么体验？
不开源的模型，商业逻辑在哪里？
这对游戏行业意味着什么？

——

播客视频版 | 了解我们 | 联系我们

——

Show notes

00:00 开场：蔡浩宇又搞事情了

00:42 蔡浩宇是谁？为什么要"退休"搞AI？

从米哈游创始人到"AI灵魂大法师"
"未来做游戏的只有两类人"——他的暴论是什么意思

01:50 LPM 1.0是什么？为什么说"把虚拟角色盘活了"

表演三难困境：高表现力、实时推理、长时稳定
45分钟演示，无限时长的秘密
"主干-精炼器"架构如何实现身份一致性

04:12 "全双工对话"是什么体验？

不再是"我说一句你回一句"
双音频流：一边驱动口型，一边驱动反应
350万次倾听行为标注，让角色学会"听"
三种状态：倾听、说话、静默

05:38 "米哈游基因"带来了什么？

78种精细情感、5000+动作描述符
工业审美 vs 流量数据：两条不同的技术路线
神似鹿鸣、林离的演示素材

07:06 团队阵容有多豪华？

Ailing Zeng：腾讯混元出身的研究新星
童欣：微软亚洲研究院25年的图形学大佬
《群星低语》和AnuNeko：产品验证之路

08:08 为什么不开源？

不是炫技，是商业必然
算力成本：0.35秒/GPU处理1秒视频
B端场景的想象力：虚拟主播、AI导师、客服
UGC平台基础设施的长远想象

09:34 这个模型意味着什么？

对游戏行业：NPC从"念台词"到"会表演"
对AI行业：垂直深耕 vs 通用追逐
解决"恐怖谷效应"的关键：情感共鸣
cautiously optimistic：技术领先，商业化待验证

10:48 结语：蔡浩宇的第一颗子弹

——

关键概念

LPM 1.0

Large Performance Model，大型表演模型。蔡浩宇旗下Anuttacon发布的视频角色表演生成模型，170亿参数，支持全双工对话和无限时长生成。

表演三难困境

高表现力、实时推理、长时稳定——这三件事在视频生成中很难同时实现。LPM 1.0声称全部解决。

全双工对话

双方可以同时说话、互相打断的对话模式，需要同时处理两路音频流。

自回归漂移

视频生成时间拉长后，微小误差累积导致角色脸部骤变、身份不一致的现象。

——

米哈游相关

鹿鸣：米哈游虚拟形象
林离：与米哈游关系紧密的虚拟角色

——

参考资料

——

喜欢这期节目的话，欢迎订阅、评论、转发，让更多人听到～

你期待这种"会表演"的AI角色出现在哪些场景？游戏NPC、虚拟主播、还是AI伴侣？评论区聊聊。

EP084. 会呼吸、会停顿的虚拟角色，和它背后的米哈游基因

Show notes

关键概念

相关链接

相关产品

米哈游相关

参考资料