EP084. 会呼吸、会停顿的虚拟角色,和它背后的米哈游基因沉浸式游戏机

EP084. 会呼吸、会停顿的虚拟角色,和它背后的米哈游基因

11分钟 ·
播放数5
·
评论数0

上周,米哈游"退休"的蔡浩宇,创立的AI公司Anuttacon发布了LPM 1.0——一个让虚拟角色会"表演"的视频大模型。演示里,AI生成的角色会呼吸、会停顿、会根据你说的话点头皱眉,甚至能连续45分钟保持身份一致。

有媒体直呼"最像人的一次"。

这期节目,我们聊聊:

  • 蔡浩宇为什么要从米哈游"退休"去搞AI?

  • LPM 1.0凭什么号称突破了"表演三难困境"?

  • "全双工对话"是什么体验?

  • 不开源的模型,商业逻辑在哪里?

  • 这对游戏行业意味着什么?

——

播客视频版 | 了解我们 | 联系我们

——

Show notes

00:00 开场:蔡浩宇又搞事情了

00:42 蔡浩宇是谁?为什么要"退休"搞AI?

  • 从米哈游创始人到"AI灵魂大法师"

  • "未来做游戏的只有两类人"——他的暴论是什么意思

01:50 LPM 1.0是什么?为什么说"把虚拟角色盘活了"

  • 表演三难困境:高表现力、实时推理、长时稳定

  • 45分钟演示,无限时长的秘密

  • "主干-精炼器"架构如何实现身份一致性

04:12 "全双工对话"是什么体验?

  • 不再是"我说一句你回一句"

  • 双音频流:一边驱动口型,一边驱动反应

  • 350万次倾听行为标注,让角色学会"听"

  • 三种状态:倾听、说话、静默

05:38 "米哈游基因"带来了什么?

  • 78种精细情感、5000+动作描述符

  • 工业审美 vs 流量数据:两条不同的技术路线

  • 神似鹿鸣、林离的演示素材

07:06 团队阵容有多豪华?

  • Ailing Zeng:腾讯混元出身的研究新星

  • 童欣:微软亚洲研究院25年的图形学大佬

  • 《群星低语》和AnuNeko:产品验证之路

08:08 为什么不开源?

  • 不是炫技,是商业必然

  • 算力成本:0.35秒/GPU处理1秒视频

  • B端场景的想象力:虚拟主播、AI导师、客服

  • UGC平台基础设施的长远想象

09:34 这个模型意味着什么?

  • 对游戏行业:NPC从"念台词"到"会表演"

  • 对AI行业:垂直深耕 vs 通用追逐

  • 解决"恐怖谷效应"的关键:情感共鸣

  • cautiously optimistic:技术领先,商业化待验证

10:48 结语:蔡浩宇的第一颗子弹

——

关键概念

  • LPM 1.0

Large Performance Model,大型表演模型。蔡浩宇旗下Anuttacon发布的视频角色表演生成模型,170亿参数,支持全双工对话和无限时长生成。

  • 表演三难困境

高表现力、实时推理、长时稳定——这三件事在视频生成中很难同时实现。LPM 1.0声称全部解决。

  • 全双工对话

双方可以同时说话、互相打断的对话模式,需要同时处理两路音频流。

  • 自回归漂移

视频生成时间拉长后,微小误差累积导致角色脸部骤变、身份不一致的现象。

——

相关链接

相关产品

  • 《群星低语》(Whispers From The Star):AI驱动的互动叙事游戏

AnuNeko:AI聊天产品,猫咪角色有性格和偏好

米哈游相关

  • 鹿鸣:米哈游虚拟形象

  • 林离:与米哈游关系紧密的虚拟角色

——

参考资料

——

喜欢这期节目的话,欢迎订阅、评论、转发,让更多人听到~

你期待这种"会表演"的AI角色出现在哪些场景?游戏NPC、虚拟主播、还是AI伴侣?评论区聊聊。