腾讯混元系列模型代表了其在空间智能和生成模型方面的重大进展。最新发布的HunyuanWorld-Voyager模型是业界首个支持原生3D重建的“超长漫游世界模型”,能够生成可探索的、世界一致的3D场景。这一系列模型旨在通过AI驱动的方式,为虚拟现实、物理仿真和游戏开发等应用创建高保真、可探索的3D环境,摆脱传统手动3D建模的限制。

腾讯混元系列模型概览
- 涵盖Hunyuan-large、Hunyuan-A13B等基础模型,以及专注于文本到图像生成、视频合成和3D资产创建等任务的专业模型。
- 强调对开源的承诺,模型规模多样,从大型MoE架构到为边缘设备设计的小型高效模型。
HunyuanWorld-Voyager:3D场景生成突破
- 腾讯混元系列最新模型,业界首个支持原生3D重建的“超长漫游世界模型”,专门用于生成可探索的3D场景。
- 解决了先前视频生成模型在遮挡视图和有限探索范围上的局限,能够直接将生成的视频导出为3D格式,无需传统三维重建后处理。
- 在WorldScore基准测试中取得最高总分,在物体控制、内容对齐、3D一致性、风格一致性和主观质量等方面超越其他领先方法。
Voyager核心技术创新
- 世界一致的视频扩散: 统一的视频扩散框架,能够同时生成精确对齐的RGB和深度视频序列,通过现有世界观测指导,弥合纯视频生成与显式3D场景建模的差距。
- 长距离世界探索: 采用高效的“世界缓存”机制存储先前生成帧的3D点,并利用点剔除技术管理内存,结合自回归推理和流畅视频采样实现迭代式场景扩展。
- 可扩展数据引擎: 开发了可自动估计任意视频相机位姿和度量深度的数据引擎,无需手动3D标注即可创建大规模、多样化的训练数据集,处理了超过10万个视频片段。
腾讯在3D世界探索中的应用与目标
- 核心目标是为虚拟现实、物理仿真和游戏开发等应用创建高保真、可探索的3D场景,摆脱传统劳动密集型3D建模工作流程。
- 3D输入到3D输出: Voyager能够直接从视频生成中输出3D点云,简化了创建交互式3D环境的工作流程。
- 多样化3D应用: 其深度感知生成能力支持视频场景重建、3D物体纹理生成、风格化视频生成和视频深度估计等多种3D应用。
- 交互式控制: 用户可通过键盘或游戏手柄输入控制相机路径,实现对生成3D世界的交互式探索。
