腾讯混元Voyager：AI为你创建3D世界🪂

5分钟 ·9个月前

2

·

0

腾讯混元系列模型代表了其在空间智能和生成模型方面的重大进展。最新发布的HunyuanWorld-Voyager模型是业界首个支持原生3D重建的“超长漫游世界模型”，能够生成可探索的、世界一致的3D场景。这一系列模型旨在通过AI驱动的方式，为虚拟现实、物理仿真和游戏开发等应用创建高保真、可探索的3D环境，摆脱传统手动3D建模的限制。

腾讯混元系列模型概览

涵盖Hunyuan-large、Hunyuan-A13B等基础模型，以及专注于文本到图像生成、视频合成和3D资产创建等任务的专业模型。

强调对开源的承诺，模型规模多样，从大型MoE架构到为边缘设备设计的小型高效模型。

HunyuanWorld-Voyager：3D场景生成突破

腾讯混元系列最新模型，业界首个支持原生3D重建的“超长漫游世界模型”，专门用于生成可探索的3D场景。

解决了先前视频生成模型在遮挡视图和有限探索范围上的局限，能够直接将生成的视频导出为3D格式，无需传统三维重建后处理。

在WorldScore基准测试中取得最高总分，在物体控制、内容对齐、3D一致性、风格一致性和主观质量等方面超越其他领先方法。

Voyager核心技术创新

世界一致的视频扩散： 统一的视频扩散框架，能够同时生成精确对齐的RGB和深度视频序列，通过现有世界观测指导，弥合纯视频生成与显式3D场景建模的差距。

长距离世界探索： 采用高效的“世界缓存”机制存储先前生成帧的3D点，并利用点剔除技术管理内存，结合自回归推理和流畅视频采样实现迭代式场景扩展。

可扩展数据引擎： 开发了可自动估计任意视频相机位姿和度量深度的数据引擎，无需手动3D标注即可创建大规模、多样化的训练数据集，处理了超过10万个视频片段。

腾讯在3D世界探索中的应用与目标

核心目标是为虚拟现实、物理仿真和游戏开发等应用创建高保真、可探索的3D场景，摆脱传统劳动密集型3D建模工作流程。

3D输入到3D输出： Voyager能够直接从视频生成中输出3D点云，简化了创建交互式3D环境的工作流程。

多样化3D应用： 其深度感知生成能力支持视频场景重建、3D物体纹理生成、风格化视频生成和视频深度估计等多种3D应用。

交互式控制： 用户可通过键盘或游戏手柄输入控制相机路径，实现对生成3D世界的交互式探索。

来源：tencent/HunyuanWorld-Voyager · Hugging Face

在小宇宙打开