DIGIPUNK
去投稿
发表于:2025年09月03日

腾讯推出原生支持3D重建的HunyuanWorld-Voyager世界模型

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
核心要点👉
  • 🚀 业界首个原生支持3D重建的超长漫游世界模型
  • 💡 基于单张图像生成世界一致性的3D点云,支持自定义相机路径
  • 🔄 创新的3D内存机制确保任意摄像机轨迹的几何一致性
  • 🌐 可自由控制视角的RGB-D视频,支持无损导出3D点云
  • 🏆 斯坦福WorldScore基准测试综合能力第一,开源加速推进

数智朋克讯,腾讯正式推出HunyuanWorld-Voyager模型,标志着业界首个原生支持3D重建的超长漫游世界模型问世。该模型专注于空间智能领域,旨在为虚拟现实、物理仿真和游戏开发提供高保真3D场景漫游能力。基于单张输入图像,模型可生成具备世界一致性的3D点云,用户通过自定义相机路径实现沉浸式探索。其直接3D输出能力无需额外工具即可导出格式,实现即时应用;创新的3D内存机制确保任意摄像机轨迹的几何一致性,突破传统视频生成在空间一致性和探索范围上的局限

融合视频生成与3D建模优势,HunyuanWorld-Voyager创新性地引入场景深度预测,合成可自由控制视角的RGB-D视频。用户借助键盘或摇杆操作生成对应画面,3D空间记忆维持高度一致性,支持无损导出3D点云原生3D记忆和场景重建机制避免后处理延迟,输入端加入3D条件保证视角精准,输出端直接生成点云适配多场景应用。额外深度信息赋能视频场景重建、3D物体纹理生成及风格化编辑。

可扩展的世界缓存机制基于混元世界模型1.0的初始点云缓存,投影至目标视图指导扩散模型,实时更新形成闭环系统。这不仅扩展漫游范围,还为1.0模型补充新视角,提升复杂场景生成质量。在斯坦福WorldScore基准测试中,模型综合能力位居首位,视频生成和3D重建任务表现优异。

混元世界模型系列开源加速推进,HunyuanWorld-Voyager现已上线,技术报告公开,源代码免费开放。此前开源包括混元3D世界模型1.0及Lite版,降低显存需求支持消费级显卡,翻译模型Hunyuan-MT-7B在国际比赛中斩获30项语种冠军。

本文链接: https://www.shuzhipunk.com/articles/IpVLNYUB7mV
转载请注明文章出处

文章所属标签
3D重建
空间智能
点云生成
虚拟现实
开源模型