DIGIPUNK
去投稿
发表于:2025年02月11日

豆包大模型与北交大、中科大联合开源创新视频生成模型VideoWorld

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
要点速达👈
  • 🚀 VideoWorld首次实现无语言模型的视频世界认知技术。
  • 🔍 通过视觉信号学习,突破语言依赖,展现复杂任务处理能力。
  • 🎮 在围棋和机器人控制任务中,取得接近oracle模型的出色表现。
  • 💡 核心技术包括潜在动态模型(LDM)与自回归Transformer架构。
  • 🌍 该项目已开源,提供GitHub代码和运行指南,推动AI视频生成领域的发展。

数智朋克报道,豆包大模型团队与北京交通大学及中国科学技术大学的联合研究成果——“VideoWorld”视频生成模型,日前正式开源。不同于传统的多模态模型,如Sora、DALL-E和Midjourney,VideoWorld不依赖语言或标签数据,而是通过纯粹的视觉信号进行学习,成功实现了无需语言模型的世界认知。

创新突破使得VideoWorld能够从视频数据中提取知识,并执行一些语言难以精确描述的复杂任务。例如,折纸和打领结等操作,传统多模态模型往往无法处理这些视觉驱动的挑战,而VideoWorld则展现出超越语言的认知能力。

该模型的技术核心是潜在动态模型(LDM),通过高效地压缩视频帧间变化信息,显著提升了学习效率。结合自回归Transformer架构和矢量量化-变分自编码器(VQ-VAE),VideoWorld在视频生成和复杂任务推理中取得了出色的表现,能够从无标注的视频数据中学习到规则、推理及规划能力。

VideoWorld的核心创新不仅体现在其高效的视频数据学习方式,还在于它超越了语言模型的局限,能够处理复杂的视觉任务,例如折纸和打领结等。

视频生成与理解领域,尤其是在围棋和机器人控制方面,VideoWorld表现尤为突出。其在围棋领域的表现已经达到专业5段9x9围棋水平,且无需依赖强化学习搜索或奖励机制。在机器人控制任务中,VideoWorld能够通过视频数据学习操作,并在多样化环境中展现出接近oracle模型的性能,具备了广泛的应用潜力。

目前,VideoWorld的开源代码已在GitHub发布,豆包大模型团队同时提供了详尽的安装和运行指南。该开源举措为AI视频生成技术的进一步创新铺平了道路,也为多模态认知及人工智能应用的研究提供了宝贵资源。

本文链接: https://www.shuzhipunk.com/articles/1eU4XP6MRcA
转载请注明文章出处

文章所属标签
视频生成模型
VideoWorld
多模态模型
“豆包”是字节跳动基于云雀模型开发的AI智能体,具有聊天机器人、写作助手和英语学习助手等多种功能。豆包通过自然语言处理技术,能够回答用户的问题并进行对话,提供信息获取、写作支持和语言学习等多方面的服务。
1
篇内容持续更新
查看更多