DIGIPUNK
去投稿
发表于:2024年06月13日

北京极佳视界与清华大学发布超长视频生成模型“视界一粟YiSu”

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿

北京极佳视界科技有限公司与清华大学自动化系联合发布了首个超长时长、高性价比的Sora级视频生成大模型“视界一粟YiSu”。该模型原生具备16秒的超长时长,并且能够生成至1分钟以上的视频,体现出成本更低、速度更快、端侧可用的显著优势。

年初,Sora的爆火让DiT架构受到了业内广泛关注,许多公司和项目也开始复现DiT路线。然而,“视界一粟YiSu”基于团队自研的视频生成大模型技术,超越了DiT架构。该团队结合LLM和扩散模型的自研架构,综合多种技术路线的优势,在多模态融合、训练效率、推理效率和模型效果等方面进行了优化,致力于打造高效的视频生成解决方案。

此前,极佳视界团队曾提出WorldDreamer,这是全球首次以Transformer和LLM(Masked Token路线)为中心的视频生成工作。此次发布的YiSu大模型为YiSu-Beta V0.5版本,按照每周一个小版本、每月一个大版本的迭代速度持续进化。未来几个月,YiSu将在视频时长、可控性、推理速度、运行成本和理解物理世界等方面迎来大幅提升。

本文链接: https://www.shuzhipunk.com/articles/QPIs54MlwCe
转载请注明文章出处

文章所属标签
视频生成模型
大模型
YiSu