北京极佳视界与清华大学发布超长视频生成模型“视界一粟YiSu”

北京极佳视界科技有限公司与清华大学自动化系联合发布了首个超长时长、高性价比的Sora级视频生成大模型“视界一粟YiSu”。该模型原生具备16秒的超长时长，并且能够生成至1分钟以上的视频，体现出成本更低、速度更快、端侧可用的显著优势。

年初，Sora的爆火让DiT架构受到了业内广泛关注，许多公司和项目也开始复现DiT路线。然而，“视界一粟YiSu”基于团队自研的视频生成大模型技术，超越了DiT架构。该团队结合LLM和扩散模型的自研架构，综合多种技术路线的优势，在多模态融合、训练效率、推理效率和模型效果等方面进行了优化，致力于打造高效的视频生成解决方案。

此前，极佳视界团队曾提出WorldDreamer，这是全球首次以Transformer和LLM（Masked Token路线）为中心的视频生成工作。此次发布的YiSu大模型为YiSu-Beta V0.5版本，按照每周一个小版本、每月一个大版本的迭代速度持续进化。未来几个月，YiSu将在视频时长、可控性、推理速度、运行成本和理解物理世界等方面迎来大幅提升。

北京极佳视界与清华大学发布超长视频生成模型“视界一粟YiSu”

数智资讯订阅