DIGIPUNK
去投稿
发表于:13 hours ago

阿里巴巴通义万相Wan2.2视频生成模型升级,引入MoE架构并开源三款模型

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
核心要点👉
  • 🚀 MoE架构:节省50%计算资源,高/低噪专家模型协同优化视频布局与细节
  • 🎨 电影美学控制:支持关键词调控光影色彩(如“黄昏柔光”),生成电影级画面
  • 💻 三款开源模型:文生视频T2V-A14B、图生视频I2V-A14B、统一视频生成TI2V-5B
  • ⚡ 高效压缩技术:TI2V-5B实现4×16×16时空压缩,消费级显卡可处理720P@24fps视频
  • 📈 性能突破:训练数据增加65.6%图像+83.2%视频素材,优化复杂运动与人物交互

数智朋克讯,阿里巴巴开源的通义万相Wan2.2视频生成模型迎来重大升级,首次在视频扩散模型中引入MoE架构。该架构通过高噪声专家模型处理视频整体布局,低噪专家模型优化细节完善,在同等参数规模下节省约50%计算资源消耗。新增的电影美学控制系统支持用户输入关键词如“黄昏柔光”或“冷色调硬光”,精准调控光影、色彩和构图,生成电影级画面效果。

开源的三款模型包括文生视频T2V-A14B、图生视频I2V-A14B及统一视频生成TI2V-5B。其中TI2V-5B采用高压缩率3D VAE架构,时间与空间压缩比达4×16×16,可在消费级显卡上实现720P@24fps视频生成,5秒高清视频仅需数分钟处理时间。模型在复杂运动生成和人物交互维度表现突出,训练数据较前代增加65.6%图像和83.2%视频素材

开发者可通过魔搭社区等平台获取模型代码,企业用户可在阿里云百炼调用API接口。新版本提供50秒免费额度,支持文生视频与图生视频任务。自今年2月系列模型开源以来,社区下载量已突破500万次

本文链接: https://www.shuzhipunk.com/articles/WnNebUQbp7x
转载请注明文章出处

文章所属标签
通义万相
视频生成模型
MoE架构
电影美学控制
开源模型