核心要点👉
- 🚀 MoE架构:节省50%计算资源,高/低噪专家模型协同优化视频布局与细节
- 🎨 电影美学控制:支持关键词调控光影色彩(如“黄昏柔光”),生成电影级画面
- 💻 三款开源模型:文生视频T2V-A14B、图生视频I2V-A14B、统一视频生成TI2V-5B
- ⚡ 高效压缩技术:TI2V-5B实现4×16×16时空压缩,消费级显卡可处理720P@24fps视频
- 📈 性能突破:训练数据增加65.6%图像+83.2%视频素材,优化复杂运动与人物交互
数智朋克讯,阿里巴巴开源的通义万相Wan2.2视频生成模型迎来重大升级,首次在视频扩散模型中引入MoE架构。该架构通过高噪声专家模型处理视频整体布局,低噪专家模型优化细节完善,在同等参数规模下节省约50%计算资源消耗。新增的电影美学控制系统支持用户输入关键词如“黄昏柔光”或“冷色调硬光”,精准调控光影、色彩和构图,生成电影级画面效果。
开源的三款模型包括文生视频T2V-A14B、图生视频I2V-A14B及统一视频生成TI2V-5B。其中TI2V-5B采用高压缩率3D VAE架构,时间与空间压缩比达4×16×16,可在消费级显卡上实现720P@24fps视频生成,5秒高清视频仅需数分钟处理时间。模型在复杂运动生成和人物交互维度表现突出,训练数据较前代增加65.6%图像和83.2%视频素材。
开发者可通过魔搭社区等平台获取模型代码,企业用户可在阿里云百炼调用API接口。新版本提供50秒免费额度,支持文生视频与图生视频任务。自今年2月系列模型开源以来,社区下载量已突破500万次。