阿里巴巴通义万相Wan2.2视频生成模型升级，引入MoE架构并开源三款模型

核心要点👉

🚀 MoE架构：节省50%计算资源，高/低噪专家模型协同优化视频布局与细节
🎨 电影美学控制：支持关键词调控光影色彩（如“黄昏柔光”），生成电影级画面
💻 三款开源模型：文生视频T2V-A14B、图生视频I2V-A14B、统一视频生成TI2V-5B
⚡ 高效压缩技术：TI2V-5B实现4×16×16时空压缩，消费级显卡可处理720P@24fps视频
📈 性能突破：训练数据增加65.6%图像+83.2%视频素材，优化复杂运动与人物交互

数智朋克讯，阿里巴巴开源的通义万相Wan2.2视频生成模型迎来重大升级，首次在视频扩散模型中引入MoE架构。该架构通过高噪声专家模型处理视频整体布局，低噪专家模型优化细节完善，在同等参数规模下节省约50%计算资源消耗。新增的电影美学控制系统支持用户输入关键词如“黄昏柔光”或“冷色调硬光”，精准调控光影、色彩和构图，生成电影级画面效果。

开源的三款模型包括文生视频T2V-A14B、图生视频I2V-A14B及统一视频生成TI2V-5B。其中TI2V-5B采用高压缩率3D VAE架构，时间与空间压缩比达4×16×16，可在消费级显卡上实现720P@24fps视频生成，5秒高清视频仅需数分钟处理时间。模型在复杂运动生成和人物交互维度表现突出，训练数据较前代增加65.6%图像和83.2%视频素材。

开发者可通过魔搭社区等平台获取模型代码，企业用户可在阿里云百炼调用API接口。新版本提供50秒免费额度，支持文生视频与图生视频任务。自今年2月系列模型开源以来，社区下载量已突破500万次。

阿里巴巴通义万相Wan2.2视频生成模型升级，引入MoE架构并开源三款模型

数智资讯订阅