Stability AI推出能将文字指令转换成影片的Stable Video Diffusion模型

Stability AI最近发布了新模型Stable Video Diffusion，这是一个能将文字指令转换为影片的扩散模型。目前官方发布了两个版本的预览版，这些版本可以生成每秒3至30帧的高品质影片，但目前模型的最高帧数限制分别为14帧和25帧。Stable Video Diffusion是基于Stable Diffusion模型改造而成的首个影片生成模型，通过在潜在扩散模型（Latent Diffusion Model，LDM）加入时间层，并使用高品质小型影片数据集进行训练，从而实现影片生成。这一新研究定义了影片LDM的三个训练阶段：文字到图像的预训练、影片预训练和高品质影片的微调。官方表示，这些基础模型在用户偏好研究中的表现优于市面上的其他闭源产品。

Stability AI推出能将文字指令转换成影片的Stable Video Diffusion模型

数智资讯订阅