DIGIPUNK
去投稿
发表于:2023年11月23日

Stability AI推出能将文字指令转换成影片的Stable Video Diffusion模型

数智朋克

   Stability AI最近发布了新模型Stable Video Diffusion,这是一个能将文字指令转换为影片的扩散模型。目前官方发布了两个版本的预览版,这些版本可以生成每秒3至30帧的高品质影片,但目前模型的最高帧数限制分别为14帧和25帧。Stable Video Diffusion是基于Stable Diffusion模型改造而成的首个影片生成模型,通过在潜在扩散模型(Latent Diffusion Model,LDM)加入时间层,并使用高品质小型影片数据集进行训练,从而实现影片生成。这一新研究定义了影片LDM的三个训练阶段:文字到图像的预训练、影片预训练和高品质影片的微调。官方表示,这些基础模型在用户偏好研究中的表现优于市面上的其他闭源产品。

本文链接: https://www.shuzhipunk.com/articles/5vRPL-TcDHG
转载请注明文章出处

文章所属标签
LDM
Stable Diffusion
Stability AI
Stable Video Diffusion
数智应用