DIGIPUNK
去投稿
发表于:2024年02月01日

谷歌推出Lumiere:文本提示驱动的逼真图像和视频生成器

数智朋克

Google 近日推出Lumiere,一款创新的生成式人工智能工具,专门设计用于基于文本提示生成高度逼真的图像和视频。Lumiere的一大创新之处在于,它能够同时生成视频的所有帧,避免了使用关键帧和后续训练所带来的不连贯性。这种方法不仅提高了动作的逼真度,而且显著优化了生成效果。

Lumiere利用了扩散概率模型和时空U-Net架构。时空U-Net对时间进行放大和缩小处理,并在图像中增加注意力区块,这增强了视频的动态感和细节丰富度。此外,Lumiere的这一工具能与其他多种模型结合使用,进一步提升生成图像和视频的逼真度。

Lumiere的应用领域广泛,包括将电影胶片的单一部分转化为动画、在动画视频中替换物体、变换艺术风格、从图像制作动画到创建不同艺术风格的视频等。然而,目前Lumiere所能创建的视频长度最长为5秒,且尚不支持视频转换和多角度摄影。值得注意的是,使用Lumiere需要高性能的图形处理能力,标准GPU可能不足以支持。

本文链接: https://www.shuzhipunk.com/articles/CEd3aAw4Z1k
转载请注明文章出处

文章所属标签
Lumiere
人工智能
扩散概率
时空U-Net