DIGIPUNK
去投稿

智源研究院推出Emu3:实现文本、图像、视频统一生成的多模态模型

智源研究院发布了全新原生多模态世界模型Emu3,基于下一个token预测即可实现文本、图像、视频的理解与生成,无需依赖扩散模型。Emu3在图像生成、视觉语言理解和视频生成等任务中表现优异,提供了一种统一的多模态研究范式,并已开源。

2024年10月23日