智源研究院推出Emu3：实现文本、图像、视频统一生成的多模态模型

智源研究院发布了全新原生多模态世界模型Emu3，基于下一个token预测即可实现文本、图像、视频的理解与生成，无需依赖扩散模型。Emu3在图像生成、视觉语言理解和视频生成等任务中表现优异，提供了一种统一的多模态研究范式，并已开源。

智

智源研究院推出Emu3：实现文本、图像、视频统一生成的多模态模型