DIGIPUNK
去投稿

EMO阿里新技术:桥接音频与视觉,激活肖像动画



EMO(Emote Portrait Alive),即情感肖像活化技术,是阿里巴巴集团智能计算研究院最新开发的一项创新框架。这项技术通过一个音频驱动的肖像视频生成模型,将静态肖像转换为动态、表情丰富的视频头像。EMO的出现,为数字动画的可能性带来了前所未有的变革。

EMO的核心机制

EMO通过两个主要阶段工作:帧编码和扩散过程。首先,参考网络从参考图像和运动帧中提取特征。然后,预训练的音频编码器处理音频输入,并与面部区域掩模和多帧噪声整合,这有助于保持角色身份的同时同步音频输入。

应用与创新

EMO的应用范围非常广泛,可以使肖像以不同语言唱歌,表达歌手的情感细微差别。此外,它还能生成说话的头像,适用于不同语言和风格的演讲或独白。

拓展视野

EMO不仅能够用于娱乐,还可以为教育内容带来创新,使历史人物或文学角色以引人入胜的方式活化。此技术也可能彻底改变我们与数字内容的互动方式,使虚拟互动更加人性化和沉浸式。

通过如此有效地桥接音频和视觉元素,EMO为表情视频头像的合成设定了新的标准,并为数字媒体的未来打开了激动人心的可能性。


由数智朋克团队策划
发表于 2024年04月14日

所属标签
阿里巴巴
视频生成
EMO
数字动画

本文链接: https://www.shuzhipunk.com/articles/qaFRSFxSQVL
转载请注明文章出处