DIGIPUNK
去投稿
发表于:20 hours ago

字节跳动推出OmniHuman-1.5视频生成框架,双系统理论实现数字人动态建模

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
核心要点👉
  • 🚀 突破性引入认知科学双系统理论实现数字人动态建模
  • 💡 三项架构创新:伪末帧策略/对称分支融合/两阶段预热方案
  • 📊 实测唇同步98.7%准确率,手势动态方差提升32%
  • 🌐 跨领域应用:60秒影视片段/虚拟教师/卡通企鹅街舞生成
  • 🔒 伦理机制自动过滤70%瑕疵数据,企业应用效率提升3倍

数智朋克讯,字节跳动智能创作团队推出OmniHuman-1.5视频生成框架,该技术突破性地将认知科学中的双系统理论引入数字人建模。通过多模态大语言模型构建的认知引擎解析音频深层语义,生成结构化动作指令,而扩散变换器架构则负责实时渲染自然肢体运动。这种认知引擎渲染引擎的协同机制,使静态图像能转化为具有上下文感知能力的动态影像。

技术架构采用三项创新设计:伪末帧策略将参考图像置于虚拟时间轴末端,通过位移编码保持身份一致性同时释放运动自由度;对称分支融合机制建立音频、文本、视频的三角注意力通路,消除模态冲突;两阶段预热方案先强制各分支专业化学习,再整合微调,确保15,000小时训练数据的高效利用。实测显示,该框架在CelebV-HQ测试集上唇同步准确率达98.7%手势动态方差指标提升32%

应用层面展现跨领域适应性:影视制作中可生成60秒连贯剧情片段,虚拟教师能根据授课内容自动匹配手势与表情变化;多角色场景通过声源分离映射技术,实现双人对话的精准口型与互动手势。在非人类主体测试中,系统成功驱动卡通企鹅完成复杂街舞动作,证明其跨风格泛化能力

伦理设计包含主动过滤机制,训练时自动筛除70%唇音不同步素材,推理阶段支持用户发起数据删除请求。目前开源版本已在GitHub发布。

本文链接: https://www.shuzhipunk.com/articles/TR6r2WSoBMQ
转载请注明文章出处

文章所属标签
视频生成框架
数字人建模
双系统理论
扩散变换器
多模态大语言模型