DIGIPUNK
去投稿
发表于:3 hours ago

字节跳动与南洋理工大学开源StoryMem框架,实现多镜头视频连贯叙事

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
核心要点👉
  • 🚀 创新机制:采用Memory-to-Video机制升级视频模型,实现多镜头连贯叙事
  • 🔄 动态记忆库:存储关键帧信息,配合LoRA微调技术确保跨镜头一致性
  • 📊 性能提升:实验数据表明跨镜头一致性指标显著优于现有方法
  • 📚 数据集支持:配套ST-Bench基准数据集,包含300个多镜头故事提示
  • 🌐 应用领域:适用于营销广告、影视预制作和短视频创作的快速迭代

数智朋克讯, 字节跳动与南洋理工大学联合推出的开源框架StoryMem,采用创新的"Memory-to-Video"机制,成功将单镜头视频生成模型升级为支持多镜头连贯叙事的系统。该系统通过动态记忆库存储关键帧信息,配合轻量级LoRA微调技术,在角色外观、场景风格和叙事逻辑方面实现了跨镜头的高度一致性。

动态记忆库会存储首镜头生成的关键帧作为初始记忆,后续每个新镜头的生成过程都会通过M2V LoRA技术注入记忆关键帧,确保视觉元素的连贯性。生成完成后,系统会自动进行语义关键帧提取和美学筛选,进一步优化记忆库的更新机制。

实验数据表明,该框架在跨镜头一致性指标上相比现有方法有显著提升。配套发布的ST-Bench基准数据集包含300个多镜头故事提示,为长视频叙事质量的标准化评估提供了支持。

该技术特别适用于需要快速迭代视觉内容的领域,包括营销广告的动态分镜生成、影视预制作的故事板可视化,以及短视频创作的连贯叙事产出。项目开源后,开发者社区已经开始进行本地化部署实践,进一步降低了技术使用门槛。

本文链接: https://www.shuzhipunk.com/articles/8iNvwZ2pKnb
转载请注明文章出处

文章所属标签
StoryMem
Memory-to-Video
LoRA微调
多镜头一致性
ST-Bench数据集