腾讯SEED-Story：多模态漫画生成的创新之路

SEED-Story 是什么

SEED-Story 是一款由腾讯AI研究中心（Tencent ARC）开发的多模态长篇故事生成系统。该系统结合图像和文本生成技术，能够从用户提供的初始图像和文本出发，生成包含丰富叙述文本和风格一致图像的长篇故事。无论是叙述的连贯性还是图像风格的统一性，SEED-Story 都表现出色，支持生成长达25个多模态序列的故事。

创新技术与研发背景

SEED-Story 依托于大型语言模型（MLLM），通过三个主要阶段实现图像和文本的融合生成：

第一阶段：使用基于SD-XL的去标记器进行预训练，以从预训练的视觉转换器（ViT）输入中重构图像。
第二阶段：随机采样交错的图像-文本序列，进行下一词预测和图像特征回归训练。
第三阶段：将MLLM回归的图像特征输入去标记器，增强生成图像的角色和风格一致性。

这一过程保证了生成故事的连贯性和多样性。

StoryStream 数据集

为支持和评估多模态故事生成，SEED-Story 发布了专门设计的大规模数据集StoryStream。该数据集包含三个子集：Curious George、Rabbids Invasion 和 The Land Before Time，每个子集提供丰富的图像和对应的故事文本。通过这些数据集，SEED-Story 能够在训练和推理过程中保持高质量的生成效果。

使用指南

要使用SEED-Story，用户需要准备Python环境和依赖库，克隆GitHub仓库并安装必要的包。

数据集可以从Hugging Face下载，模型权重和推理代码同样在相应位置提供。具体的使用步骤和代码示例详见GitHub仓库的使用说明。

对比与评估

SEED-Story 在生成一致性、故事吸引力和文本-图像一致性方面表现优异。通过GPT-4 API进行的评估显示，其生成的图像和文本在风格和内容上高度一致，能够有效地讲述引人入胜的故事。

同类产品与用户评价

相较于其他多模态生成系统，SEED-Story 在长篇故事的生成上具有明显优势。其多模态融合的技术路径和专门设计的数据集使其在生成质量和灵活性上具备竞争力。用户评价普遍认为SEED-Story 在创作和娱乐应用中有巨大潜力，尤其适合生成复杂叙事和视觉效果兼具的内容。

数智朋克点评

作为一款多模态生成系统，SEED-Story 体现了腾讯ARC在AI领域的前沿创新能力。无论是技术架构还是应用场景，SEED-Story 都展示了其在多模态长篇故事生成中的独特价值。对于关注AI技术和创意应用的读者，SEED-Story 提供了一个令人兴奋的工具和灵感来源。