DIGIPUNK
去投稿
发表于:a day ago

昆仑万维开源多模态统一预训练模型Skywork UniPic

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
核心要点👉
  • 🚀 三合一架构:融合图像理解、文本生成与图像编辑三大核心功能
  • 💡 创新设计:采用Harmon架构与MAR编码器突破传统模型局限
  • 🏆 高效性能:1.5B参数实现多项SOTA基准测试成绩
  • 💰 低门槛部署:支持RTX 4090消费级显卡流畅运行
  • 📊 训练优化:亿级语料库结合专有奖励模型筛选机制

数智朋克讯,昆仑万维于7月30日正式开源了多模态统一预训练模型Skywork UniPic,该模型基于自回归路线设计,在单一架构中深度融合图像理解、文本到图像生成以及图像编辑三大核心功能。通过大规模高质量数据的端到端预训练,Skywork UniPic展现出卓越的通用性与可迁移性,标志着人工智能领域多模态统一模型的实用化突破。

延续GPT-4o的自回归范式,Skywork UniPic创新性地借鉴Harmon架构,采用MAR编码器作为图像生成路径的视觉表征基础,同时引入SigLIP2主干处理图像理解任务。这种设计有效克服了传统模型依赖VQ或VAE编码器的局限,后者往往侧重视觉细节而牺牲语义信息,导致理解能力削弱。端到端优化流程确保了生成、理解和编辑能力的协同训练,突破技术瓶颈,用户仅需输入提示词即可无缝切换功能,例如一键实现风格转绘或吉卜力化编辑。

参数规模仅1.5B的Skywork UniPic诠释了“小而美”的技术美学,在多项基准测试中表现领先。指令遵循能力于GenEval评估中达到0.86分,超越多数同类模型;复杂指令生图在DPG-Bench基准上斩获85.5分的SOTA水平;图像编辑任务中,GEditBench-EN得分5.83分,ImgEdit-Bench为3.49分。相比BAGEL或UniWorld-V1等大参数模型,其参数效率优势显著,部署于RTX 4090消费级显卡即可流畅运行,大幅降低应用门槛。

训练体系依托亿级精选预训练语料和数百万级任务精调样本,构建高效能多模态语料库,显著压缩资源成本。专有奖励模型Skywork-ImgReward和Skywork-EditReward驱动数据质量筛选,自动剔除低质量样本;优化策略包括MAR体系的渐进式分辨率提升和HARMON体系的多阶段分层训练,辅以分阶段参数解冻和渐进式多任务机制,确保能力协同释放。

过去半年,昆仑万维已开源多个SOTA大模型,覆盖奖励模型、推理、软件工程及空间智能领域。Skywork UniPic的加入进一步丰富了Skywork开源家族,推动AI成为创意伙伴,触手可及。

本文链接: https://www.shuzhipunk.com/articles/O4gtLPePCrT
转载请注明文章出处

文章所属标签
多模态模型
预训练模型
图像生成
开源模型
参数效率