DIGIPUNK
去投稿
发表于:8 hours ago

快手 Kwai Keye-VL 多模态大模型在视频理解领域展现优势

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
核心要点👉
  • 🚀 基于Qwen3-8B语言模型整合SigLIP视觉编码器
  • 📊 利用600B大规模多模态数据集涵盖图文视频数据
  • ⚙️ 采用四阶段渐进优化策略提升综合能力
  • 🎯 实际应用中自动解析细节如精准输出草莓数量
  • 🏆 评测得分VideoMME 67.4领先竞品超10%

数智朋克讯,Kwai Keye-VL多模态大模型由快手自主研发,深度融合文本、图像和视频信息,凭借自适应交互机制动态推理能力,在视频理解领域展现出得天独厚的优势。该模型基于Qwen3-8B语言模型,整合SigLIP初始化的视觉编码器,采用动态分辨率输入机制,将图像按原始比例切分为14x14分块,通过一个MLP层整合视觉特征。创新性3D RoPE旋转位置编码统一处理多模态输入,结合位置编码与时间戳对齐,精准捕捉视频时序变化。

预训练阶段聚焦构建图文和视频理解能力,视觉-语言对齐目标驱动下,模型利用总量高达600B的大规模多模态数据集,涵盖图文、视频及纯文本数据。自建高质量中文OCR系统和精细化描述数据突破开源局限,专门服务于图文和视频理解训练。训练流程采用四阶段渐进优化策略:视觉预训练持续适配内部数据分布并支持动态分辨率输入;跨模态对齐冻结主干模型,训练轻量级MLP适配器建立鲁棒图文/视频-文本关系;多任务预训练解锁全部参数,全面提升综合视觉理解能力;退火训练使用精选高质量数据精调,增强精细理解和判别能力。同构异质融合技术通过参数平均融合不同数据配比模型,减小偏差并增强鲁棒性。

实际应用中,Kwai Keye-VL处理复杂视觉识别任务时自动解析细节,例如面对五彩缤纷果盘图像,执行区域裁剪和计算代码放大,几秒内精准输出草莓数量为20颗。另一个案例中,输入11秒简易移动房子视频后,模型迅速生成覆盖全面的商品推销方案,展现视频理解与推理的高效结合。评测方面,公开与内部双验证证实其领先地位,VideoMME等权威Benchmark得分67.4超越竞品,内部KC-MMBench评测综合得分领先SOTA模型超10%,热点聚合、内容合集和广告价值场景表现卓越。

Kwai Keye-VL这颗视觉-语言智能火种,在视频理解沃土上燃起颠覆性燎原之火,重塑认知与交互方式。

本文链接: https://www.shuzhipunk.com/articles/SiT2tY67jvB
转载请注明文章出处

文章所属标签
Kwai Keye-VL
多模态大模型
快手 AI