核心要点👉
- 🚀 基于Qwen3-8B语言模型整合SigLIP视觉编码器
- 📊 利用600B大规模多模态数据集涵盖图文视频数据
- ⚙️ 采用四阶段渐进优化策略提升综合能力
- 🎯 实际应用中自动解析细节如精准输出草莓数量
- 🏆 评测得分VideoMME 67.4领先竞品超10%
数智朋克讯,Kwai Keye-VL多模态大模型由快手自主研发,深度融合文本、图像和视频信息,凭借自适应交互机制与动态推理能力,在视频理解领域展现出得天独厚的优势。该模型基于Qwen3-8B语言模型,整合SigLIP初始化的视觉编码器,采用动态分辨率输入机制,将图像按原始比例切分为14x14分块,通过一个MLP层整合视觉特征。创新性3D RoPE旋转位置编码统一处理多模态输入,结合位置编码与时间戳对齐,精准捕捉视频时序变化。
预训练阶段聚焦构建图文和视频理解能力,视觉-语言对齐目标驱动下,模型利用总量高达600B的大规模多模态数据集,涵盖图文、视频及纯文本数据。自建高质量中文OCR系统和精细化描述数据突破开源局限,专门服务于图文和视频理解训练。训练流程采用四阶段渐进优化策略:视觉预训练持续适配内部数据分布并支持动态分辨率输入;跨模态对齐冻结主干模型,训练轻量级MLP适配器建立鲁棒图文/视频-文本关系;多任务预训练解锁全部参数,全面提升综合视觉理解能力;退火训练使用精选高质量数据精调,增强精细理解和判别能力。同构异质融合技术通过参数平均融合不同数据配比模型,减小偏差并增强鲁棒性。
实际应用中,Kwai Keye-VL处理复杂视觉识别任务时自动解析细节,例如面对五彩缤纷果盘图像,执行区域裁剪和计算代码放大,几秒内精准输出草莓数量为20颗。另一个案例中,输入11秒简易移动房子视频后,模型迅速生成覆盖全面的商品推销方案,展现视频理解与推理的高效结合。评测方面,公开与内部双验证证实其领先地位,VideoMME等权威Benchmark得分67.4超越竞品,内部KC-MMBench评测综合得分领先SOTA模型超10%,热点聚合、内容合集和广告价值场景表现卓越。
Kwai Keye-VL这颗视觉-语言智能火种,在视频理解沃土上燃起颠覆性燎原之火,重塑认知与交互方式。