快手 Kwai Keye-VL 多模态大模型在视频理解领域展现优势

核心要点👉

🚀 基于Qwen3-8B语言模型整合SigLIP视觉编码器
📊 利用600B大规模多模态数据集涵盖图文视频数据
⚙️ 采用四阶段渐进优化策略提升综合能力
🎯 实际应用中自动解析细节如精准输出草莓数量
🏆 评测得分VideoMME 67.4领先竞品超10%

数智朋克讯，Kwai Keye-VL多模态大模型由快手自主研发，深度融合文本、图像和视频信息，凭借自适应交互机制与动态推理能力，在视频理解领域展现出得天独厚的优势。该模型基于Qwen3-8B语言模型，整合SigLIP初始化的视觉编码器，采用动态分辨率输入机制，将图像按原始比例切分为14x14分块，通过一个MLP层整合视觉特征。创新性3D RoPE旋转位置编码统一处理多模态输入，结合位置编码与时间戳对齐，精准捕捉视频时序变化。

预训练阶段聚焦构建图文和视频理解能力，视觉-语言对齐目标驱动下，模型利用总量高达600B的大规模多模态数据集，涵盖图文、视频及纯文本数据。自建高质量中文OCR系统和精细化描述数据突破开源局限，专门服务于图文和视频理解训练。训练流程采用四阶段渐进优化策略：视觉预训练持续适配内部数据分布并支持动态分辨率输入；跨模态对齐冻结主干模型，训练轻量级MLP适配器建立鲁棒图文/视频-文本关系；多任务预训练解锁全部参数，全面提升综合视觉理解能力；退火训练使用精选高质量数据精调，增强精细理解和判别能力。同构异质融合技术通过参数平均融合不同数据配比模型，减小偏差并增强鲁棒性。

实际应用中，Kwai Keye-VL处理复杂视觉识别任务时自动解析细节，例如面对五彩缤纷果盘图像，执行区域裁剪和计算代码放大，几秒内精准输出草莓数量为20颗。另一个案例中，输入11秒简易移动房子视频后，模型迅速生成覆盖全面的商品推销方案，展现视频理解与推理的高效结合。评测方面，公开与内部双验证证实其领先地位，VideoMME等权威Benchmark得分67.4超越竞品，内部KC-MMBench评测综合得分领先SOTA模型超10%，热点聚合、内容合集和广告价值场景表现卓越。

Kwai Keye-VL这颗视觉-语言智能火种，在视频理解沃土上燃起颠覆性燎原之火，重塑认知与交互方式。

快手 Kwai Keye-VL 多模态大模型在视频理解领域展现优势

数智资讯订阅