阿里云通义千问开源视觉语言模型Qwen3-VL-30B及FP8精度版本

核心要点👉

🚀 仅30亿参数达到GPT-5-Mini与Claude4-Sonnet同级性能
💻 支持边缘设备到云端的灵活部署架构
🎨 图形界面代理能力：识别UI元素并执行任务
📐 视觉编码模块直接生成流程图与前端代码
🌐 32种语言OCR在低光照场景稳健解析

数智朋克获悉，阿里云通义千问正式开放Qwen3-VL-30B-A3B-Instruct与Thinking模型的源代码，同步推出FP8精度版本。此次开源的视觉语言模型仅需30亿激活参数，在STEM学科解析、视觉问答、光学字符识别、长视频理解及智能体任务等场景中，性能表现达到GPT-5-Mini与Claude4-Sonnet同级水平。模型集成通义千问系列全部技术能力，实现文本理解与视觉推理的无损融合。

该版本采用可扩展的密集与MoE混合架构，支持从边缘设备到云端的灵活部署。核心功能升级涵盖图形界面操作代理能力，可识别PC与移动端UI元素并执行任务；视觉编码模块可直接生成Draw.io流程图与前端代码；空间感知系统增强至三维基础，精准解析物体遮挡关系与视角变换。原生256K上下文窗口扩展至1M，支持数小时视频的帧级索引与完整回溯。

多模态推理能力在数学与因果分析领域显著优化，预训练范围覆盖名人、动漫角色及专业产品识别。光学字符识别支持语言扩展至32种，在低光照与模糊场景保持稳健解析。模型已通过魔搭社区与Hugging Face平台开放下载，并集成至Qwen Chat交互系统。

阿里云通义千问开源视觉语言模型Qwen3-VL-30B及FP8精度版本

数智资讯订阅