核心要点👉
- 🚀 性能全面跃升:通过级联式强化学习、动态视觉分辨率路由及解耦部署架构,实现推理能力、部署效率与通用能力的全面跃升。
- 🏆 基准测试领先:旗舰模型在多学科推理基准MMMU、多模态通用感知基准MMStar和OCRBench等任务中超越GPT-5表现,全面领跑开源多模态模型。
- ⚡ 推理速度优化:38B模型在896分辨率下单次推理延迟从369ms缩短至91ms;轻量化版本在视觉序列长度减半情况下性能仍接近100%。
- 🔧 多尺寸模型支持:提供九种尺寸参数模型,涵盖稠密模型与专家混合模型架构,成为首个支持GPT-OSS语言基座的开源多模态大模型。
- 🤖 强化智能体能力:在GUI智能体、具身智能体及SVG图形理解能力方面表现突出,ScreenSpot GUI定位达92.9分等,超越主流开源方案。
数智朋克讯,上海人工智能实验室开源推出多模态大模型书生·万象 InternVL3.5,这一创新成果通过级联式强化学习、动态视觉分辨率路由及解耦部署架构,实现了推理能力、部署效率与通用能力的全面跃升。模型覆盖从1B到241B参数的全量级版本,刷新开源性能标杆,在多种任务中展现领先水平。
旗舰模型InternVL3.5-241B-A28B在多学科推理基准MMMU斩获77.7分,多模态通用感知基准MMStar和OCRBench分别达77.9分与90.7分,超越GPT-5表现;文本推理基准AIME25和MMLU-Pro则取得75.6分及81.3分,全面领跑现有开源多模态模型。依托级联式强化学习框架,全系列推理性能平均提升16.0分,旗舰模型综合推理得分66.9分,超越上一代54.6分和Claude-3.7-Sonnet的53.9分,尤其在数学与逻辑推理任务中表现突出。
借助视觉分辨率路由与解耦部署框架,38B模型在896分辨率下响应速度大幅优化,单次推理延迟从369ms缩短至91ms;轻量化版本InternVL3.5-Flash在视觉序列长度减半情况下,性能仍接近100%。模型强化了GUI智能体、具身智能体及SVG图形理解能力,ScreenSpot GUI定位达92.9分,VSI-Bench空间推理69.5分,SGP-Bench矢量图理解70.6分,均超越主流开源方案。
InternVL3.5提供九种尺寸参数模型,涵盖稠密模型与专家混合模型架构,成为首个支持GPT-OSS语言基座的开源多模态大模型。部署方面,8B版本可运行于单张A100 GPU,38B需两张,235B则需八张。ms-swift框架已支持模型训练与微调,用户可自定义数据集后完成推理部署。
书生·万象 InternVL3.5的开源标志着多模态人工智能领域的重要突破,为开发者提供强大工具,推动技术发展。