华中科技大学软件学院的VLRLab团队最近发布了名为“Monkey”的多模态大模型。这一模型解决了复杂场景和视觉细节处理方面的挑战,通过提升输入分辨率和引入多级描述生成方法实现了显著改进。
Monkey模型在18个数据集的实验中表现优异,特别是在图像描述和视觉问答任务上,超越了许多知名模型。其独特之处在于能够精准描述图像细节,这得益于其创新的结构:将开源模型Qwen-VL作为语言解码器,与20亿参数的ViT-BigHuge视觉编码器相结合。此外,Monkey模型能处理高达1344×896像素的图像,是业界标准的6倍,通过创新的“裁剪”方法提取更多细节,展现了在医学影像和卫星图像等领域的广泛应用潜力