华中科技大学发布创新多模态AI模型"Monkey"

华中科技大学软件学院的VLRLab团队最近发布了名为“Monkey”的多模态大模型。这一模型解决了复杂场景和视觉细节处理方面的挑战，通过提升输入分辨率和引入多级描述生成方法实现了显著改进。

Monkey模型在18个数据集的实验中表现优异，特别是在图像描述和视觉问答任务上，超越了许多知名模型。其独特之处在于能够精准描述图像细节，这得益于其创新的结构：将开源模型Qwen-VL作为语言解码器，与20亿参数的ViT-BigHuge视觉编码器相结合。此外，Monkey模型能处理高达1344×896像素的图像，是业界标准的6倍，通过创新的“裁剪”方法提取更多细节，展现了在医学影像和卫星图像等领域的广泛应用潜力

华中科技大学发布创新多模态AI模型"Monkey"

数智资讯订阅