DIGIPUNK
去投稿
发表于:2023年12月14日

华中科技大学发布创新多模态AI模型"Monkey"

数智朋克

华中科技大学软件学院的VLRLab团队最近发布了名为“Monkey”的多模态大模型。这一模型解决了复杂场景和视觉细节处理方面的挑战,通过提升输入分辨率和引入多级描述生成方法实现了显著改进。

Monkey模型在18个数据集的实验中表现优异,特别是在图像描述和视觉问答任务上,超越了许多知名模型。其独特之处在于能够精准描述图像细节,这得益于其创新的结构:将开源模型Qwen-VL作为语言解码器,与20亿参数的ViT-BigHuge视觉编码器相结合。此外,Monkey模型能处理高达1344×896像素的图像,是业界标准的6倍,通过创新的“裁剪”方法提取更多细节,展现了在医学影像和卫星图像等领域的广泛应用潜力​

本文链接: https://www.shuzhipunk.com/articles/ZzkzAf8W-jr
转载请注明文章出处

文章所属标签
Monkey
大模型
数智应用
Qwen-VL