微软推出基于GPT-4V的多模态模型MM-Navigator

微软联合加州大学等机构最近发布了一款名为MM-Navigator的多模态大模型。该模型基于GPT-4V技术构建，旨在改善智能手机GUI（图形用户界面）的零镜头导航能力。MM-Navigator允许智能手机屏幕实现类似人类用户的交互方式，并能根据给定指示决定后续行动。该模型特别强调其在屏幕解释、行动推理和行动定位方面的先进能力

微

微软推出基于GPT-4V的多模态模型MM-Navigator