微软联合加州大学等机构最近发布了一款名为MM-Navigator的多模态大模型。该模型基于GPT-4V技术构建,旨在改善智能手机GUI(图形用户界面)的零镜头导航能力。MM-Navigator允许智能手机屏幕实现类似人类用户的交互方式,并能根据给定指示决定后续行动。该模型特别强调其在屏幕解释、行动推理和行动定位方面的先进能力