微软联合加州大学等机构最近发布了一款名为MM-Navigator的多模态大模型。该模型基于GPT-4V技术构建,旨在改善智能手机GUI(图形用户界面)的零镜头导航能力。MM-Navigator允许智能手机屏幕实现类似人类用户的交互方式,并能根据给定指示决定后续行动。该模型特别强调其在屏幕解释、行动推理和行动定位方面的先进能力。
发表于:2023年11月30日
微软推出基于GPT-4V的多模态模型MM-Navigator
本文链接: https://www.shuzhipunk.com/articles/R1S9_mDFiri
转载请注明文章出处
文章所属标签
GPT-4V
MM-Navigator
数智应用
AIGC