xAI公司继其Grok-1开源模型后不久,迅速推出了其首个多模态模型,近日又升级推出了Grok-1.5V版本。新版本突破了以往仅限于文本理解的局限,现已能够处理包括文档、图表、截图及照片等多种内容类型。根据官方博文,Grok-1.5V在多学科推理和解读各类视觉资料方面的表现堪比行业内顶尖的多模态模型。
在最新的RealWorldQA基准测试中,Grok-1.5V展示了其在无需思维链提示的情况下对物理世界的深入理解能力,性能超过了市场上的其他竞争产品。说明xAI在人工智能领域的领导地位进一步巩固,同时对标识着该公司对未来技术的深远展望。
此外,xAI已预告在未来数月将对模型在图像、音频和视频等其他模态的处理能力进行显著提升。这些进展为xAI公司自身的技术储备增加了价值,也为整个人工智能应用领域带来了新的发展机遇。