斯坦福大学NEXA AI团队推出创新多模态AI Agent模型Octopus V3

来自斯坦福大学的NEXA AI团队在今年四月推出了Octopus V2，该模型已在LLM社区引起广泛关注，而新一代Octopus V3在其基础上进一步突破，实现了图像处理和多语言文本处理的多模态能力。Octopus V3的核心技术之一为“functional token”，该技术能够显著减少模型在推理时所需的文本长度，使得模型在仅有20亿参数的情况下依然能够高效训练，减少95%的推理所需文本量，同时在精度和延迟方面超越GPT-4。

Octopus V3的推出，为端侧设备如智能手机、AR/VR、机器人及智能汽车等提供了新的AI解决方案。它的多模态能力，尤其是在图像和文本的同时处理上，极大地丰富了用户交互体验。例如，在Instacart购物应用中，用户可以通过图片和简单对话来搜索商品，或在智能汽车中，通过简单指令改变导航目的地。

Octopus V3的应用潜力被市场认可，其下载量在Hugging Face平台已超过12000次。全球大型语言模型市场和边缘人工智能市场的迅速增长，为Octopus V3的进一步推广和应用提供了肥沃的土壤。

斯坦福大学的研究人员和NEXA AI团队的成员，如首席科学家Alex Chen和首席技术官Zack Li，都具有深厚的端侧AI研发背景和丰富的创业经验。他们的工作得到了斯坦福大学副教授Charles Eesley的指导和支持，团队的创新技术也已申请专利保护，未来在AI技术在端侧设备的应用将更加广泛和深入。

斯坦福大学NEXA AI团队推出创新多模态AI Agent模型Octopus V3

数智资讯订阅