DIGIPUNK
去投稿
发表于:2024年05月08日

斯坦福大学NEXA AI团队推出创新多模态AI Agent模型Octopus V3

数智朋克

来自斯坦福大学的NEXA AI团队在今年四月推出了Octopus V2,该模型已在LLM社区引起广泛关注,而新一代Octopus V3在其基础上进一步突破,实现了图像处理和多语言文本处理的多模态能力。Octopus V3的核心技术之一为“functional token”,该技术能够显著减少模型在推理时所需的文本长度,使得模型在仅有20亿参数的情况下依然能够高效训练,减少95%的推理所需文本量,同时在精度和延迟方面超越GPT-4。

Octopus V3的推出,为端侧设备如智能手机、AR/VR、机器人及智能汽车等提供了新的AI解决方案。它的多模态能力,尤其是在图像和文本的同时处理上,极大地丰富了用户交互体验。例如,在Instacart购物应用中,用户可以通过图片和简单对话来搜索商品,或在智能汽车中,通过简单指令改变导航目的地。

Octopus V3的应用潜力被市场认可,其下载量在Hugging Face平台已超过12000次。全球大型语言模型市场和边缘人工智能市场的迅速增长,为Octopus V3的进一步推广和应用提供了肥沃的土壤。

斯坦福大学的研究人员和NEXA AI团队的成员,如首席科学家Alex Chen和首席技术官Zack Li,都具有深厚的端侧AI研发背景和丰富的创业经验。他们的工作得到了斯坦福大学副教授Charles Eesley的指导和支持,团队的创新技术也已申请专利保护,未来在AI技术在端侧设备的应用将更加广泛和深入。

本文链接: https://www.shuzhipunk.com/articles/HTqRWHsKmBk
转载请注明文章出处

文章所属标签
Octopus
人工智能
Octopus V3
AI团队
NEXA AI