٩(◕‿◕。)۶ 嗨,探险家!
还没拿到探险许可吗?
加入数字探险
欢迎回到数智世界!
用户名
密码
同意
《用户服务协议》
《隐私政策》
开启
密码掉进黑洞了?
微信公众号
抖音视频
微信视频号
小红书
数智朋克
DIGIPUNK
快讯
智选
创新
探索
欢迎进群
来自
去投稿
数智本土
面壁智能推出了全新的端侧多模态模型MiniCPM-o 2.6,其出色的处理能力使其能够与现有大型语言模型竞争,并在移动设备上实现前所未有的实时多模态交互体验。该模型不仅强化了面壁智能在多模态领域的领导地位,也为智能设备的应用前景打开了新的大门。
面壁智能发布MiniCPM-o 2.6,强大端侧多模态模型打破设备限制
数智国际
新加坡国立大学NExT++研究中心发布多模态大语言模型NExT-GPT,凭借创新架构与轻量级训练方法,在多模态数据处理上实现显著突破。该模型为多模态生成与理解领域开创了新方向,展示出更加接近人类交流方式的AI潜力。
新加坡国立大学推出NExT-GPT,提升多模态AI处理能力
开源创新
Sa2VA,基于 SAM2 和 LLaVA 的多模态视觉语言模型,打破了图像与视频理解的壁垒,成为支持密集视觉任务和对话的新基准。借助先进的单次指令调优和全新数据集 Ref-SAV,Sa2VA 在多项基准任务中表现优异,为复杂场景下的视觉语言交互提供了无限可能。
突破视觉理解新边界:Sa2VA融合SAM2与LLaVA实现图像视频多模态解析
数智本土
香港中文大学团队推出的新型人工智能模型VisionFM,专为眼科临床任务设计,尤其在疾病筛查和诊断方面表现出色。该模型突破性地提高了青光眼等多种眼科疾病的预测和诊断精准度,为医学AI应用带来新机遇。
香港中文大学推出VisionFM AI模型,助力眼科疾病诊断与筛查
开源创新
InternLM-XComposer 2.5 OmniLive是一个多模态生成模型,专注于视觉和语言理解领域。它在图像处理、文本生成、对话系统等多个维度都实现了技术创新,支持高度的定制化和优化,尤其适合需要高度多功能性的AI应用场景。
浦语·灵笔 2.5 OmniLive:探索未来多模态智能生成的最新突破
数智国际
Mistral AI推出全新多模态AI模型Pixtral Large,拥有1240亿参数,在文本和图片处理领域表现卓越。在MathVista等基准测试中,该模型超过主流对手,支持大规模视觉数据处理及复杂推理。
Mistral AI发布Pixtral Large多模态模型,以1240亿参数超越竞争对手
数智本土
乐聚机器人推出了一款专为展厅场景设计的“智能讲解”人形机器人,支持多语言、全展区导航、障碍识别等功能。该机器人搭载可训练大模型,提供个性化讲解服务,并能全天候运行。
乐聚机器人发布智能讲解人形机器人,专为展厅场景打造
数智本土
2024全球机器学习技术大会将于11月14-15日在北京盛大开幕,汇聚顶尖AI专家和行业精英,共同探讨智能体、多模态、代码大模型等前沿话题。比尔·盖茨预测未来软件应用数量将大幅减少,此次大会将展现AI技术如何重塑软件市场。
2024全球机器学习技术大会即将举行:多模态与智能体成焦点
数智国际
微软正式开源 OmniParser,突破现有 AI 在复杂图形用户界面(GUI)识别中的局限性。该工具无需依赖 HTML 等基础数据,直接识别屏幕交互元素,极大提升了视觉解析的精准度。
微软推出开源工具 OmniParser,优化复杂用户界面交互解析
数智国际
OpenAI计划在年底前发布新一代AI模型“猎户座(Orion)”,被视为GPT-4的继任者。猎户座的核心优势在于处理多模态数据,包括文本、图像和视频,其性能有望超越GPT-4百倍,成为AI领域的重要突破。
猎户座模型即将登场:OpenAI拟推多模态AI新高度
DIGIPUNK
AIGC社群
联系我们
加入我们
商务合作
我要投稿
解决方案
媒体矩阵
Copyright © 2023-2024 DIGIPUNK LTD.