DIGIPUNK
去投稿
发表于:4 hours ago

DeepSeek开源视觉多模态模型Janus-Pro-7B,面临三重挑战与市场竞争

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
核心要点👉
  • 🚀 DeepSeek开源7B参数视觉多模态模型,支持图像生成与本地部署
  • ⚠️ 面临技术迁移瓶颈致产品延迟、市场预期失焦、外部竞争三重挑战
  • 🧠 依赖外部数据集引发模型幻觉问题,影响商业化信任度
  • 🤖 阿里巴巴Qwen3-VL采用235B参数MoE架构,多模态表现卓越
  • 🔍 Janus-Pro技术路线仍偏重文本与代码领域,未掀行业波浪

数智朋克讯,DeepSeek 开源了视觉多模态模型 Janus-Pro-7B,该框架统一了多模态理解和生成任务,通过自回归架构处理视觉编码路径,支持384x384分辨率图像输入及图像生成功能参数规模仅7B,显著降低了硬件门槛,普通家用电脑即可本地部署;结合ComfyUI工作流,用户能在云端或本地高效调用模型,实现文生图应用。这一举措被社区誉为国产AI技术的突破性进展

DeepSeek创始人梁文锋正面临三重挑战:核心产品DeepSeek-R2推理模型延迟246天发布,源于英伟达CUDA生态向华为昇腾CANN迁移的技术瓶颈,导致训练不稳定;市场预期管理失焦,反复传言消耗用户耐心外部竞争加剧,阿里巴巴通义千问和百度文心大模型已完成多轮迭代。同时,DeepSeek在内容生态上存在短板,依赖外部数据集引发模型“幻觉”问题,影响商业化信任度

阿里巴巴推出的Qwen3-VL多模态模型采用235B参数MoE架构,支持256K上下文窗口,在OCR识别模糊扫描件、图像转代码复现界面及分析长视频内容方面表现卓越,突显多模态融合趋势。相比之下,DeepSeek的Janus-Pro虽开源易用,但尚未在行业掀起广泛波浪,技术路线仍偏重文本与代码领域

本文链接: https://www.shuzhipunk.com/articles/pU3jFZw1rIl
转载请注明文章出处

文章所属标签
多模态模型
Janus-Pro-7B
AI本地部署
模型幻觉问题
Qwen3-VL