DeepSeek开源视觉多模态模型Janus-Pro-7B，面临三重挑战与市场竞争

核心要点👉

🚀 DeepSeek开源7B参数视觉多模态模型，支持图像生成与本地部署
⚠️ 面临技术迁移瓶颈致产品延迟、市场预期失焦、外部竞争三重挑战
🧠 依赖外部数据集引发模型幻觉问题，影响商业化信任度
🤖 阿里巴巴Qwen3-VL采用235B参数MoE架构，多模态表现卓越
🔍 Janus-Pro技术路线仍偏重文本与代码领域，未掀行业波浪

数智朋克讯，DeepSeek 开源了视觉多模态模型 Janus-Pro-7B，该框架统一了多模态理解和生成任务，通过自回归架构处理视觉编码路径，支持384x384分辨率图像输入及图像生成功能。参数规模仅7B，显著降低了硬件门槛，普通家用电脑即可本地部署；结合ComfyUI工作流，用户能在云端或本地高效调用模型，实现文生图应用。这一举措被社区誉为国产AI技术的突破性进展。

DeepSeek创始人梁文锋正面临三重挑战：核心产品DeepSeek-R2推理模型延迟246天发布，源于英伟达CUDA生态向华为昇腾CANN迁移的技术瓶颈，导致训练不稳定；市场预期管理失焦，反复传言消耗用户耐心；外部竞争加剧，阿里巴巴通义千问和百度文心大模型已完成多轮迭代。同时，DeepSeek在内容生态上存在短板，依赖外部数据集引发模型“幻觉”问题，影响商业化信任度。

阿里巴巴推出的Qwen3-VL多模态模型采用235B参数MoE架构，支持256K上下文窗口，在OCR识别模糊扫描件、图像转代码复现界面及分析长视频内容方面表现卓越，突显多模态融合趋势。相比之下，DeepSeek的Janus-Pro虽开源易用，但尚未在行业掀起广泛波浪，技术路线仍偏重文本与代码领域。

DeepSeek开源视觉多模态模型Janus-Pro-7B，面临三重挑战与市场竞争

数智资讯订阅