开源创新
DeepSeek-V3 是一个突破性的Mixture-of-Experts(MoE)语言模型,拥有6710亿参数,采用创新的多头潜在注意力(MLA)机制和负载平衡策略,在数学推理和编程任务中展现了超凡的性能。
阿里巴巴开源的通义万相Wan2.2视频生成模型引入MoE架构,节省50%计算资源并新增电影美学控制系统。开源的三款模型支持高清视频生成,其中TI2V-5B可在消费级显卡快速处理高清视频。
数智朋克获悉月之暗面正式推出万亿参数Kimi K2模型并开源其MoE架构,该模型在多项基准测试中超越主流开源竞品。技术创新聚焦MuonClip优化器,API服务已上线并兼容主流格式,定价明确
猎户星空近日发布的Orion-MoE8×7B大模型,结合生成式混合专家架构,具备多语言处理能力,表现出色。与聚云科技合作推出的AI数据宝平台进一步助力大模型商业化,推动企业AI应用突破。
幻方量化旗下AI公司DeepSeek发布全新第二代MoE大模型DeepSeek-V2。该模型性能接近GPT-4Turbo,具备2360亿参数,每token激活210亿参数,支持128K上下文长度,成本显著降低。
APUS携手新旦智能,在GitHub上正式开源千亿参数级别的MoE(Mixture of Experts)架构大模型,标志着国内首个此规模的MoE架构模型的诞生。