开源创新
DeepSeek-V3 是一个突破性的Mixture-of-Experts(MoE)语言模型,拥有6710亿参数,采用创新的多头潜在注意力(MLA)机制和负载平衡策略,在数学推理和编程任务中展现了超凡的性能。
猎户星空近日发布的Orion-MoE8×7B大模型,结合生成式混合专家架构,具备多语言处理能力,表现出色。与聚云科技合作推出的AI数据宝平台进一步助力大模型商业化,推动企业AI应用突破。
幻方量化旗下AI公司DeepSeek发布全新第二代MoE大模型DeepSeek-V2。该模型性能接近GPT-4Turbo,具备2360亿参数,每token激活210亿参数,支持128K上下文长度,成本显著降低。
APUS携手新旦智能,在GitHub上正式开源千亿参数级别的MoE(Mixture of Experts)架构大模型,标志着国内首个此规模的MoE架构模型的诞生。