开源创新
DeepSeek-V3 是一个突破性的Mixture-of-Experts(MoE)语言模型,拥有6710亿参数,采用创新的多头潜在注意力(MLA)机制和负载平衡策略,在数学推理和编程任务中展现了超凡的性能。
阿里巴巴开源的通义万相Wan2.2视频生成模型引入MoE架构,节省50%计算资源并新增电影美学控制系统。开源的三款模型支持高清视频生成,其中TI2V-5B可在消费级显卡快速处理高清视频。
数智朋克获悉月之暗面正式推出万亿参数Kimi K2模型并开源其MoE架构,该模型在多项基准测试中超越主流开源竞品。技术创新聚焦MuonClip优化器,API服务已上线并兼容主流格式,定价明确