DeepSeek发布第二代MoE大模型，性能直逼GPT-4Turbo

幻方量化旗下的AI公司DeepSeek推出了新一代MoE大模型DeepSeek-V2，性能逼近GPT-4Turbo。DeepSeek-V2拥有2360亿参数，每个token激活210亿参数，支持128K的上下文长度。相比去年发布的DeepSeek67B，DeepSeek-V2性能显著提升，训练成本减少42.5%，KV缓存减少93.3%，最大生成吞吐量提高至5.76倍。

在性能对比中，DeepSeek-V2的中文综合能力（AlignBench）超越了Llama3，在开源模型中表现最强，与文心4.0等闭源模型在同一梯队，略逊于GPT-4Turbo。英文综合能力（MT-Bench）与最强开源模型LLaMA3-70B相当，超过了MoE开源模型Mixtral8x22B。此外，DeepSeek-V2在知识、数学、推理、代码等方面表现卓越。

DeepSeek-V2采用高质量、多源预训练语料库，包含8.1T token。其Transformer架构结合了创新的MLA（Multi-head Latent Attention）和高性能MoE架构DeepSeekMoE，有效降低了推理时的键值缓存瓶颈，显存消耗显著降低，每token成本大幅减少。训练所需计算量约为GPT-4的1/20，但性能几乎不逊色。

DeepSeek发布第二代MoE大模型，性能直逼GPT-4Turbo

数智资讯订阅