幻方量化旗下的AI公司DeepSeek推出了新一代MoE大模型DeepSeek-V2,性能逼近GPT-4Turbo。DeepSeek-V2拥有2360亿参数,每个token激活210亿参数,支持128K的上下文长度。相比去年发布的DeepSeek67B,DeepSeek-V2性能显著提升,训练成本减少42.5%,KV缓存减少93.3%,最大生成吞吐量提高至5.76倍。
在性能对比中,DeepSeek-V2的中文综合能力(AlignBench)超越了Llama3,在开源模型中表现最强,与文心4.0等闭源模型在同一梯队,略逊于GPT-4Turbo。英文综合能力(MT-Bench)与最强开源模型LLaMA3-70B相当,超过了MoE开源模型Mixtral8x22B。此外,DeepSeek-V2在知识、数学、推理、代码等方面表现卓越。
DeepSeek-V2采用高质量、多源预训练语料库,包含8.1T token。其Transformer架构结合了创新的MLA(Multi-head Latent Attention)和高性能MoE架构DeepSeekMoE,有效降低了推理时的键值缓存瓶颈,显存消耗显著降低,每token成本大幅减少。训练所需计算量约为GPT-4的1/20,但性能几乎不逊色。