DIGIPUNK
去投稿
发表于:2024年05月13日

DeepSeek发布第二代MoE大模型,性能直逼GPT-4Turbo

数智朋克

幻方量化旗下的AI公司DeepSeek推出了新一代MoE大模型DeepSeek-V2,性能逼近GPT-4Turbo。DeepSeek-V2拥有2360亿参数,每个token激活210亿参数,支持128K的上下文长度。相比去年发布的DeepSeek67B,DeepSeek-V2性能显著提升,训练成本减少42.5%,KV缓存减少93.3%,最大生成吞吐量提高至5.76倍。

在性能对比中,DeepSeek-V2的中文综合能力(AlignBench)超越了Llama3,在开源模型中表现最强,与文心4.0等闭源模型在同一梯队,略逊于GPT-4Turbo。英文综合能力(MT-Bench)与最强开源模型LLaMA3-70B相当,超过了MoE开源模型Mixtral8x22B。此外,DeepSeek-V2在知识、数学、推理、代码等方面表现卓越。

DeepSeek-V2采用高质量、多源预训练语料库,包含8.1T token。其Transformer架构结合了创新的MLA(Multi-head Latent Attention)和高性能MoE架构DeepSeekMoE,有效降低了推理时的键值缓存瓶颈,显存消耗显著降低,每token成本大幅减少。训练所需计算量约为GPT-4的1/20,但性能几乎不逊色。

本文链接: https://www.shuzhipunk.com/articles/bpQzVTX7TMD
转载请注明文章出处

文章所属标签
DeepSeek
MoE大模型
DeepSeek-V2
GPT-4Turbo
Llama3