浪潮信息推出“源2.0-M32”大模型,采用“基于注意力机制的门控网络”技术,构建32个专家的混合专家模型(MoE),显著提升了算力效率。M32在仅激活37亿参数的情况下,达到了与700亿参数LLaMA3相当的性能,所消耗算力仅为LLaMA3的1/19。
浪潮信息在北京发布了其最新的基础大模型“源2.0”,并宣布该模型将全面开源。"源2.0"包括102B、51B和2B三种参数规模的模型,这些模型在编程、推理和逻辑方面展现出了先进的能力。通过采用新型注意力算法结构和高质量的数据集,"源2.0"在使用更少的训练算力和更小的模型参数下,实现了更高的模型精度和涌现能力。