Meta在推动开源大模型技术的进程中迈出了新的一步,最近发布了其最新的大模型Llama 3。据Meta官网公告,Llama 3的目标是匹敌当前市场上最优秀的专有模型,通过引入高质量的训练数据和指令微调技术,实现了与前代Llama 2相比的性能提升。
Llama 3目前提供了8B和70B两种参数规模的版本,其上下文窗口为8k,未来Meta计划推出参数超过4000亿的更大版本。这些模型在多项行业基准测试中表现出色,例如在MMLU、GPQA和HumanEval等性能测试中,Llama 3的70B版本超过了多个著名的闭源模型如Claude 3 Sonnet,以及与谷歌的Gemini Pro 1.5竞争中取得了优势。
Llama 3的架构采用了标准的仅解码式Transformer结构,并配备了一个包含128K token的分词器。该模型在Meta自建的两个24K GPU集群上进行预训练,训练数据达到15T,其中包括5%的非英文数据,覆盖30多种语言。相比Llama 2,新模型使用的训练数据量是其七倍,包含的代码数量是四倍。
Meta也在优化Llama 3在实际场景中的表现。为此,他们开发了一套高质量的人工测试集,包括1800条数据涵盖多个关键用例。在这套测试集中,Llama 3表现出的成绩超过了多个知名模型,包括Claude 3 Sonnet和GPT-3.5。
未来,Llama 3还将支持更长的上下文窗口和多模态功能,并计划在包括亚马逊AWS、谷歌云、Hugging Face等平台上提供给开发者。Meta也表示,将继续提供新的信任和安全工具如Llama Guard 2、Code Shield和CyberSec Eval 2,以负责任地发展和部署这一大型语言模型。