Meta推出开源大模型Llama 3，提升性能并拓展AI技术的应用前景

Meta在推动开源大模型技术的进程中迈出了新的一步，最近发布了其最新的大模型Llama 3。据Meta官网公告，Llama 3的目标是匹敌当前市场上最优秀的专有模型，通过引入高质量的训练数据和指令微调技术，实现了与前代Llama 2相比的性能提升。

Llama 3目前提供了8B和70B两种参数规模的版本，其上下文窗口为8k，未来Meta计划推出参数超过4000亿的更大版本。这些模型在多项行业基准测试中表现出色，例如在MMLU、GPQA和HumanEval等性能测试中，Llama 3的70B版本超过了多个著名的闭源模型如Claude 3 Sonnet，以及与谷歌的Gemini Pro 1.5竞争中取得了优势。

Llama 3的架构采用了标准的仅解码式Transformer结构，并配备了一个包含128K token的分词器。该模型在Meta自建的两个24K GPU集群上进行预训练，训练数据达到15T，其中包括5%的非英文数据，覆盖30多种语言。相比Llama 2，新模型使用的训练数据量是其七倍，包含的代码数量是四倍。

Meta也在优化Llama 3在实际场景中的表现。为此，他们开发了一套高质量的人工测试集，包括1800条数据涵盖多个关键用例。在这套测试集中，Llama 3表现出的成绩超过了多个知名模型，包括Claude 3 Sonnet和GPT-3.5。

未来，Llama 3还将支持更长的上下文窗口和多模态功能，并计划在包括亚马逊AWS、谷歌云、Hugging Face等平台上提供给开发者。Meta也表示，将继续提供新的信任和安全工具如Llama Guard 2、Code Shield和CyberSec Eval 2，以负责任地发展和部署这一大型语言模型。

Meta推出开源大模型Llama 3，提升性能并拓展AI技术的应用前景

数智资讯订阅