核心要点👉
- 🏭 AI工厂架构:每机架集成72颗Blackwell Ultra GPU+36颗Grace CPU,提供37TB内存和1.44 exaflops FP4算力
- ⚡ 性能突破:MLPerf基准测试中推理吞吐量提升5倍,130TB/s机架内+800Gb/s跨机架网络
- 🌍 全球部署:计划数十万颗GPU支撑数万亿参数AI模型,覆盖34国300+数据中心
- ❄️ 系统重构:液冷/电力/软件栈深度优化,专为OpenAI多模态生成式AI设计
- 🚀 算力竞赛:微软CTO将披露基础设施战略,应对超大规模模型时代需求
数智朋克讯,微软Azure正式推出NDv6 GB300虚拟机系列,标志着全球首个大规模NVIDIA GB300 NVL72 AI超算集群投入生产。该系统专为OpenAI的尖端推理任务设计,由超过4,600台NVIDIA Blackwell Ultra GPU构成,业界称之为"AI工厂"。核心硬件采用液冷式机架级架构,每台机架集成72颗Blackwell Ultra GPU与36颗Grace CPU,提供高达37TB高速内存和每虚拟机1.44 exaflops的FP4张量核心算力,构建统一内存空间以支持复杂多模态生成式AI。
性能测试显示,NVIDIA GB300 NVL72在MLPerf Inference v5.1基准中表现卓越,相比前代Hopper架构,DeepSeek-R1模型推理吞吐量提升高达5倍每GPU,Llama 3.1 405B等新模型同样领先。网络架构采用双层设计:机架内通过第五代NVIDIA NVLink Switch实现130TB/s全互联带宽,跨机架则依赖NVIDIA Quantum-X800 InfiniBand平台,每GPU提供800Gb/s带宽,结合自适应路由和SHARP v4协议,显著优化大规模训练效率。
此次部署涉及数据中心全面重构,涵盖液冷系统、电力分配及软件栈深度优化。微软计划全球部署数十万颗Blackwell Ultra GPU,支撑下一代数万亿参数级AI模型发展。微软CEO Satya Nadella通过社交媒体展示了该系统,强调公司在34个国家运营超过300座数据中心,具备独特优势直接满足前沿AI需求,尽管OpenAI近期与NVIDIA、AMD签署巨额协议计划自建算力。
微软CTO Kevin Scott将于TechCrunch Disrupt大会阐述AI基础设施战略,随着超大规模模型时代加速,算力竞赛持续升温。