英伟达 Blackwell 架构 GPU 实现 AI 推理性能突破单节点运行 6710 亿参数模型

核心要点👉

🚀 单节点运行6710亿参数模型实现253 Token/秒响应速度
⚡ 峰值吞吐达30,000 Token/秒处理120个并发任务
🧠 FP8精度模式显存占用降至FP16的60%
🔧 第三代Transformer引擎实现硬件级优化
💻 年内推出基于该架构的云服务产品

数智朋克获悉，在NVIDIA GTC 2025技术峰会上，英伟达通过其最新一代Blackwell架构GPU实现了AI推理性能的颠覆性突破。基于配备八颗Blackwell B200加速器的DGX系统，该公司成功以单节点运行6710亿参数的DeepSeek-R1全量模型，在实时交互场景中达成每位用户每秒253 Token的响应速度，这一指标较业界现有水平提升超过40%。

技术验证数据显示，当采用TensorRT-LLM框架进行优化时，系统在1024输入Token/2048输出Token的标准测试集上展现出每秒30,000 Token的峰值吞吐能力，相当于在单台设备上同步处理120个高复杂度推理任务。

黄仁勋在主题演讲中强调，Blackwell架构的稀疏计算单元与动态张量核心技术是突破算力瓶颈的关键，其第三代Transformer引擎可针对大语言模型特性实现硬件级优化。

值得注意的是，此次测试全程采用FP8混合精度模式，在保持模型精度的同时将显存占用压缩至传统FP16格式的60%，这使得单机部署千亿级参数模型成为可能。行业分析师指出，该突破将直接推动AI助手、实时代码生成等场景的商业化落地进程，预计年内将有基于该架构的云服务产品面市。

英伟达 Blackwell 架构 GPU 实现 AI 推理性能突破 单节点运行 6710 亿参数模型

数智资讯订阅

英伟达 Blackwell 架构 GPU 实现 AI 推理性能突破单节点运行 6710 亿参数模型