核心要点👉
- 🚀 单节点运行6710亿参数模型实现253 Token/秒响应速度
- ⚡ 峰值吞吐达30,000 Token/秒处理120个并发任务
- 🧠 FP8精度模式显存占用降至FP16的60%
- 🔧 第三代Transformer引擎实现硬件级优化
- 💻 年内推出基于该架构的云服务产品
数智朋克获悉,在NVIDIA GTC 2025技术峰会上,英伟达通过其最新一代Blackwell架构GPU实现了AI推理性能的颠覆性突破。基于配备八颗Blackwell B200加速器的DGX系统,该公司成功以单节点运行6710亿参数的DeepSeek-R1全量模型,在实时交互场景中达成每位用户每秒253 Token的响应速度,这一指标较业界现有水平提升超过40%。
技术验证数据显示,当采用TensorRT-LLM框架进行优化时,系统在1024输入Token/2048输出Token的标准测试集上展现出每秒30,000 Token的峰值吞吐能力,相当于在单台设备上同步处理120个高复杂度推理任务。
黄仁勋在主题演讲中强调,Blackwell架构的稀疏计算单元与动态张量核心技术是突破算力瓶颈的关键,其第三代Transformer引擎可针对大语言模型特性实现硬件级优化。
值得注意的是,此次测试全程采用FP8混合精度模式,在保持模型精度的同时将显存占用压缩至传统FP16格式的60%,这使得单机部署千亿级参数模型成为可能。行业分析师指出,该突破将直接推动AI助手、实时代码生成等场景的商业化落地进程,预计年内将有基于该架构的云服务产品面市。