DIGIPUNK
去投稿
发表于:2025年03月19日

英伟达 Blackwell 架构 GPU 实现 AI 推理性能突破 单节点运行 6710 亿参数模型

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
核心要点👉
  • 🚀 单节点运行6710亿参数模型实现253 Token/秒响应速度
  • ⚡ 峰值吞吐达30,000 Token/秒处理120个并发任务
  • 🧠 FP8精度模式显存占用降至FP16的60%
  • 🔧 第三代Transformer引擎实现硬件级优化
  • 💻 年内推出基于该架构的云服务产品

数智朋克获悉,在NVIDIA GTC 2025技术峰会上,英伟达通过其最新一代Blackwell架构GPU实现了AI推理性能的颠覆性突破。基于配备八颗Blackwell B200加速器的DGX系统,该公司成功以单节点运行6710亿参数的DeepSeek-R1全量模型,在实时交互场景中达成每位用户每秒253 Token的响应速度,这一指标较业界现有水平提升超过40%

技术验证数据显示,当采用TensorRT-LLM框架进行优化时,系统在1024输入Token/2048输出Token的标准测试集上展现出每秒30,000 Token的峰值吞吐能力,相当于在单台设备上同步处理120个高复杂度推理任务。

黄仁勋在主题演讲中强调,Blackwell架构的稀疏计算单元与动态张量核心技术是突破算力瓶颈的关键,其第三代Transformer引擎可针对大语言模型特性实现硬件级优化。

值得注意的是,此次测试全程采用FP8混合精度模式,在保持模型精度的同时将显存占用压缩至传统FP16格式的60%,这使得单机部署千亿级参数模型成为可能。行业分析师指出,该突破将直接推动AI助手、实时代码生成等场景的商业化落地进程,预计年内将有基于该架构的云服务产品面市。

本文链接: https://www.shuzhipunk.com/articles/WJyPEDaIIbR
转载请注明文章出处

文章所属标签
Blackwell 架构
AI 推理性能