英伟达首次公布 Blackwell GPU 在 MLPerf v4.1 AI 训练工作负载中的成绩

aixo 2024-11-15 08:10:40

2024-11-15 08:10:40

科技媒体昨日(11 月 13 日)发布博文，报道称英伟达首次公布了 GPU 在 v4.1 AI 训练工作负载中的成绩，在训练 Llama 2 70B (Fine-)模型时比快2.2 倍。

测试简介

英伟达于今年 8 月，首次公布了 GPU 在 v4.1 AI 推理方面的基准测试成绩，而今天首次公布了该 GPU 在 v4.1 AI 训练工作负载方面的测试成绩。

表示，随着新模型的推出，AI 领域对计算的需求正在以指数级增长，因此需要大幅提升训练和推理 AI 的能力，附上本次训练工作负载主要使用的模型如下：

Llama 2 70B(LLM 微调)

(文本到图像)

(推荐系统)

BERT(自然语言处理)

(目标检测)

GPT-3 175B(LLM 预训练)

R-GAT(图神经网络)

这些工作负载的基准测试为评估 AI 加速器的训练性能提供了准确的数据支持。

GPU 的持续优化

GPU 自发布以来，经过持续的软件优化，性能得到了显著提升。*** GPU 在 LLM 预训练性能上比首次提交时快了 1.3 倍，并且在 GPT-3(175B 训练)中实现了 70% 的性能提升。

英伟达利用 11616 个 *** GPU 进行了的最大规模提交，进一步证明了其在数据中心级别的强大能力。

的技术优势

GPU 的设计旨在提高每个 GPU 的计算吞吐量，配备更大更快的高带宽内存，不降低性能的前提下，能够在更少的 GPU 上运行 GPT-3 175B 基准测试。

根据测试结果，64 张 GPU 的测试性能，可以达到 256 张 GPU 的水平。

GPU