DESIGN TOOLS
storage

配有美光6500 ION SSD的WEKA存储支持256个AI加速器

Wes Vaske | November 2023

美光最近公布了我们的研究结果 MLPerf Storage v0.5 on the Micron® 9400 NVMe™ SSD. 这些结果突出了高性能NVMe SSD作为AI服务器中的本地缓存, 而美光9400 NVMe固态硬盘在这种情况下表现非常好. 然而,大多数人工智能训练数据并不存在于本地缓存中,而是存在于共享存储中. For SC23,我们决定测试相同的MLPerf Storage AI工作负载 WEKA storage cluster powered by the 30TB Micron 6500 ION NVMe SSD.

WEKA is a distributed, 为AI工作负载设计的并行文件系统, 我们想知道MLPerf Storage AI工作负载如何在高性能SDS解决方案上扩展. The results are enlightening, 帮助我们为当前一代人工智能系统提供大小建议,并暗示未来人工智能存储系统将需要大量吞吐量.

首先,快速回顾一下MLPerf Storage
MLCommons 维护和开发六个不同的基准套件,并正在开发开放数据集,以支持未来最先进的模型开发. MLPerf存储基准套件是MLCommons基准集合的最新成员.

MLPerf Storage着手解决两个挑战, among others, 当描述人工智能训练系统的存储工作量时——人工智能加速器的成本和可用数据集的小尺寸.

有关MLPerf Storage生成的工作负载的深入研究和基准测试的讨论, see our previous blog posts:

接下来,让我们检查一下正在测试的WEKA集群
My teammate, Sujit, wrote a post earlier this year 描述集群在合成工作负载下的性能. See that post for the full results.

集群由6个存储节点组成,每个节点配置如下:

In aggregate, 该集群提供838TB的容量和, for high queue-depth workloads, achieves 200 GB/s.

最后,让我们回顾一下这个集群在MLPerf Storage中的表现
快速注意:这里显示的结果是未经验证的,因为它们没有提交给MLPerf Storage进行审查. 此外,MLPerf Storage基准也从v0开始进行了更改.第一个2024版本从5到下一个版本. 这里给出的数字使用与v0相同的方法.5 .每个客户端发布独立的数据集, independent clients, 客户端的加速器共享一个屏障).

MLPerf Storage基准模拟 NVIDIA® V100 accelerators in the 0.5 version. The NVIDIA DGX-2 server has 16 V100 accelerators. For this testing, 我们展示了WEKA集群上支持的客户机数量,其中每个客户机模拟16个V100加速器, like in the NVIDIA DGX-2.

Additionally, v0.MLPerf存储基准的第5部分实现了两种不同的模型,Unet3D和BERT. Through testing, 我们发现BERT不会产生显著的存储流量, 我们将集中在Unet3D上进行测试. (Unet3D是一个3D医学成像模型.)

该图显示了给定数量的客户端节点对存储系统的总吞吐量. 记住,每个节点有16个模拟加速器. Furthermore, to be considered a “success,给定数量的节点和加速器需要保持大于90%的加速器利用率. If the accelerators drop below 90%, 这表示加速器在等待数据时的空闲时间.

在这里,我们看到六个节点的WEKA存储集群支持16个客户机, 每个模拟16个加速器-总共256个模拟加速器-并达到 91 GB/s of throughput.

这个性能相当于16个NVIDIA DGX-2系统(每个系统有16个V100 gpu), 这是一个六节点WEKA集群支持的非常多的AI系统.

The V100 is a PCIe Gen3 GPU, NVIDIA几代GPU的性能提升速度远远超过了平台和PCIe一代. In a single-node system, 我们发现模拟的NVIDIA A100 GPU在此工作负载下的速度要快四倍.

With a maximum 91 GB/s throughput, 我们可以估计这个WEKA部署将支持8个DGX A100系统(每个系统有8个A100 gpu).

展望H100 / H200 (PCIe Gen5)和X100 (PCIe Gen6)的未来, 尖端的人工智能训练服务器将推动大量的吞吐量.

For today, WEKA存储和美光6500 NVMe固态硬盘是容量的完美结合, 性能和可扩展性为您的AI工作负载.

请继续关注我们对AI存储的探索!

SMTS Systems Performance Engineer

Wes Vaske

Wes Vaske是美光公司的首席存储解决方案工程师.