Skip to main content
NetApp artificial intelligence solutions
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

搭載NVIDIA DGX SuperPOD 的NetApp AFF A90儲存系統

貢獻者 sathyaga kevin-hoke

NVA 部署

搭載NetApp AFF A90儲存系統的NVIDIA DGX SuperPOD將NVIDIA DGX 系統的世界級運算效能與NetApp雲端連接儲存系統結合,為機器學習 (ML)、人工智慧 (AI) 和高效能技術運算 (HPC) 提供資料驅動的工作流程。本文檔介紹了將AFF A90儲存系統整合到 DGX SuperPOD 架構的配置和部署細節。

nvidia 標誌

NetApp的 David Arnette

項目摘要

NVIDIA DGX SuperPOD™ 為組織提供交鑰匙 AI 資料中心解決方案,無縫提供世界一流的運算、軟體工具、專業知識和持續創新。 DGX SuperPOD 可為客戶提供部署 AI/ML 和 HPC 工作負載所需的一切,同時最大程度地縮短設定時間並提高生產力。圖 1 顯示了 DGX SuperPOD 的高階組件。

圖 1) 附有NetApp AFF A90儲存系統的NVIDIA DGX SuperPOD 。

600,600

DGX SuperPOD 具有以下優點:

  • 經過驗證的 AI/ML 和 HPC 工作負載效能

  • 從基礎設施管理和監控到預先建立的深度學習模型和工具的整合硬體和軟體堆疊。

  • 從安裝和基礎設施管理到擴展工作負載和簡化生產 AI 的專用服務。

解決方案概述

隨著各組織採用人工智慧 (AI) 和機器學習 (ML) 計劃,對強大、可擴展且高效的基礎設施解決方案的需求從未如此強烈。這些措施的核心在於管理和訓練日益複雜的人工智慧模型,同時確保資料安全、可存取性和資源最佳化。 

該解決方案具有以下主要優勢:

  • 可擴展性

  • 資料管理與存取

  • 安全

解決方案技術

NVIDIA DGX SuperPOD包含必要的伺服器、網路和存儲,可為要求苛刻的 AI 工作負載提供經過驗證的效能。 NVIDIA DGX™ H200 和 B200 系統提供世界一流的運算能力, NVIDIA Quantum InfiniBand 和 Spectrum™ 乙太網路交換器提供超低延遲和業界領先的網路效能。透過NetApp ONTAP儲存業界領先的資料管理和效能功能,客戶可以更快地實現 AI/ML 計劃,並減少資料遷移和管理開銷。有關此解決方案中特定組件的更多信息,請參閱https://www.netapp.com/pdf.html?item=/media/125003-nva-1175-design-superpod-a90.pdf["NVA-1175 設計指南"]和 " NVIDIA DGX SuperPOD參考架構"文件.

用例摘要

NVIDIA DGX SuperPOD旨在滿足最嚴苛的工作負載的效能和規模要求。

此解決方案適用於以下用例:

  • 使用傳統分析工具進行大規模機器學習。

  • 針對大型語言模型、電腦視覺/影像分類、詐欺偵測和無數其他用例的人工智慧模型訓練。

  • 高效能運算,如地震分析、運算流體動力學和大規模視覺化。

技術要求

DGX SuperPOD 是基於可擴展單元 (SU) 的概念,它包含提供所需連接和性能以及消除基礎設施中任何瓶頸所需的所有組件。客戶可以從一個或多個 SU 開始,然後根據需要添加其他 SU 來滿足其要求。更多資訊請參閱 " NVIDIA DGX SuperPOD參考架構"。本文檔介紹了單一 SU 的儲存組件和配置。

硬體需求

表 1 列出了實現 1SU 儲存元件所需的硬體元件。有關 1-4 個可擴充單元的特定零件和數量,請參閱附錄 A。

表 1) 硬體需求。

硬體 數量

NetApp AFF A90儲存系統

4

NetApp儲存叢集互連交換機

2

NVIDIA 800GB → 4x 200Gb 分離器電纜

12

軟體需求

表 2 列出了將AFF A90儲存系統與 DGX SuperPOD 整合所需的最低軟體元件和版本。 DGX SuperPOD 還涉及此處未列出的其他軟體元件。請參閱https://docs.nvidia.com/dgx-superpod/release-notes/latest/10-24-11.html["DGX SuperPOD 發行說明"]了解完整詳情。

表 2) 軟體要求。

軟體 版本

NetApp ONTAP

9.16.1 或更高版本

NVIDIA BaseCommand 管理器

10.24.11 或更高版本

NVIDIA DGX 作業系統

6.3.1 或以上

NVIDIA OFED 驅動程式

MLNX_OFED_LINUX-23.10.3.2.0 LTS 或更高版本

NVIDIA Cumulus 作業系統

5.10或以上

部署流程

將NetApp ONTAP儲存與 DGX SuperPOD 整合涉及以下任務:

  • 帶有 RoCE 的NetApp AFF A90儲存系統的網路配置

  • 儲存系統安裝和配置

  • 使用NVIDIA Base Command™ Manager 進行 DGX 用戶端配置

儲存系統安裝和配置

場地準備和基本安裝

作為標準部署服務的一部分, NetApp專業服務將為所有 DGX SuperPOD 部署執行AFF A90儲存叢集的場地準備和基本安裝。 NetApp PS 將確認現場條件是否適合安裝,並將硬體安裝在指定的機架中。他們還將連接 OOB 網路連接並使用客戶提供的網路資訊完成基本集群設定。附錄 A – 物料清單和機架立面圖包括標準機架立面圖以供參考。有關 A90 安裝的更多信息,請參閱 " AFF A90硬體安裝文件"

標準部署完成後, NetApp PS 將使用以下步驟完成儲存解決方案的進階配置,包括與 Base Command Manager 整合以實現用戶端連接和調整。

將儲存系統佈線到 DGX SuperPOD 儲存結構

AFF A90儲存系統使用每個控制器四個 200Gb 乙太網路連接埠連接到儲存結構葉交換機,每個交換器有兩個連接。 NVIDIA Spectrum SN5600 交換器上的 800Gb 交換器連接埠使用附錄 A 中所列的適當 DAC 或光分路器設定分成 4 個 200Gb 連接埠。每個交換器連接埠的各個連接埠分佈在儲存控制器上,以消除單點故障。下面的圖 2 顯示了儲存結構連接的佈線:

圖 2) 儲存網路佈線。

600,600

將儲存系統佈線到 DGX SuperPOD 帶內網絡

NetApp ONTAP包含業界領先的多租用戶功能,使其既可以作為 DGX SuperPOD 架構中的高效能儲存系統運行,又可以支援主目錄、群組檔案共用和基本命令管理器叢集工件。為了在帶內網路上使用,每個AFF A90控制器都連接到帶內網路交換機,每個控制器都有 200Gb 乙太網路連接,並且連接埠配置為 LACP MLAG 配置。下面的圖 3 顯示了儲存系統到帶內和 OOB 網路的佈線。

圖 3) 帶內和 OOB 網路佈線。

600,600

為 DGX SuperPOD 配置ONTAP

此解決方案利用多個儲存虛擬機器 (SVM) 來託管卷,以實現高效能儲存存取以及管理 SVM 上的使用者主目錄和其他叢集工件。每個 SVM 都配置了儲存或帶內網路上的網路接口,以及用於資料儲存的FlexGroup磁碟區。為了確保資料 SVM 的效能,實施了儲存 QoS 策略。有關 FlexGroups、儲存虛擬機器和ONTAP QoS 功能的更多信息,請參閱 " ONTAP文檔"

設定基本儲存
在每個控制器上配置單一聚合
aggr create -node <node> -aggregate <node>_data01 -diskcount <47> -maxraidsize 24

對叢集中的每個節點重複上述步驟。

在每個控制器上配置 ifgrps 以實現帶內網絡
net port ifgrp create -node <node> -ifgrp a1a -mode multimode
-distr-function port

net port ifgrp add-port -node <node> -ifgrp a1a -ports
<node>:e2a,<node>:e2b

對叢集中的每個節點重複上述步驟。

為 RoCE 配置實體端口

啟用 NFS over RDMA 需要進行設定以確保網路流量在用戶端和伺服器上都被適當標記,然後由網路使用 RDMA over Converged Ethernet (RoCE) 進行適當處理。這包括配置優先流量控制 (PFC) 和配置要使用的 PFC CoS 佇列。執行下列命令時, NetApp ONTAP也會自動設定 DSCP 代碼 26 以與網路 QoS 設定保持一致。

network port modify -node * -port e6* -flowcontrol-admin pfc
-pfc-queues-admin 3

network port modify -node * -port e11* -flowcontrol-admin pfc
-pfc-queues-admin 3
建立廣播域
broadcast-domain create -broadcast-domain in-band -mtu 9000 -ports
ntapa90_spod-01:a1a,ntapa90_spod-02:a1a,ntapa90_spod-03:a1a,ntapa90_spod-04:a1a,ntapa90_spod-05:a1a,
ntapa90_spod-06:a1a,ntapa90_spod-07:a1a,ntapa90_spod-08:a1a

broadcast-domain create -broadcast-domain vlan401 -mtu 9000 -ports
ntapa90_spod-01:e6a,ntapa90_spod-01:e6b,ntapa90_spod-02:e6a,ntapa90_spod-02:e6b,ntapa90_spod-03:e6a,ntapa90_spod-03:e6b,ntapa90_spod-04:e6a,ntapa90_spod-04:e6b,ntapa90_spod-05:e6a,ntapa90_spod-05:e6b,ntapa90_spod-06:e6a,ntapa90_spod-06:e6b,ntapa90_spod-07:e6a,ntapa90_spod-07:e6b,ntapa90_spod-08:e6a,ntapa90_spod-08:e6b

broadcast-domain create -broadcast-domain vlan402 -mtu 9000 -ports
ntapa90_spod-01:e11a,ntapa90_spod-01:e11b,ntapa90_spod-02:e11a,ntapa90_spod-02:e11b,ntapa90_spod-03:e11a,ntapa90_spod-03:e11b,ntapa90_spod-04:e11a,ntapa90_spod-04:e11b,ntapa90_spod-05:e11a,ntapa90_spod-05:e11b,ntapa90_spod-06:e11a,ntapa90_spod-06:e11b,ntapa90_spod-07:e11a,ntapa90_spod-07:e11b,ntapa90_spod-08:e11a,ntapa90_spod-08:e11b
建立管理 SVM
建立並配置管理 SVM
vserver create -vserver spod_mgmt

vserver modify -vserver spod_mgmt -aggr-list
ntapa90_spod-01_data01,ntapa90_spod-02_data01,
ntapa90_spod-03_data01,ntapa90_spod-04_data01,
ntapa90_spod-05_data01,ntapa90_spod-06_data01,
ntapa90_spod-07_data01,ntapa90_spod-08_data01
在管理 SVM 上設定 NFS 服務
nfs create -vserver spod_mgmt -v3 enabled -v4.1 enabled -v4.1-pnfs
enabled -tcp-max-xfer-size 262144 -v4.1-trunking enabled

set advanced

nfs modify -vserver spod_mgmt -v3-64bit-identifiers enabled
-v4.x-session-num-slots 1024
為帶內網路介面建立 IP 子網
network subnet create -subnet-name inband -broadcast-domain in-band
-subnet xxx.xxx.xxx.0/24 -gateway xxx.xxx.xxx.x -ip-ranges
xxx.xxx.xxx.xx-xxx.xxx.xxx.xxx

*注意:*客戶需在部署時提供 IP 子網路訊息,以便整合到現有客戶網路中。

在每個節點上為帶內 SVM 建立網路介面
net int create -vserver spod_mgmt -lif inband_lif1 -home-node
ntapa90_spod-01 -home-port a1a -subnet_name inband

對叢集中的每個節點重複上述步驟。

為管理 SVM 建立FlexGroup卷
vol create -vserver spod_mgmt -volume home -size 10T -auto-provision-as
flexgroup -junction-path /home

vol create -vserver spod_mgmt -volume cm -size 10T -auto-provision-as
flexgroup -junction-path /cm
為管理 SVM 建立匯出策略
export-policy rule create -vserver spod_mgmt -policy default
-client-match XXX.XXX.XXX.XXX -rorule sys -rwrule sys -superuser sys

*注意:*客戶需在部署時提供 IP 子網路訊息,以便整合到現有客戶網路中。

建立資料 SVM
建立並配置資料 SVM
vserver create -vserver spod_data
vserver modify -vserver spod_data -aggr-list
ntapa90_spod-01_data01,ntapa90_spod-02_data01,
ntapa90_spod-03_data01,ntapa90_spod-04_data01,
ntapa90_spod-05_data01,ntapa90_spod-06_data01,
ntapa90_spod-07_data01,ntapa90_spod-08_data01
在啟用 RDMA 的資料 SVM 上設定 NFS 服務
nfs create -vserver spod_data -v3 enabled -v4.1 enabled -v4.1-pnfs
enabled -tcp-max-xfer-size 262144 -v4.1-trunking enabled -rdma enabled

set advanced

nfs modify -vserver spod_data -v3-64bit-identifiers enabled
-v4.x-session-num-slots 1024
為 Data SVM 網路介面建立 IP 子網路
network subnet create -subnet-name vlan401 -broadcast-domain vlan401
-subnet 100.127.124.0/24 -ip-ranges 100.127.124.4-100.127.124.254

network subnet create -subnet-name vlan402 -broadcast-domain vlan402
-subnet 100.127.252.0/24 -ip-ranges 100.127.252.4-100.127.252.254
在每個節點上為 Data SVM 建立網路介面
net int create -vserver spod_data -lif data_lif1 -home-node
ntapa90_spod-01 -home-port e6a -subnet_name vlan401 -failover-policy
sfo-partner-only

net int create -vserver spod_data -lif data_lif2 -home-node
ntapa90_spod-01 -home-port e6b -subnet_name vlan401

net int create -vserver spod_data -lif data_lif3 -home-node
ntapa90_spod-01 -home-port e11a -subnet_name vlan402

net int create -vserver spod_data -lif data_lif4 -home-node
ntapa90_spod-01 -home-port e11b -subnet_name vlan402

對叢集中的每個節點重複上述步驟。

為 RDMA 配置資料 SVM 網路介面
net int modify -vserver spod_data -lif * -rdma-protocols roce
在資料 SVM 上建立導出策略
export-policy rule create -vserver spod_data -policy default
-client-match 100.127.0.0/16 -rorule sys -rwrule sys -superuser sys
在資料 SVM 上建立靜態路由
route add -vserver spod_data -destination 100.127.0.0/17 -gateway
100.127.124.1 -metric 20

route add -vserver spod_data -destination 100.127.0.0/17 -gateway
100.127.252.1 -metric 30

route add -vserver spod_data -destination 100.127.128.0/17 -gateway
100.127.252.1 -metric 20

route add -vserver spod_data -destination 100.127.128.0/17 -gateway
100.127.124.1 -metric 30
使用 GDD 為資料 SVM 建立FlexGroup卷

粒度資料分佈 (GDD) 支援將大型資料檔案分佈在多個FlexGroup組成磁碟區和控制器上,以實現單一檔案工作負載的最高效能。 NetApp建議在所有 DGX SuperPOD 部署的資料磁碟區上啟用 GDD。

set adv

vol create -vserver spod-data -volume spod_data -size 100T -aggr-list
ntapa90_spod-01_data01,ntapa90_spod-02_data01,
ntapa90_spod-03_data01,ntapa90_spod-04_data01,
ntapa90_spod-05_data01,ntapa90_spod-06_data01,
ntapa90_spod-07_data01,ntapa90_spod-08_data01 -aggr-multiplier 16
-granular-data advanced -junction-path /spod_data  
停用主資料磁碟區的儲存效率

捲效率關閉-vserver spod_data-volume spod_data

為資料 SVM 建立 QoS 最小策略
qos policy-group create -policy-group spod_qos -vserver spod_data
-min-throughput 62GB/s -is-shared true
為資料 SVM 應用 QoS 策略
Volume modify -vserver spod_data -volume spod_data -qos-policy-group
spod_qos

使用NVIDIA Base Command Manager 設定 DGX 伺服器

若要準備 DGX 用戶端使用AFF A90儲存系統,請完成下列任務。此過程假定已在 DGX 系統節點上配置了儲存結構的網路介面和靜態路由。以下任務將由NetApp專業服務作為進階配置流程的一部分完成。

使用所需的核心參數和其他設定來配置 DGX 伺服器映像

NetApp ONTAP使用業界標準 NFS 協議,且不需要在 DGX 系統上安裝任何其他軟體。為了使客戶端系統獲得最佳效能,需要對 DGX 系統映像進行一些修改。使用下列命令進入 BCM 映像 chroot 模式後執行以下兩個步驟:

cm-chroot-sw-img /cm/images/<image>
在 /etc/sysctl.conf 中配置系統虛擬記憶體設置

預設的 Linux 系統配置提供的虛擬記憶體設定不一定能提供最佳效能。對於具有 2TB RAM 的 DGX B200 系統,預設設定允許 40GB 的緩衝區空間,這會建立不一致的 I/O 模式,並允許客戶端在刷新緩衝區時使儲存系統過載。以下設定將用戶端緩衝區空間限制為 5GB,並強制更頻繁地刷新以建立不會使儲存系統過載的一致 I/O 流。

進入鏡像chroot模式後,編輯/etc/sysctl.s/90-cm-sysctl.conf文件,新增以下幾行:

vm.dirty_ratio=0 #controls max host RAM used for buffering as a
percentage of total RAM, when this limit is reached all applications
must flush buffers to continue

vm.dirty_background_ratio=0 #controls low-watermark threshold to start
background flushing as a percentage of total RAM

vm.dirty_bytes=5368709120 #controls max host RAM used for buffering as
an absolute value (note _ratio above only accepts integers and the value
we need is <1% of total RAM (2TB))

vm.dirty_background_bytes=2147483648 #controls low-watermark threshold
to start background flushing as an absolute value

vm.dirty_expire_centisecs = 300 #controls how long data remains in
buffer pages before being marked dirty

vm.dirty_writeback_centisecs = 100 #controls how frequently the flushing
process wakes up to flush dirty buffers

儲存並關閉 /etc/sysctl.conf 檔案。

使用重新啟動後執行的腳本配置其他系統設置

某些設定需要作業系統完全在線才能執行,並且在重新啟動後不會持久。若要在 Base Command Manager 環境中執行這些設置,請建立檔案 /root/ntap_dgx_config.sh 並輸入以下行:

#!/bin/bash

##The commands below are platform-specific based.

##For H100/H200 systems use the following variables

## NIC1_ethname= enp170s0f0np0

## NIC1_pciname=aa:00.0

## NCI1_mlxname=mlx5_7

## NIC1_ethname= enp41s0f0np0

## NIC1_pciname=29:00.0

## NCI1_mlxname=mlx5_1

##For B200 systems use the following variables

NIC1_ethname=enp170s0f0np0

NIC1_pciname=aa:00.0

NCI1_mlxname=mlx5_11

NIC2_ethname=enp41s0f0np0

NIC2_pciname=29:00.0

NCI2_mlxname=mlx5_5

mstconfig -y -d $\{NIC1_pciname} set ADVANCED_PCI_SETTINGS=1
NUM_OF_VFS=0

mstconfig -y -d $\{NIC2_pciname} set ADVANCED_PCI_SETTINGS=1
NUM_OF_VFS=0

setpci -s $\{NIC1_pciname} 68.W=5957

setpci -s $\{NIC2_pciname} 68.W=5957

ethtool -G $\{NIC1_ethname} rx 8192 tx 8192

ethtool -G $\{NIC2_ethname} rx 8192 tx 8192

mlnx_qos -i $\{NIC1_ethname} --pfc 0,0,0,1,0,0,0,0 --trust=dscp

mlnx_qos -i $\{NIC2_ethname} --pfc 0,0,0,1,0,0,0,0 --trust=dscp

echo 106 > /sys/class/infiniband/$\{NIC1_mlxname}/tc/1/traffic_class

echo 106 > /sys/class/infiniband/$\{NIC2_mlxname}/tc/1/traffic_class

儲存並關閉文件。更改檔案的權限,使其可執行:

chmod 755 /root/ntap_dgx_config.sh

透過編輯以下行,建立由 root 在啟動時執行的 cron 作業:

@reboot /root/ntap_dgx_config.sh

請參閱下面的範例 crontab 檔案:

# Edit this file to introduce tasks to be run by cron.

#

# Each task to run has to be defined through a single line

# indicating with different fields when the task will be run

# and what command to run for the task

#

# To define the time you can provide concrete values for

# minute (m), hour (h), day of month (dom), month (mon),

# and day of week (dow) or use '*' in these fields (for 'any').

#

# Notice that tasks will be started based on the cron's system

# daemon's notion of time and timezones.

#

# Output of the crontab jobs (including errors) is sent through

# email to the user the crontab file belongs to (unless redirected).

#

# For example, you can run a backup of all your user accounts

# at 5 a.m every week with:

# 0 5 * * 1 tar -zcf /var/backups/home.tgz /home/

#

# For more information see the manual pages of crontab(5) and cron(8)

#

# m h dom mon dow command

@reboot /home/ntap_dgx_config.sh

輸入 exit 或 Ctrl-D 退出 BCM 影像 chroot 模式。

為客戶端掛載點配置 BaseCommand Manager DGX 類別

若要設定 DGX 用戶端安裝AFF A90儲存系統,應修改 DGX 系統使用的 BCM 用戶端類別以包含相關資訊和選項。以下步驟說明如何設定 NFS 掛載點。

cmsh

category ; use category <category>; fsmounts

add superpod

set device 100.127.124.4:/superpod

set mountpoint /mnt/superpod

set filesystem nfs

set mountoptions
vers=4.1,proto=rdma,max_connect=16,write=eager,rsize=262144,wsize=262144

commit

結論

搭載NetApp * AFF A90儲存系統* 的NVIDIA DGX SuperPOD代表了 AI 基礎架構解決方案的重大進步。透過解決安全性、資料管理、資源利用率和可擴展性方面的關鍵挑戰,它使組織能夠加速其人工智慧計劃,同時保持營運效率、資料保護和協作。該解決方案的整合方法消除了人工智慧開發流程中的常見瓶頸,使資料科學家和工程師能夠專注於創新而不是基礎設施管理。

附錄 A:物料清單與機架立面圖

物料清單

表 3 顯示了部署一個、兩個、三個和四個可擴充單元的儲存所需的NetApp元件的零件號碼和數量。

表 3) NetApp 1、2、3 和 4 SU 的 BOM。

部分 # 物品 1SU 數量 2SU 數量 3SU 數量 4SU 數量

AFF-A90A-100-C

AFF A90儲存系統

4

8

12

16

X4025A-2-A-C

2x7.6TB 驅動器組

48

96

144

192

X50131A-C

IO 模組,2PT,100/200/400GbE

24

48

96

128

X50130A-C

IO 模組,2PT,100GbE

16

32

48

64

X-02659-00

套件,4 柱,方孔或圓孔,24 英吋 - 32 英吋導軌

4

8

12

16

X1558A-R6

電源線,機櫃內,48 英寸,+ C13-C14,10A/250V

20

40

60

80

X190200-CS

集群交換機,N9336C 36Pt PTSX10/25/40/100G

2

4

6

8

X66211A-2

電纜,100GbE,QSFP28-QSFP28,銅,2米

16

32

48

64

X66211A-05

電纜,100GbE,QSFP28-QSFP28,銅,0.5米

4

8

12

16

X6561-R6

乙太網路電纜,CAT6,RJ45,5米

18

34

50

66

表 4 顯示了將AFF A90儲存系統連接到高效能儲存和帶內網路中的 SN5600 交換器所需的NVIDIA電纜的零件編號和數量。

表 4) 將AFF A90儲存系統連接到高效能儲存和帶內網路中的 SN5600 交換器所需的NVIDIA電纜。

部分 # 物品 1SU 數量 2SU 數量 3SU 數量 4SU 數量

MCP7Y40-N003

DAC 3m 26ga 2x400G 至 4x200G OSFP 至 4xQSFP112

12

24

36

48

或者

MMS4X00-NS

雙埠 OSFP 2x400G 2xSR4 多模收發器雙 MPO-12/APC

12

24

36

48

MFP7E20-N0XX

多模光纖分路器 400G→ 2x200G XX = 03、05、07、10、15、20、30、40、50) 米

24

48

96

128

MMA1Z00-NS400

單埠 400G SR4 多模 QSFP112 收發器單 MPO-12/APC

48

96

144

192

機架高度

圖 4-6 顯示了 1-4 SU 的範例機架立面。

圖 4) 1 SU 和 2 SU 的機架高度。

600,600

圖 5) 3 SU 的機架立面圖。

600,600

圖 6) 4 SU 的機架立面圖。

600,600