NVIDIA DGX SuperPOD with NetApp -設計ガイド
このNetApp検証済みアーキテクチャでは、NVIDIA DGX SuperPODとNetApp®BeeGFS®ビルディングブロックの設計について説明します。このソリューションは、NVIDIAの専用受け入れクラスタで検証された、フルスタックのデータセンタープラットフォームです。
アミン・ベナニ、クリスチャン・ホワイトサイド、デイヴィッド・アーネット、サティッシュ・チャガラジャン、NetApp
エグゼクティブサマリー
急速に進化する今日の技術環境において、AIは消費者体験に革命をもたらし、あらゆる業界のイノベーションを推進しています。しかし、AIワークロードの厳しい要求に対応できるハイパフォーマンスコンピューティング(HPC)ソリューションの導入を迫られているIT部門にとっても、このソリューションは大きな課題となります。企業がAIのパワーを活用しようとすると、導入、拡張、管理が容易なソリューションに対する切迫感が増しています。
NVIDIA DGX SuperPODは、今日の企業が直面している最も複雑なAIワークロードをサポートするIT向けターンキーソリューションとして提供されるAIデータセンターインフラプラットフォームです。正確なディープラーニング(DL)モデルの中核をなすのは大量のデータです。そのためには、このデータの提供と再提供を効率的に行える、高スループットのストレージソリューションが必要です。NetApp EF600ストレージアレイとBeeGFS並列ファイルシステムで構成されるNetApp BeeGFSソリューションは、NVIDIA DGX SuperPODの能力を最大限に引き出すことを可能にします。NetApp BeeGFSソリューションは、SuperPODアーキテクチャとの統合と拡張を実現するためにNVIDIAによって検証されています。その結果、AIデータセンターの導入と管理が簡易化され、パフォーマンスと容量のほぼ無制限の拡張性が実現します。
解決策の概要
ハイパフォーマンスなNetApp EF600 NVMeストレージシステムと拡張性に優れたBeeGFS並列ファイルシステムを基盤とするNetApp BeeGFSソリューションは、要件の厳しいAIワークロードに対応する堅牢で効率的なストレージ基盤を提供します。共有ディスクアーキテクチャにより、高可用性が確保され、システムの課題が発生しても一貫したパフォーマンスとアクセス性が維持されます。このソリューションは、多様なストレージ要件に合わせてカスタマイズできる、拡張性と柔軟性に優れたアーキテクチャを提供します。要件の厳しいワークロードにも対応できるように、追加のストレージビルディングブロックを統合することで、ストレージのパフォーマンスと容量を簡単に拡張できます。
解決策テクノロジ
-
NVIDIA DGX SuperPODは、検証済みの外部接続共有ストレージでDGX H100およびH200システムを活用します。
-
各DGX SuperPODスケーラブルユニット(SU)は32台のDGXシステムで構成され、FP8の精度で640ペタフロップスのAIパフォーマンスに対応します。NetAppでは、単一のDGX SuperPOD構成に対して、NetApp BeeGFSストレージソリューションのサイジングを少なくとも2つのビルディングブロックで行うことを推奨しています。
-
ソリューションの概要
-
NetApp BeeGFSビルディングブロックは、2台のNetApp EF600アレイと2台のx86サーバで構成されます。
-
NetApp EF600オールフラッシュアレイを基盤とするNVIDIA DGX SuperPODにより、99.9999%のアップタイムを支える信頼性の高いストレージ基盤が実現します。
-
NetApp EF600システムとNVIDIA DGXシステムの間のファイルシステムレイヤは、BeeGFS並列ファイルシステムです。BeeGFSは、ドイツのFraunhofer Center for High-Performance Computingによって、従来の並列ファイルシステムの課題を解決するために開発されました。その結果、最新のユーザスペースアーキテクチャを備えたファイルシステムが誕生しました。現在はThinkParQによって開発、提供され、多くのスーパーコンピューティング環境で使用されています。
-
NetAppによるBeeGFSのサポートにより、ネットアップの優れたサポート部門は、パフォーマンスとアップタイムに関するお客様の要件に沿ったものになります。お客様は、優れたサポートリソース、BeeGFSリリースへの早期アクセス、クォータの適用や高可用性(HA)など、BeeGFSの一部のエンタープライズ機能へのアクセスを利用できます。
-
-
NVIDIA SuperPOD SUSとNetApp BeeGFSビルディングブロックを組み合わせることで、コンピューティングやストレージを簡単かつシームレスに拡張できる即応性に優れたAI解決策を実現できます。
NetApp BeeGFSビルディングブロック_
ユースケースの概要
この解決策環境のユースケースは次のとおりです。
-
機械学習(ML)、ディープラーニング(DL)、自然言語処理(NLP)、自然言語理解(NLU)、生成AI(生成AI)などの人工知能(AI)。
-
中規模から大規模のAIトレーニング
-
コンピュータビジョン、音声、音声、言語モデル
-
メッセージ・パッシング・インターフェイス(MPI)やその他の分散コンピューティング手法によって高速化されたアプリケーションを含むHPC
-
アプリケーションワークロードの特徴は次のとおりです。
-
1GBを超えるファイルの読み取りまたは書き込み
-
複数のクライアント(10s、100s、1000s)による同じファイルの読み取りと書き込み
-
-
数テラバイトまたは数ペタバイトのデータセット
-
大規模なファイルと小規模なファイルの混在に最適化可能な単一のストレージネームスペースを必要とする環境
テクノロジ要件
このセクションでは、NVIDIA DGX SuperPOD with NetApp 解決策 のテクノロジ要件について説明します。
ハードウェア要件
次の表1に、単一のSUに解決策を実装するために必要なハードウェアコンポーネントを示します。解決策のサイジングは、32台のNVIDIA DGX H100システムと2つまたは3つのNetApp BeeGFSビルディングブロックで始まります。
NetApp BeeGFSビルディングブロックは、2台のNetApp EF600アレイと2台のx86サーバで構成されます。お客様は、導入規模の拡大に合わせてビルディングブロックを追加できます。詳細については、を参照してください "NVIDIA DGX H100 SuperPODリファレンスアーキテクチャ" および "NVA-1164-DESIGN:BeeGFS on NetApp NVA Design"。
ハードウェア | 数量 |
---|---|
NVIDIA DGX H100またはH200 |
32だ |
NVIDIA Quantum QM9700スイッチ |
リーフ8枚、脊椎4枚 |
NetApp BeeGFSビルディングブロック |
3. |
ソフトウェア要件
次の表2に、解決策の実装に必要なソフトウェアコンポーネントを示します。解決策の特定の実装で使用されるソフトウェアコンポーネントは、お客様の要件に応じて異なる場合があります。
ソフトウェア |
---|
NVIDIA DGXソフトウェアスタック |
NVIDIA Baseコマンドマネージャ |
ThinkParQ BeeGFS並列ファイルシステム |
解決策の検証
NVIDIA DGX SuperPODとNetAppは、NetApp BeeGFSビルディングブロックを使用して、NVIDIAの専用受け入れクラスタで検証されました。受け入れ基準は、NVIDIAが実施した一連のアプリケーション、パフォーマンス、ストレステストに基づいています。詳細については、を参照してください "NVIDIA DGX SuperPOD:NetApp EF600とBeeGFSリファレンスアーキテクチャ"。
まとめ
NetAppとNVIDIAは、AIソリューションのポートフォリオを市場に提供するための長いコラボレーションの歴史を持っています。NVIDIA DGX SuperPODとNetApp EF600オールフラッシュアレイは、実績ある検証済みの解決策であり、お客様は安心して導入できます。完全に統合されたターンキーアーキテクチャにより、導入時のリスクが軽減され、誰もがAIリーダーとしての競争を勝ち抜くことができます。
追加情報の参照先
このドキュメントに記載されている情報の詳細については、以下のドキュメントや Web サイトを参照してください。