NVIDIA DGX SuperPOD with NetApp -設計ガイド
NVIDIA DGX SuperPOD with NetApp -設計ガイド
アミン・ベナニ、デヴィッド・アーネット、サティッシュ・チャガラジャン、NetApp
エグゼクティブサマリー
AIは消費者の生活を向上させ、世界中のあらゆる業界の組織がイノベーションとビジネスの成長を促進するのに役立ちますが、IT部門にとってAIは破壊的な存在です。IT部門は、ビジネスをサポートするために、AIワークロードが抱えるきわめて高い要件を満たすハイパフォーマンスコンピューティング(HPC)ソリューションの導入に急いでいます。AIで成功を勝ち取るための競争が激化する中、導入、拡張、管理が容易な解決策の必要性はますます緊急性を増しています。
NVIDIA DGX SuperPODは、あらゆる組織がスーパーコンピューティングインフラに簡単にアクセスできるようにし、AIの最も複雑な問題を解決するために必要な非常に高い計算能力を提供します。このNVIDIAとNetAppのターンキー解決策は、お客様が今すぐ大規模に導入できるよう支援するために、インフラ設計の複雑さと推測を排除し、業界最高のコンピューティング、ネットワーク、ストレージ、ソフトウェアを備えた完全な検証済み解決策を提供します。
プログラムの概要
NVIDIA DGX SuperPODとNVIDIA DGX H100システムおよびNVIDIA Base Commandは、AIコンピューティング、ネットワークファブリック、ストレージ、ソフトウェア、サポートを組み合わせた、設計に最適化されたソリューションです。BeeGFS on NetAppアーキテクチャは、NVIDIAの専用受け入れクラスタで事前に検証されています。最新のアーキテクチャは、NVIDIAの最新ハードウェアのサポートを取り入れながら、実証済みの設計を維持することで、その検証を拡張します。
解決策の概要
NVIDIA DGX SuperPODは、今日の企業が直面している最も複雑なAIワークロードをサポートするIT向けターンキー解決策として提供されるAIデータセンターインフラプラットフォームです。導入と管理を簡易化しながら、パフォーマンスと容量をほぼ無制限に拡張できます。つまり、DGX SuperPODを使用すると、インフラではなくインサイトに集中できます。 NetApp EF600オールフラッシュアレイを基盤とするNVIDIA DGX SuperPODにより、お客様は簡単かつシームレスに拡張できる即応性に優れたAI解決策を手に入れることができます。解決策は柔軟性と拡張性に優れているため、進化するワークロードに対応して適応することができ、現在だけでなく将来のストレージ要件にも対応できる強力な基盤となります。モジュラ型のストレージビルディングブロックにより、きめ細かなアプローチで拡張し、テラバイトからペタバイトにシームレスに拡張できます。ストレージビルディングブロックの数を増やすことで、ファイルシステムのパフォーマンスと容量をスケールアップし、きわめて要件の厳しいワークロードを解決策で簡単に管理できるようになります。
解決策テクノロジ
-
NVIDIA DGX SuperPODとNVIDIA DGX H100システムは、検証済みの外部接続共有ストレージでDGX H100システムを活用します。
-
各DGX SuperPODスケーラブルユニット(SU)は、32台のDGX H100システムで構成され、FP8精度で640ペタフロップスのAIパフォーマンスに対応します。通常は、特定のインストールのパフォーマンスと容量の要件に応じて、NetApp BeeGFSビルディングブロックが少なくとも2つ含まれます。
-
ソリューションの概要
-
NetApp BeeGFSビルディングブロックは、2台のNetApp EF600アレイと2台のx86サーバで構成されます。
-
NetApp EF600オールフラッシュアレイを基盤とするNVIDIA DGX SuperPODにより、99.9999%のアップタイムを支える信頼性の高いストレージ基盤が実現します。
-
NetApp EF600システムとNVIDIA DGX H100システムの間のファイルシステムレイヤは、BeeGFS並列ファイルシステムです。BeeGFSは、ドイツのFraunhofer Center for High-Performance Computingによって、従来の並列ファイルシステムの課題を解決するために開発されました。その結果、最新のユーザスペースアーキテクチャを備えたファイルシステムが誕生しました。現在はThinkParQによって開発、提供され、多くのスーパーコンピューティング環境で使用されています。
-
NetAppによるBeeGFSのサポートにより、ネットアップの優れたサポート部門は、パフォーマンスとアップタイムに関するお客様の要件に沿ったものになります。お客様は、優れたサポートリソース、BeeGFSリリースへの早期アクセス、クォータの適用や高可用性(HA)など、BeeGFSの一部のエンタープライズ機能へのアクセスを利用できます。
-
-
NVIDIA SuperPOD SUSとNetApp BeeGFSビルディングブロックを組み合わせることで、コンピューティングやストレージを簡単かつシームレスに拡張できる即応性に優れたAI解決策を実現できます。
NetApp BeeGFSビルディングブロック_
ユースケースの概要
この解決策環境のユースケースは次のとおりです。
-
機械学習(ML)、ディープラーニング(DL)、自然言語処理(NLP)、自然言語理解(NLU)、gなどの人工知能(AI) ジェネレーティブAI(GenAI)。
-
中規模から大規模のAIトレーニング
-
コンピュータビジョン、音声、音声、言語モデル
-
メッセージ・パッシング・インターフェイス(MPI)やその他の分散コンピューティング手法によって高速化されたアプリケーションを含むHPC
-
アプリケーションワークロードの特徴は次のとおりです。
-
1GBを超えるファイルの読み取りまたは書き込み
-
複数のクライアント(10s、100s、1000s)による同じファイルの読み取りと書き込み
-
-
数テラバイトまたは数ペタバイトのデータセット
-
大規模なファイルと小規模なファイルの混在に最適化可能な単一のストレージネームスペースを必要とする環境
テクノロジ要件
このセクションでは、NVIDIA DGX SuperPOD with NetApp 解決策 のテクノロジ要件について説明します。
ハードウェア要件
次の表1に、単一のSUに解決策を実装するために必要なハードウェアコンポーネントを示します。解決策のサイジングは、32台のNVIDIA DGX H100システムと2つまたは3つのNetApp BeeGFSビルディングブロックで始まります。 NetApp BeeGFSビルディングブロックは、2台のNetApp EF600アレイと2台のx86サーバで構成されます。お客様は、導入規模の拡大に合わせてビルディングブロックを追加できます。詳細については、を参照してください "NVIDIA DGX H100 SuperPODリファレンスアーキテクチャ" および "NVA-1164-DESIGN:BeeGFS on NetApp NVA Design"。
ハードウェア | 数量 |
---|---|
NVIDIA DGX H100 |
32だ |
NVIDIA Quantum QM9700スイッチ |
リーフ8枚、脊椎4枚 |
NetApp BeeGFSビルディングブロック |
3. |
ソフトウェア要件
次の表2に、解決策の実装に必要なソフトウェアコンポーネントを示します。解決策の特定の実装で使用されるソフトウェアコンポーネントは、お客様の要件に応じて異なる場合があります。
ソフトウェア |
---|
NVIDIA DGXソフトウェアスタック |
NVIDIA Baseコマンドマネージャ |
ThinkParQ BeeGFS並列ファイルシステム |
解決策の検証
NVIDIA DGX SuperPODとNetAppは、NetApp BeeGFSビルディングブロックを使用して、NVIDIAの専用受け入れクラスタで検証されました。受け入れ基準は、NVIDIAが実施した一連のアプリケーション、パフォーマンス、ストレステストに基づいています。詳細については、を参照してください "NVIDIA DGX SuperPOD:NetApp EF600とBeeGFSリファレンスアーキテクチャ"。
まとめ
NetAppとNVIDIAは、AIソリューションのポートフォリオを市場に提供するための長いコラボレーションの歴史を持っています。NVIDIA DGX SuperPODとNetApp EF600オールフラッシュアレイは、実績ある検証済みの解決策であり、お客様は安心して導入できます。完全に統合されたターンキーアーキテクチャにより、導入時のリスクが軽減され、誰もがAIリーダーとしての競争を勝ち抜くことができます。
追加情報の参照先
このドキュメントに記載されている情報の詳細については、以下のドキュメントや Web サイトを参照してください。 NVA-1164-DESIGN:BeeGFS on NetApp NVA Design https://www.netapp.com/media/71123-nva-1164-design.pdf NVA-1164-DEPLOY:BeeGFS on NetApp NVAの導入 https://www.netapp.com/media/71124-nva-1164-deploy.pdf NVIDIA DGX SuperPODリファレンスアーキテクチャ https://docs.nvidia.com/dgx-superpod/reference-architecture-scalable-infrastructure-h100/latest/index.html# NVIDIA DGX SuperPODデータセンター設計リファレンスガイド https://docs.nvidia.com/nvidia-dgx-superpod-data-center-design-dgx-h100.pdf NVIDIA DGX SuperPOD:NetApp EF600とBeeGFS https://nvidiagpugenius.highspot.com/viewer/62915e2ef093f1a97b2d1fe6?iid=62913b14052a903cff46d054&source=email.62915e2ef093f1a97b2d1fe7.4