NetApp Sparkソリューションの概要
ネットアップには、FAS / AFF、Eシリーズ、Cloud Volumes ONTAP の3つのストレージポートフォリオがあります。AFF とONTAP を搭載したEシリーズは、Apache Spark搭載のHadoopソリューション向けに検証済みです。
ネットアップのデータファブリックは、以下の図に示すように、データアクセス、制御、保護、セキュリティのためのデータ管理サービスとアプリケーション(ビルディングブロック)を統合しています。
上の図の構成要素は次のとおりです。
-
* NetApp NFS直接アクセス*ソフトウェアやドライバの追加要件なしで、NetApp NFSボリュームに直接アクセスできる最新のHadoopクラスタとSparkクラスタを提供します。
-
* NetApp Cloud Volumes ONTAPとGoogle Cloud NetApp Volumes *Amazon Web Services(AWS)またはMicrosoft AzureクラウドサービスのAzure NetApp Files(ANF)で実行されるONTAPベースのSoftware-Defined接続ストレージ。
-
* NetApp SnapMirrorテクノロジー*オンプレミスと ONTAP クラウドインスタンスまたは NPS インスタンス間でデータ保護機能を提供します。
-
*クラウド・サービス・プロバイダー*これらのプロバイダには、AWS、Microsoft Azure、Google Cloud、IBM Cloudなどがあります。
-
* PaaS *AWSのAmazon Elastic MapReduce(EMR)やDatabricks、Microsoft Azure HDInsight、Azure Databricksなどのクラウドベースの分析サービス
次の図は、Sparkの解決策 とネットアップストレージを示しています。
ONTAP Spark解決策 は、既存の本番データへのアクセスを使用して、インプレース分析、AI、ML、DLのワークフローに、ネットアップNFSダイレクトアクセスプロトコルを使用しています。Hadoopノードで使用可能な本番データは、インプレース分析ジョブ、AIジョブ、MLジョブ、DLジョブを実行するためにエクスポートされます。データにアクセスしてHadoopノード内で処理することができ、NetApp NFSに直接アクセスするかどうかは関係ありません。スタンドアロンまたはクラスタマネージャを使用するSparkで yarn`は、を使用してNFSボリュームを設定できます `\file://<target_volume>
。3つのユースケースに異なるデータセットを使用して検証しました。これらの検証の詳細については、「テスト結果」セクションを参照してください。(xref)
次の図は、NetApp Apache Spark / Hadoopストレージの位置付けを示しています。
また、EシリーズSparkの解決策 、AFF / FAS ONTAP Spark解決策 、StorageGRID Spark解決策 の独自の機能を特定し、詳細な検証とテストを実施しました。ネットアップでは、今回の調査結果に基づいStorageGRID て、新規導入時と拡張性に優れた新規導入時にEシリーズ解決策 を使用し、既存のNFSデータを使用したインプレース分析、AI、ML、DL、DLのワークロードにはAFF / FAS解決策 を、オブジェクトストレージが必要な場合には最新のデータ分析に使用することを推奨しています。
データレイクは、分析、AI、ML、DLの各ジョブに使用できる、ネイティブ形式の大規模データセット用のストレージリポジトリです。Eシリーズ、AFF / FAS、StorageGRID SG6060 Sparkソリューション用のデータレイクリポジトリを構築しました。Eシリーズシステムでは、Hadoop SparkクラスタへのHDFSアクセスが提供されますが、既存の本番環境のデータには、NFSの直接アクセスプロトコルを通じてHadoopクラスタへアクセスされます。オブジェクトストレージに配置されるデータセットに対しては、NetApp StorageGRID によってS3とS3aのセキュアなアクセスが提供されます。