HDFS と MapR-FS からONTAP NFS へ
このソリューションでは、 NetApp はデータ レイク (HDFS) および MapR クラスタ データからONTAP NFS へのデータの移行を検証しました。データは MapR-FS と HDFS に保存されていました。 NetApp XCP では、HDFS や MapR-FS などの分散ファイルシステムからONTAP NFS にデータを直接移行する新しい機能が導入されました。 XCP は非同期スレッドと HDFS C API 呼び出しを使用して、MapR-FS および HDFS との通信とデータの転送を行います。
下の図は、データ レイク (HDFS) および MapR-FS からONTAP NFS へのデータ移行を示しています。この新しい機能を使用すると、ソースを NFS 共有としてエクスポートする必要がなくなります。
顧客が HDFS および MapR-FS から NFS に移行するのはなぜですか?
Cloudera や Hortonworks などの Hadoop ディストリビューションのほとんどは HDFS を使用し、MapR ディストリビューションは Mapr-FS と呼ばれる独自のファイルシステムを使用してデータを保存します。 HDFS および MapR-FS データは、機械学習 (ML) およびディープラーニング (DL) で活用できる貴重な洞察をデータ サイエンティストに提供します。 HDFS と MapR-FS のデータは共有されないため、他のアプリケーションでは使用できません。特に顧客の機密データが複数のアプリケーションで使用される銀行業界では、顧客は共有データを求めています。最新バージョンの Hadoop (3.x 以降) は NFS データ ソースをサポートしており、追加のサードパーティ ソフトウェアなしでアクセスできます。新しいNetApp XCP機能を使用すると、HDFSおよびMapR-FSからNetApp NFSにデータを直接移動して、複数のアプリケーションにアクセスできるようになります。
12 個の MAPR ノードと 4 個の NFS サーバーを使用した初期パフォーマンス テストでは、MapR-FS から NFS にデータを転送するテストが Amazon Web Services (AWS) で実行されました。
数量 | サイズ | vCPU | メモリ | ストレージ | ネットワーク | |
---|---|---|---|---|---|---|
NFS サーバ |
4 |
i3en.24xlarge |
96 |
488GiB |
8x 7500 NVMe SSD |
100 |
MapRノード |
12 |
I3en.12xlarge |
48 |
384GiB |
4x 7500 NVMe SSD |
50 |
初期テストでは、20GBps のスループットを実現し、1 日あたり 2PB のデータ転送が可能になりました。
HDFSをNFSにエクスポートせずにHDFSデータを移行する方法の詳細については、「導入手順 - NAS」セクションを参照してください。"TR-4863: TR-4863: NetApp XCP - データムーバー、ファイル移行、分析のベストプラクティスガイドライン" 。