TR-4732 :『 Big data analytics data to 人工知能』
ネットアップ Karthikeyan Nagalingam
このドキュメントでは、ビッグデータ分析データと HPC データを AI に移行する方法について説明します。AI は、 NFS エクスポートを介して NFS データを処理しますが、お客様の AI データは、 HDFS 、 Blob 、 S3 ストレージなどのビッグデータ分析プラットフォームや、 GPFS などの HPC プラットフォームに格納されていることがよくあります。このホワイトペーパーでは、 NetApp XCP と NIPAM を使用して、ビッグデータ分析データと HPC データを AI に移行するためのガイドラインを説明します。また、ビッグデータや HPC から AI にデータを移行することで得られるビジネス上のメリットについても説明します。
概念とコンポーネント
ビッグデータ分析ストレージ
ビッグデータ分析は、 HDFS の主要なストレージプロバイダです。お客様は多くの場合、 Windows Azure Blob Storage 、 MapR File System ( MapR - FS )、 S3 オブジェクトストレージなどの Hadoop 対応ファイルシステム( HCFS )を使用しています。
一般的な並列ファイルシステム
IBM の GPFS は、 HDFS の代わりとなるエンタープライズファイルシステムです。GPF は、アプリケーションがブロックサイズとレプリケーションレイアウトを決定できる柔軟性を備えており、優れたパフォーマンスと効率を実現します。
NetApp In-Place Analytics Module の略
NetApp In-Place Analytics Module ( NIPAM )は、 NFS データにアクセスする Hadoop クラスタのドライバとして機能します。接続プール、 NFS InputStream 、ファイル・ハンドル・キャッシュ、 NFS OutputStream の 4 つのコンポーネントで構成されています。詳細については、を参照してください https://www.netapp.com/pdf.html?item=/media/16351-tr-4382pdf.pdf。
Hadoop 分散コピー
Hadoop Distributed Copy ( DistCp )は、クラスタ間およびクラスタ内の大規模なコピー作業に使用される分散コピーツールです。このツールは、データの配信、エラー処理、およびレポートに MapReduce を使用します。ファイルとディレクトリのリストが展開され、タスクをマッピングしてソースリストからデータをコピーするように入力されます。次の図は、 HDFS と HDFS 以外の間の DistCp 処理を示しています。
Hadoop DistCp は、追加のドライバを使用せずに 2 つの HDFS システム間でデータを移動します。ネットアップは HDFS 以外のシステム向けのドライバを提供しています。NFS デスティネーションの場合、 NIPAM は、データのコピー時に Hadoop DistCp が NFS デスティネーションとの通信に使用するデータをコピーするためのドライバを提供します。
Google Cloud NetAppボリューム
Google Cloud NetApp Volumesは、卓越したパフォーマンスを発揮するクラウドネイティブのファイルサービスです。このサービスを利用すると、お客様はリソースのスピンアップとスピンダウンを迅速に行い、ネットアップの機能を使用して生産性を高め、スタッフのダウンタイムを短縮し、市場投入までの期間を短縮できます。Google Cloud NetApp Volumeは、ディザスタリカバリとクラウドへのバックアップに最適な代替手段です。これは、データセンターの全体的な設置面積を削減し、ネイティブのパブリッククラウドストレージの消費量を削減するためです。
NetApp XCP
NetApp XCP は、高速で信頼性の高いネットアップおよびネットアップからネットアップへのデータ移行を可能にするクライアントソフトウェアです。このツールは、あらゆる NAS システムからネットアップストレージコントローラに大量の非構造化 NAS データをコピーするために設計されています。XCP Migration Tool では、マルチコアのマルチチャネル I/O ストリーミングエンジンが使用されており、データの移行、ファイルやディレクトリの一覧表示、スペースレポートなど、多数の要求を並行して処理できます。これは、デフォルトのネットアップデータ移行ツールです。XCP を使用して、 Hadoop クラスタと HPC から NetApp NFS ストレージにデータをコピーできます。次の図は、 Hadoop クラスタと HPC クラスタから XCP を使用した NetApp NFS ボリュームへのデータ転送を示しています。
NetApp BlueXPのコピーと同期
NetApp BlueXPのコピーと同期は、ハイブリッドデータレプリケーションのソフトウェアサービスで、オンプレミスストレージとクラウドストレージ間でNFS、S3、CIFSのデータをシームレスかつセキュアに転送、同期します。このソフトウェアは、データの移行、アーカイブ、コラボレーション、分析などに使用されます。データの転送が完了すると、BlueXPのCopy and Syncはソースとデスティネーションの間でデータを継続的に同期します。次に、デルタを転送します。また、自社ネットワーク内、クラウド内、オンプレミス内でもデータを保護できます。このソフトウェアは従量課金制モデルをベースとしており、対費用効果の高い解決策を提供し、データ転送の監視とレポートの機能を提供します。