AI Data Engineでワークスペースを作成する
クラスターをセットアップしたら、ワークスペースを作成できます。ワークスペースを使用すると、クラスター上のデータをセグメント化し、個人のデータアクセスを制御し、AI Data Engine(AIDE)がアクセスすべきでないデータを除外できます。
ストレージを管理する場合は、ONTAP System Managerを使用してワークスペースを作成および管理します。
組織は、チーム、プロジェクト、データの機密性レベル、またはその他の関連基準に基づいてワークスペースを作成します。例えば、医療関係の仕事をしているなら、医療データをワークスペースに分類しますが、IT、法務、その他の部門に関係するデータは除外します。
システム処理の制限はワークスペースの作成に影響します(通常、クラスターあたり 1 日あたり最大 15 GB)。複数のワークスペースを並行して、または立て続けに作成すると、各ワークスペースの処理に時間がかかり、大幅な遅延が発生する可能性があります。
ワークスペース インベントリ ページからワークスペース作成のステータスを監視します。最良の結果を得るには、これらの機能にすぐにアクセスする必要がある場合は、一度に多くのワークスペースを作成しないようにしてください。
-
ワークスペースを作成し、データ コレクションを関連付けるには、storage administrator 権限が必要です。
-
ワークスペースおよびAIDEで使用するリモート(ピアリング)データ ソースとローカル データ ソースを決定しました。
-
ローカル ボリュームやピア クラスターのボリュームなど、ワークスペースが使用できる"少なくとも1つのデータ コンテナを作成済み"。
ワークスペースの想定される有効期間中に削除されないボリュームをワークスペースに追加します。ボリュームをワークスペースに追加した後に削除すると、ワークスペースは失敗状態になります。ワークスペースを確立する前に、ボリュームの長期的な実行可能性を確認してください。 -
ボリューム上でNFSが有効になっているが、CIFSが有効になっていないことを確認します。ワークスペースはNFSを使用したボリュームのみをサポートします。CIFS(SMB)のボリュームはサポートされていません。
ワークスペースを作成する
ワークスペースを作成し、AIDE で使用するデータを含むデータ コンテナを関連付けます。
-
ONTAP System Managerで、*Data Engine > ワークスペース*に移動します。
-
*追加*を選択します。
-
*ワークスペースの追加*ダイアログで、ワークスペースに関連付ける利用可能なデータ コンテナを少なくとも1つ選択します。
-
"ピア クラスタ"を設定して、これらのクラスタのデータにワークスペース内からアクセスできるようにします
-
ワークスペースへのユーザーアクセスを設定する場合は、今すぐ設定するか、"ワークスペースが作成されるまで待つ"。
-
ワークスペースが関連付けられているデータ コンテナと同期して新しいデータまたは更新されたデータを取得する頻度の更新間隔を設定します(たとえば、6時間)。
データの鮮度とシステム パフォーマンスのバランスが取れる間隔を選択します。データ コンテナを複数のワークスペースに追加すると、システムは最も積極的な(最短の)間隔を自動的に使用します。詳細については、ワークスペースの更新とバージョン管理に関するドキュメントを参照してください。 -
*Continue*を選択します。
-
*ワークスペースの確定*ダイアログで、ワークスペース名と説明を入力します。
-
ワークスペースを作成するには、*追加*を選択します。
ワークスペースの作成プロセスは、関連付けられているデータセットとそのファイル数、ファイル サイズ、その他の要因に応じて、完了するまでに数分から数時間かかります。
システムは、すべてのデータソースからメタデータを自動的に抽出し、メタデータカタログに保存します。ユーザーはこのカタログを使用して、プロジェクトに必要なファイルを検索できます。ユーザーをワークスペースに割り当てると、データ エンジニア ユーザーはAI Data Engine Consoleからワークスペースに関連付けられたコンポーネントを設定および操作できるようになります。
新しいワークスペースは、プロセスが完了し状態が `ready`に変わるまで、ワークスペースページに `Creating`の状態で表示されます。
ワークスペースの詳細を確認する
ワークスペースを作成したら、ワークスペースの詳細を確認します。
-
ワークスペースの詳細(合計サイズ、使用されているクラスタ容量の割合、最新のワークスペース更新の日付など)を確認します。
-
ワークスペース名を選択して詳細ページを開きます。
-
[概要] タブでは、関連付けられているデータ コンテナ、ユーザー、アクティビティを含むワークスペースの詳細を表示します。
ワークスペースの更新とバージョン管理
ワークスペースを更新するたびに、ワークスペース内のすべてのファイルとオブジェクトの現在の状態をキャプチャする不変のバージョンが作成されます。バージョンには、完全なメタデータ、抽出中に使用されるスナップショットへの参照、および追跡可能性のためのジョブIDが含まれます。これにより、データの系統、再現性、監査がサポートされます。
更新は、設定したスケジュール(6時間ごとなど)に従って実行されるか、手動でトリガーされたときに実行されます。サポートされる最小の更新間隔は1時間、最大は1年です。データ コンテナが複数のワークスペースに含まれている場合、システムはメタデータ抽出のスケジュール設定に最も頻繁で最短期間の更新間隔を使用します。
デフォルトでは、システムは以前のバージョン、現在のバージョン、および次の(進行中の)バージョンを保持します。システムは組織のポリシーに従って古いバージョンを保持し、必要に応じて削除できます。
ワークスペースのすべてのバージョンを一覧表示し、バージョン間の相違点を表示して、追加、変更、または削除されたファイルまたはオブジェクトを識別できます。これにより、時間の経過に伴う変更を追跡し、ワークスペース データの進化を把握できます。