在 AI Data Engine 中建立工作區
設定好叢集後,就可以建立工作區了。工作區允許你對叢集上的資料進行分段,控制個人的資料存取權限,並排除 AI Data Engine Console(AIDE)不應存取的資料。
如果您負責管理儲存設備,您將使用 ONTAP System Manager 來建立和管理工作區。
組織會根據團隊、專案、資料敏感程度或其他相關標準建立工作區。例如,如果您在醫療保健行業工作,您可能會將臨床資料劃分到一個工作區,而將與 IT、法律或其他部門相關的資料排除在外。
系統處理能力限制會影響工作區的建立(通常每個叢集每天最多 15 GB)。如果您並行或快速連續建立多個工作區,則每個工作區的處理時間可能會更長,並且您可能會遇到明顯的延遲。
從 Workspaces 清單頁面監控工作區建立狀態。為了獲得最佳效果,如果您需要立即存取這些功能,請避免一次建立多個工作區。
-
您需要擁有 storage administrator 權限才能建立工作區和關聯資料集合。
-
您已確定要與工作區和 AI Data Engine 搭配使用的遠端(對等)和本機資料來源。
-
您已"已建立至少一個資料容器"工作區可以使用的資源,例如本機磁碟區或來自對等叢集的磁碟區。
將磁碟區新增至工作區,並確保在工作區的預期生命週期內不會刪除該磁碟區。如果在將磁碟區新增至工作區後將其刪除,則該工作區將進入失敗狀態。在建立工作區之前,請確認該磁碟區的長期可用性。 -
請確保磁碟區上已啟用 NFS,但未啟用 CIFS。Workspaces 僅支援啟用 NFS 的磁碟區。不支援啟用 CIFS(SMB)的磁碟區。
建立工作區
建立工作區並關聯包含您要與 AI Data Engine 搭配使用之資料的資料容器。
-
在 ONTAP System Manager 中,導覽至 Data Engine > Workspaces。
-
選擇 Add 。
-
在「新增工作區」對話方塊中,選取至少一個可用的資料容器以與工作區建立關聯。
-
配置 "對等叢集" 以便可以在工作區內存取這些叢集中的資料
-
如果您想設定使用者對工作區的存取權限,您可以現在就進行配置,或者"等到工作區建立完成後再進行操作"。
-
配置工作區與關聯資料容器同步以擷取新資料或更新資料的刷新間隔(例如六小時)。
選擇一個平衡資料新鮮度與系統效能的間隔。如果您將資料容器新增至多個工作區,系統會自動使用最積極(最短)的間隔。若要深入瞭解,請參閱有關 工作區重新整理和版本控制 的說明文件。 -
選擇 Continue 。
-
在 Finalize workspace 對話方塊中、輸入工作區名稱和說明。
-
選擇 Add 以建立工作區。
工作區建立過程需要幾分鐘到幾小時才能完成,具體取決於關聯的資料集及其檔案數量、檔案大小和其他因素。
系統會自動提取所有資料來源的元數據,並將其儲存在元資料目錄中,使用者可以透過該目錄尋找專案所需的檔案。將使用者指派到工作區後,資料工程師使用者即可從 AI Data Engine Console 設定工作區相關元件並與其互動。
新工作區會以 Creating`狀態顯示在「工作區」頁面上,直到流程完成,狀態才會變成 `ready。
檢閱工作區詳細資料
建立工作區後,請檢閱工作區詳細資料。
-
檢閱工作區詳細資料,包括總大小、使用的叢集容量百分比,以及最近一次工作區重新整理的日期。
-
選擇工作區名稱以開啟詳細資訊頁面。
-
在「概覽」標籤中,檢視工作區詳細資訊,包括相關的資料容器、使用者和活動。
工作區重新整理和版本控制
每次工作區刷新都會建立一個不可變版本,該版本記錄了工作區中所有檔案和物件的當前狀態。版本包含完整的中繼資料、擷取過程中使用的快照參考以及用於追溯的作業 ID。這支援資料沿襲、可重現性和稽核。
刷新可以按照您配置的計劃進行(例如每六小時一次),也可以手動觸發。支援的最小刷新間隔為一小時,最大為一年。如果一個資料容器包含在多個工作區中,系統會使用最頻繁、持續時間最短的刷新間隔來安排元資料擷取。
預設情況下,系統會保留先前版本、目前版本和下一個(進行中的)版本。系統會根據貴組織的策略保留舊版本,並可根據需要將其清除。
您可以列出工作區的所有版本,並查看版本之間的差異,從而確定哪些檔案或物件已新增、修改或刪除。這樣,您可以追蹤工作區隨時間的變化,並了解其演變過程。