Skip to main content
NetApp artificial intelligence solutions
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

範例用例 - TensorFlow 訓練作業

貢獻者 kevin-hoke

本節介紹在NVIDIA AI Enterprise 環境中執行 TensorFlow 訓練作業所需執行的任務。

先決條件

在執行本節中概述的步驟之前,我們假設您已經按照"設定"頁。

從模板建立來賓虛擬機

首先,您必須根據上一節中建立的範本建立新的客戶虛擬機器。若要從範本建立新的客戶虛擬機,請登入 VMware vSphere,右鍵單擊範本名稱,選擇“從此範本新虛擬機器…​”,然後按照精靈操作。

此圖顯示輸入/輸出對話框或表示書面內容

建立並掛載資料卷

接下來,您必須建立一個新的資料卷來儲存您的訓練資料集。您可以使用NetApp DataOps Toolkit 快速建立新的資料卷。下面的範例指令顯示建立一個名為「imagenet」、容量為 2 TB 的磁碟區。

$ netapp_dataops_cli.py create vol -n imagenet -s 2TB

在您用資料填入資料磁碟區之前,您必須將其安裝在來賓虛擬機器中。您可以使用NetApp DataOps Toolkit 快速安裝資料卷。下面的範例指令顯示了上一個步驟中所建立的磁碟區的安裝。

$ sudo -E netapp_dataops_cli.py mount vol -n imagenet -m ~/imagenet

填充數據量

在配置並安裝新磁碟區後,可以從來源位置擷取訓練資料集並將其放置在新磁碟區上。這通常涉及從 S3 或 Hadoop 數據湖中提取數據,有時還需要數據工程師的幫助。

執行 TensorFlow 訓練作業

現在,您已準備好執行 TensorFlow 訓練作業。若要執行 TensorFlow 訓練作業,請執行下列任務。

  1. 拉取NVIDIA NGC 企業 TensorFlow 容器鏡像。

    $ sudo docker pull nvcr.io/nvaie/tensorflow-2-1:22.05-tf1-nvaie-2.1-py3
  2. 啟動NVIDIA NGC 企業 TensorFlow 容器的執行個體。使用“-v”選項將資料卷附加到容器。

    $ sudo docker run --gpus all -v ~/imagenet:/imagenet -it --rm nvcr.io/nvaie/tensorflow-2-1:22.05-tf1-nvaie-2.1-py3
  3. 在容器內執行您的 TensorFlow 訓練程序。下面的範例指令展示了容器鏡像中所包含的範例 ResNet-50 訓練程式的執行。

    $ python ./nvidia-examples/cnn/resnet.py --layers 50 -b 64 -i 200 -u batch --precision fp16 --data_dir /imagenet/data