本繁體中文版使用機器翻譯，譯文僅供參考，若與英文版本牴觸，應以英文版本為準。

範例用例 - TensorFlow 訓練作業

08/18/2025 貢獻者

本節介紹在NVIDIA AI Enterprise 環境中執行 TensorFlow 訓練作業所需執行的任務。

先決條件

在執行本節中概述的步驟之前，我們假設您已經按照"設定"頁。

首先，您必須根據上一節中建立的範本建立新的客戶虛擬機器。若要從範本建立新的客戶虛擬機，請登入 VMware vSphere，右鍵單擊範本名稱，選擇“從此範本新虛擬機器…”，然後按照精靈操作。

此圖顯示輸入/輸出對話框或表示書面內容

接下來，您必須建立一個新的資料卷來儲存您的訓練資料集。您可以使用NetApp DataOps Toolkit 快速建立新的資料卷。下面的範例指令顯示建立一個名為「imagenet」、容量為 2 TB 的磁碟區。

$ netapp_dataops_cli.py create vol -n imagenet -s 2TB

在您用資料填入資料磁碟區之前，您必須將其安裝在來賓虛擬機器中。您可以使用NetApp DataOps Toolkit 快速安裝資料卷。下面的範例指令顯示了上一個步驟中所建立的磁碟區的安裝。

$ sudo -E netapp_dataops_cli.py mount vol -n imagenet -m ~/imagenet

在配置並安裝新磁碟區後，可以從來源位置擷取訓練資料集並將其放置在新磁碟區上。這通常涉及從 S3 或 Hadoop 數據湖中提取數據，有時還需要數據工程師的幫助。

現在，您已準備好執行 TensorFlow 訓練作業。若要執行 TensorFlow 訓練作業，請執行下列任務。

拉取NVIDIA NGC 企業 TensorFlow 容器鏡像。

$ sudo docker pull nvcr.io/nvaie/tensorflow-2-1:22.05-tf1-nvaie-2.1-py3

啟動NVIDIA NGC 企業 TensorFlow 容器的執行個體。使用“-v”選項將資料卷附加到容器。

$ sudo docker run --gpus all -v ~/imagenet:/imagenet -it --rm nvcr.io/nvaie/tensorflow-2-1:22.05-tf1-nvaie-2.1-py3

在容器內執行您的 TensorFlow 訓練程序。下面的範例指令展示了容器鏡像中所包含的範例 ResNet-50 訓練程式的執行。
```
$ python ./nvidia-examples/cnn/resnet.py --layers 50 -b 64 -i 200 -u batch --precision fp16 --data_dir /imagenet/data
```