日本語は機械翻訳による参考訳です。内容に矛盾や不一致があった場合には、英語の内容が優先されます。

使用例 - TensorFlow トレーニングジョブ

08/18/2025 共同作成者

PDF

このセクションでは、 NVIDIA AI Enterprise 環境内で TensorFlow トレーニングジョブを実行するために実行する必要があるタスクについて説明します。

前提条件

このセクションで説明する手順を実行する前に、ゲストVMテンプレートが、"セットアップ"ページ。

テンプレートからゲストVMを作成する

まず、前のセクションで作成したテンプレートから新しいゲスト VM を作成する必要があります。テンプレートから新しいゲスト VM を作成するには、VMware vSphere にログインし、テンプレート名を右クリックして、「このテンプレートから新しい VM を作成…」を選択し、ウィザードに従います。

入出力ダイアログまたは書かれたコンテンツを示す図

データボリュームの作成とマウント

次に、トレーニングデータセットを保存する新しいデータボリュームを作成する必要があります。 NetApp DataOps Toolkit を使用すると、新しいデータボリュームをすばやく作成できます。次の例のコマンドは、容量が 2 TB の「imagenet」という名前のボリュームの作成を示しています。

$ netapp_dataops_cli.py create vol -n imagenet -s 2TB

データボリュームにデータを入力する前に、それをゲスト VM 内にマウントする必要があります。 NetApp DataOps Toolkit を使用して、データボリュームをすばやくマウントできます。次のサンプルコマンドは、前の手順で作成されたボリュームのマウントを示しています。

$ sudo -E netapp_dataops_cli.py mount vol -n imagenet -m ~/imagenet

データボリュームを入力する

新しいボリュームがプロビジョニングされマウントされたら、トレーニングデータセットをソースの場所から取得し、新しいボリュームに配置できます。これには通常、S3 または Hadoop データレイクからデータを取得することが含まれ、場合によってはデータエンジニアの支援が必要になることもあります。

TensorFlowトレーニングジョブを実行する

これで、TensorFlow トレーニングジョブを実行する準備が整いました。 TensorFlow トレーニングジョブを実行するには、次のタスクを実行します。

NVIDIA NGC エンタープライズ TensorFlow コンテナーイメージをプルします。
```
$ sudo docker pull nvcr.io/nvaie/tensorflow-2-1:22.05-tf1-nvaie-2.1-py3
```
NVIDIA NGC エンタープライズ TensorFlow コンテナのインスタンスを起動します。 '-v' オプションを使用して、データボリュームをコンテナーに接続します。
```
$ sudo docker run --gpus all -v ~/imagenet:/imagenet -it --rm nvcr.io/nvaie/tensorflow-2-1:22.05-tf1-nvaie-2.1-py3
```
コンテナ内で TensorFlow トレーニングプログラムを実行します。次のサンプルコマンドは、コンテナイメージに含まれているサンプル ResNet-50 トレーニングプログラムの実行を示しています。
```
$ python ./nvidia-examples/cnn/resnet.py --layers 50 -b 64 -i 200 -u batch --precision fp16 --data_dir /imagenet/data
```