日本語は機械翻訳による参考訳です。内容に矛盾や不一致があった場合には、英語の内容が優先されます。

生成AIのトラブルシューティング

10/06/2025 共同作成者

PDF

発生する可能性のある一般的な問題を回避する方法について説明します。

一般的な問題と解決策

これらのいずれかの問題がある場合は、[Workaround]列の手順を使用して解決できます。

面積	問題	原因	回避策
導入	ボリュームがすでに存在するため導入に失敗します。	NetApp Workload Factory for GenAI は、デプロイメントプロセス中に新しいボリュームを作成する必要がありますが、指定した名前を使用したボリュームがすでに存在します。	新しいボリュームに使用する一意の名前を指定してから、導入を再試行してください。
導入	NetApp Workload Factory for GenAI がボリュームをマウントできないため、デプロイメントは失敗します。	FSx for NetApp ONTAPに必要な1つ以上のインバウンドポートが閉じているか、フィルタリングされています。	次のインバウンドポートを開きます。

面積

問題

原因

回避策

導入

ボリュームがすでに存在するため導入に失敗します。

NetApp Workload Factory for GenAI は、デプロイメントプロセス中に新しいボリュームを作成する必要がありますが、指定した名前を使用したボリュームがすでに存在します。

新しいボリュームに使用する一意の名前を指定してから、導入を再試行してください。

導入

NetApp Workload Factory for GenAI がボリュームをマウントできないため、デプロイメントは失敗します。

FSx for NetApp ONTAPに必要な1つ以上のインバウンドポートが閉じているか、フィルタリングされています。

次のインバウンドポートを開きます。

| プロトコル | ポート | 目的

| すべての ICMP | すべて | インスタンスの ping を実行します

| HTTPS | 443 | fsxadmin管理LIFへのコネクタからアクセスし、API呼び出しをFSXに送信します

| SSH | 22 | クラスタ管理 LIF またはノード管理 LIF の IP アドレスへの SSH アクセス

| TCP | 111 | NFS のリモートプロシージャコール

| TCP | 139 | CIFS の NetBIOS サービスセッション

| TCP | 161-162 | 簡易ネットワーク管理プロトコル

| TCP | 445 | NetBIOS フレーム同期を使用した Microsoft SMB over TCP

| TCP | 635 | NFSマウント

| TCP | 749 | Kerberos

| TCP | 2049 | NFSサーバデーモン

| TCP | 3260 | iSCSI データ LIF を介した iSCSI アクセス

| TCP | 4045 | NFSロックデーモン

| TCP | 4046 | NFS のネットワークステータスモニタ

| TCP | 10000 | NDMP を使用したバックアップ

| TCP | 11104 | SnapMirror のクラスタ間通信セッションの管理

| TCP | 11105 | クラスタ間 LIF を使用した SnapMirror データ転送

| UDP | 111 | NFS のリモートプロシージャコール

| UDP | 161-162 | 簡易ネットワーク管理プロトコル

| UDP | 635 | NFSマウント

| UDP | 2049 | NFSサーバデーモン

| UDP | 4045 | NFSロックデーモン

| UDP | 4046 | NFS のネットワークステータスモニタ

| UDP | 4049 | NFS rquotadプロトコル

メンテナンス

AIエンジンが起動せず、*ナレッジベース*ページに「AIエンジンインスタンスエラー」というエラーが表示されます。

AIエンジンインスタンスが破損しているか、存在しません。

*再構築*ボタンを選択します。 NetApp Workload Factory for GenAI はインフラストラクチャを再構築し、再構築の進行状況を表示します。完了すると、ナレッジベースが再構築されたインフラストラクチャに再接続され、ナレッジベースのリストが表示されます。

メンテナンス

AIエンジンが起動せず、*ナレッジベース*ページに「The生成AI engine instance is stopped」というエラーが表示されます。

AIエンジンインスタンスが実行されていません。

AWS Management ConsoleまたはAWS CLIを使用して、AIエンジンインスタンスを起動します。

メンテナンス

AIエンジンが起動せず、*ナレッジベース*ページに「The生成AI engine server is not responding」というエラーが表示されます。

AIエンジンインスタンスが応答していません。

次のリカバリ手順を実行します。

手順

生成AIエンジンインスタンスのセキュリティグループを変更して、生成AIエンジンインスタンスへのSSHアクセスを有効にします。
SSHを使用してインスタンスにログインします。
次のコマンドを実行します。
```
docker-compose up
```

メンテナンス

NetApp Workload Factory for GenAI で使用されるバックエンド Docker インスタンスの起動に失敗しました。

ボリュームが削除され、EC2インスタンスが再起動されました。

次のリカバリ手順を実行します。

手順

FSx for NetApp ONTAP上に新しいボリュームを作成します。たとえば netapp_ai、ボリューム名は、ボリュームパスはになります /netapp_ai。
Amazon EC2インスタンスにSSHで接続します。
ボリュームを表示します。
```
docker volume list
```

古いボリュームを削除します。

docker volume rm ec2-user_persistent_folder

`docker-compose.yml`テキストエディタを使用してファイルを開きます。

`volumes`セクションで、デバイスパスを新しいボリュームパスに変更します。例：

volumes:
  persistent_folder:
    driver_opts:
      type: 'nfs'
      o: "addr=svm-0df66b96a890d8a72.\
      fs-0d673008aaca12bc3.\
      fsx.us-east-1.amazonaws.com,nolock,soft,rw"
      device: ':/netapp_ai' # Path to new volume

メンテナンス

NetApp Workload Factory for GenAI で使用されるバックエンド Docker インスタンスの起動に失敗しました。

ルートボリュームが削除されました。

名前とパスを指定してボリュームを作成し、Amazon EC2からバックエンドDockerインスタンスを再起動します。

メンテナンス

NetApp Workload Factory for GenAI で使用されるバックエンド Docker インスタンスの起動に失敗しました。

ルートボリュームが削除されました。

名前とパスを指定してボリュームを作成し、Amazon EC2からバックエンドDockerインスタンスを再起動します。

生成AIのトラブルシューティング

Creating your file...

一般的な問題と解決策