システムモニタ
Data Infrastructure Insightsには、指標とログの両方について、システム定義の監視が多数含まれています。使用可能なシステムモニタは、テナントに存在するデータコレクタによって異なります。そのため、Data Infrastructure Insightsで使用できるモニタは、データコレクタの追加や設定の変更に応じて変更される場合があります。
多くのシステムモニタは、デフォルトでIN_PAUSED_STATEになっています。システムモニタを有効にするには、モニタの_Resume_optionを選択します。Data Collectorで_Advanced Counter Data Collection_and_Enable ONTAP EMSログcollection_が有効になっていることを確認します。これらのオプションは、ONTAP Data Collectorの_Advanced Configuration_にあります。 |
モニタの説明
システム定義のモニタは、事前に定義されたメトリックと条件に加えて、デフォルトの説明と修正アクションで構成されています。これらは変更できません。システム定義モニタの通知受信者リストを変更できます。メトリック、条件、概要、および修正アクションを表示したり、受信者リストを変更したりするには、システム定義のモニタグループを開き、リスト内のモニタ名をクリックします。
システム定義のモニタグループは変更または削除できません。
以下のシステム定義モニタは、記載されたグループで使用できます。
-
* ONTAP インフラストラクチャ * は、 ONTAP クラスタのインフラストラクチャ関連の問題を監視します。
-
* ONTAP ワークロードの例 * には、ワークロード関連の問題のモニターが含まれています。
-
両方のグループのモニタのデフォルトは _Paused _ state です。
現在Data Infrastructure Insightsに含まれているシステム監視は次のとおりです。
メトリックモニタ
モニタ名 |
重大度 |
概要を監視します |
対処方法 |
ファイバチャネルポートの利用率が高い |
重大 |
ファイバチャネルプロトコルポートは、お客様のホストシステムと ONTAP LUN の間で SAN トラフィックを送受信するために使用されます。ポートの利用率が高い場合は、 そして、これはボトルネックになり、最終的にはファイバチャネルプロトコルの負荷の影響を受けやすいパフォーマンスに影響を与えます。…警告アラートは、ネットワークトラフィックのバランスを取るために計画されたアクションを実行する必要があることを示します。…重大アラートは、サービスの中断が差し迫っていること、およびネットワークのバランスを取るための緊急措置を示します サービスの継続性を確保するためのトラフィック。 |
重大のしきい値を超えた場合は、サービスの中断を最小限に抑えるための緊急の対処方法を検討してください: 1 。利用率の低い別の FCP ポートにワークロードを移動します。2.特定のLUNのトラフィックは、ONTAPのQoSポリシーまたはホスト側の構成を使用して重要な作業のみに制限し、FCPポートの使用率を軽減します。警告しきい値を超えた場合は、次の操作を実行するように計画してください: 1.データトラフィックを処理する FCP ポートを増やして、ポート利用率をより多くのポートに分散させます。2.利用率の低い別の FCP ポートにワークロードを移動します。3.特定のLUNのトラフィックは、ONTAPのQoSポリシーまたはホスト側設定を使用して重要な作業だけに制限し、FCPポートの利用率を軽減します。 |
LUN レイテンシが高くなっています |
重大 |
LUN は、 I/O トラフィックを処理するオブジェクトで、多くの場合、データベースなどのパフォーマンス重視のアプリケーションによって駆動されます。LUN のレイテンシが高いと、アプリケーション自体が影響を受け、タスクを実行できなくなる可能性があります。…警告アラートは、 LUN を適切なノードまたはアグリゲートに移動するために計画的なアクションが必要であることを示しています。…重大アラートは、サービスの停止が差し迫っていること、および緊急時の措置を講じる必要があることを示してい サービスの継続性を確保します。次に、メディアタイプに基づく想定レイテンシを示します。これは、最大 1 ~ 2 ミリ秒の SSD 、最大 8 ~ 10 ミリ秒の SAS 、および 17 ~ 20 ミリ秒の SATA HDD です |
重大しきい値を超えた場合は、サービスの中断を最小限に抑えるために次の操作を検討してください。LUNまたはそのボリュームにQoSポリシーが関連付けられている場合は、そのしきい値制限を評価し、LUNワークロードが調整されているかどうかを確認します。警告しきい値を超えた場合は、次の操作を実行するように計画してください: 1.アグリゲートの利用率も高い場合は、 LUN を別のアグリゲートに移動してください。2.ノードの利用率も高い場合は、ボリュームを別のノードに移動するか、ノードの合計ワークロードを減らしてください。3.LUNまたはそのボリュームにQoSポリシーが関連付けられている場合は、そのしきい値制限を評価して、LUNワークロードの調整の原因になっているかどうかを確認します。 |
ネットワークポートの利用率が高い |
重大 |
ネットワークポートは、 NFS 、 CIFS 、および iSCSI のプロトコルトラフィックを受信して、お客様のホストシステムと ONTAP の間で転送するために使用されます。ポート利用率が高いとボトルネックになり、最終的には NFS のパフォーマンスに影響します。 CIFS と iSCSI のワークロード。警告アラートは、ネットワークトラフィックのバランスを取るために計画されたアクションを実行する必要があることを示しています。重要アラートは、サービスの中断が差し迫っていることを示しており、サービスの継続性を確保するためにネットワークトラフィックの負荷を分散するために緊急措置を講じる |
重大のしきい値を超えた場合は、サービスの停止を最小限に抑えるために次の緊急アクションを検討してください: 1.ONTAP の QoS ポリシーまたはホスト側の分析によって、ネットワークポートの使用率を下げるために、特定のボリュームのトラフィックを重要な処理のみに制限します。2.使用率の低い別のネットワークポートを使用するように、1つまたは複数のボリュームを設定します。…警告しきい値を超えた場合は、すぐに次の操作を実行することを検討してください。 1.データトラフィックを処理するネットワークポートを増やして、ポート利用率をより多くのポートに分散させます。2.利用率の低い別のネットワークポートを使用するように1つ以上のボリュームを設定します。 |
NVMe ネームスペースレイテンシが高です |
重大 |
NVMe ネームスペースは、データベースなどのパフォーマンス重視のアプリケーションで I/O トラフィックを処理するオブジェクトです。NVMe ネームスペースのレイテンシが高いと、アプリケーション自体が影響を受けてタスクを実行できなくなる可能性があります。…警告アラートは、 LUN を適切なノードまたはアグリゲートに移動するための計画的なアクションが必要であることを示しています。…重大アラートは、サービスの停止が迫っていること、および緊急時の措置を講じる必要があることを示し サービスの継続性を確保するため。 |
重大しきい値を超えた場合は、サービスの中断を最小限に抑えるための即時の対処を検討してください。NVMeネームスペースまたはそのボリュームにQoSポリシーが割り当てられている場合は、NVMeネームスペースのワークロードが調整されている場合に備えて、制限しきい値を評価してください。警告しきい値を超えた場合は、次の操作を実行することを検討してください。 1.アグリゲートの利用率も高い場合は、 LUN を別のアグリゲートに移動してください。2.ノードの利用率も高い場合は、ボリュームを別のノードに移動するか、ノードの合計ワークロードを減らしてください。3.NVMeネームスペースまたはそのボリュームにQoSポリシーが割り当てられている場合は、制限のしきい値が原因でNVMeネームスペースのワークロードが調整されないように評価します。 |
qtree 容量がフルです |
重大 |
qtree とは、論理的に定義されたファイルシステムで、ボリューム内のルートディレクトリに特別なサブディレクトリとして作成できます。各 qtree には、ボリューム容量内でツリーに格納されるデータ量を制限するために、クォータポリシーによって定義されるデフォルトスペースクォータがあります。……警告アラートは、スペースを増やすために計画的な処理が必要であることを示します。…重大アラートは、サービスの停止が差し迫っていることを示します サービスの継続性を確保するために、スペースを空けるために緊急措置を講じる必要があります。 |
重大のしきい値を超えた場合は、サービスの中断を最小限に抑えるための緊急の対処方法を検討してください: 1 。この増加に対応するために、 qtree のスペースを増やしてください。2.不要なデータを削除してスペースを解放します。…警告のしきい値を超える場合は、すぐに次の操作を実行するように計画してください: 1.この増加に対応するために、 qtree のスペースを増やしてください。2.不要なデータを削除してスペースを解放します。 |
qtree 容量ハードリミット |
重大 |
qtree とは、論理的に定義されたファイルシステムで、ボリューム内のルートディレクトリに特別なサブディレクトリとして作成できます。各 qtree には、ボリューム内のユーザデータの増加を制御し、合計容量を超えないようにデータを格納するために使用される KB 単位のスペースクォータがあります。 qtree は、ユーザにアラートを提供するソフトストレージ容量クォータを維持し、合計容量に達する前にユーザにアラートを送信します qtree 内の容量クォータ制限が超過したため、データを格納できなくなりました。qtree に格納されているデータ量を監視することで、ユーザに中断のないデータサービスを確実に提供できます。 |
重大のしきい値を超えた場合は、サービスの停止を最小限に抑えるために次の緊急アクションを検討してください: 1.増加に対応するために、ツリースペースクォータを増やします 2 。ツリー内の不要なデータを削除してスペースを解放するようにユーザーに指示します |
qtree 容量のソフトリミット |
警告 |
qtree とは、論理的に定義されたファイルシステムで、ボリューム内のルートディレクトリに特別なサブディレクトリとして作成できます。各 qtree には、ボリューム内のユーザデータの増加を制御し、その合計容量を超えないようにデータを格納するために使用できる、 KB 単位のスペースクォータがあります。 qtree は、に到達する前にユーザにプロアクティブにアラートを提供するソフトストレージ容量クォータを維持します qtree 内の容量クォータの合計制限で、データを格納できなくなります。qtree に格納されているデータ量を監視することで、ユーザに中断のないデータサービスを確実に提供できます。 |
警告しきい値を超えた場合は、すぐに次の操作を実行することを検討してください。 1.増加に対応するために、ツリースペースクォータを増やしてください。2.ツリー内の不要なデータを削除してスペースを解放するようにユーザーに指示します。 |
qtree のファイル数のハードリミット |
重大 |
qtree とは、論理的に定義されたファイルシステムで、ボリューム内のルートディレクトリに特別なサブディレクトリとして作成できます。各 qtree には、ボリューム内で管理可能なファイルシステムサイズを維持するために含めることができるファイル数のクォータがあります。… qtree は、ツリー内の新しいファイルが拒否されるハードファイル数のクォータを保持します。qtree 内のファイル数を監視すると、ユーザには中断のないデータサービスが確実に提供されます。 |
重大のしきい値を超えた場合は、サービスの中断を最小限に抑えるための緊急の対処方法を検討してください: 1 。qtree のファイル数クォータを増やします。2.不要なファイルをqtreeファイルシステムから削除します。 |
qtree のファイル数がソフトリミット |
警告 |
qtree とは、論理的に定義されたファイルシステムで、ボリューム内のルートディレクトリに特別なサブディレクトリとして作成できます。各 qtree には、ボリューム内の管理可能なファイルシステムサイズを維持するために、格納できるファイル数のクォータがあります。… qtree は、ソフトファイル番号のクォータを保持し、 qtree および内のファイル数の上限に達する前にユーザにプロアクティブにアラートを送信します 追加のファイルを保存できません。qtree 内のファイル数を監視すると、ユーザには中断のないデータサービスが確実に提供されます。 |
警告のしきい値を超える場合は、すぐに次の操作を実行するように計画してください: 1.qtree のファイル数クォータを増やします。2.不要なファイルをqtreeファイルシステムから削除します。 |
Snapshot リザーブスペースがフルです |
重大 |
アプリケーションとお客様のデータを格納するには、ボリュームのストレージ容量が必要です。スナップショット予約領域と呼ばれる領域の一部はスナップショットの保存に使用され、データをローカルで保護できます。ONTAP ボリュームに格納される新規データや更新データが多いほど、使用される Snapshot 容量は増えますが、今後追加または更新されるデータに使用できる Snapshot ストレージ容量は少なくなります。ボリューム内の Snapshot データ容量が Snapshot リザーブスペースの合計に達すると、新しい Snapshot データを格納できなくなり、ボリューム内のデータの保護レベルが低下する可能性があります。ボリュームの使用済み Snapshot 容量を監視して、データサービスの継続性を確保します。 |
重大のしきい値を超えた場合は、サービスの中断を最小限に抑えるための緊急の対処方法を検討してください: 1 。Snapshot リザーブがフルになったときにボリューム内のデータスペースを使用するように Snapshot を設定します。2.古い不要なスナップショットをいくつか削除して、領域を解放してください。…警告のしきい値を超える場合は、すぐに次の操作を実行するように計画してください: 1.この増加に対応するために、ボリューム内の Snapshot リザーブスペースを増やしてください。2.Snapshot リザーブがフルになったときにボリューム内のデータスペースを使用するように Snapshot を設定します。 |
ストレージ容量の制限 |
重大 |
ストレージプール(アグリゲート)がいっぱいになると I/O 処理が低速化し、最後にストレージ停止インシデントが発生します。警告アラートは、最小限の空きスペースをリストアするために計画的な対処が必要であることを示しています。重大アラートは、サービスの停止が差し迫っていることを示しており、サービスの継続性を確保するためにスペースを解放するために緊急措置を講じる必要があることを示しています。 |
重大のしきい値を超えた場合は、すぐに次の処理を実行してサービスの中断を最小限に抑えてください: 1.重要でないボリュームの Snapshot を削除します。2.不要なワークロードであり、ストレージコピーからリストアできる可能性のあるボリュームまたはLUNを削除します。……警告しきい値を超えている場合は、すぐに次のアクションを計画します。1.1 つ以上のボリュームを別のストレージに移動します。2.ストレージ容量を追加します。3.Storage Efficiencyの設定を変更するか、アクセス頻度の低いデータをクラウドストレージに階層化します。 |
ストレージパフォーマンスの制限 |
重大 |
ストレージシステムのパフォーマンスが上限に達すると、処理速度が低下し、レイテンシが増大し、ワークロードやアプリケーションで障害が発生する可能性があります。ONTAP は、ワークロードのストレージプールの使用率を評価し、パフォーマンスの消費率を推定します。…警告アラートは、ストレージプールの負荷を軽減するために、ワークロードのピークに対応できるだけの十分なストレージプールのパフォーマンスが確保されるように、計画されたアクションを実行する必要があることを示します パフォーマンスの低下が切迫しており、サービスの継続性を確保するためにストレージプールの負荷を軽減するために緊急措置を講じる必要があります。 |
重大のしきい値を超えた場合は、サービスの停止を最小限に抑えるために次の緊急アクションを検討してください: 1.Snapshot や SnapMirror レプリケーションなどのスケジュールされたタスクを一時停止2.アイドル状態の重要ではないワークロード。警告しきい値を超えた場合は、すぐに次の操作を実行してください。 1.1 つ以上のワークロードを別のストレージに移動します。2.ストレージノード(AFF)またはディスクシェルフ(FAS)を追加し、ワークロードを再配分する3.ワークロードの特性(ブロックサイズ、アプリケーションのキャッシング)を変更する。 |
ユーザクォータ容量のハードリミット |
重大 |
ONTAP は、ボリューム内のボリューム、ファイル、またはディレクトリにアクセスする権限を持つ UNIX または Windows システムのユーザを認識します。その結果、ユーザやユーザグループが使用する Linux または Windows システムのストレージ容量を ONTAP で設定できるようになります。ユーザまたはグループのポリシークォータによって、ユーザが自身のデータに使用できるスペース量が制限されます。このクォータのハードリミットにより、ボリューム内で使用されている容量が適切である場合に、合計容量クォータに達する前にユーザに通知できます。ユーザクォータまたはグループクォータに保存されているデータ量を監視することで、ユーザに中断のないデータサービスを確実に提供できます。 |
重大のしきい値を超えた場合は、サービスの停止を最小限に抑えるために次の緊急アクションを検討してください: 1.増加に対応するために、ユーザクォータまたはグループクォータのスペースを増やしてください。2.不要なデータを削除してスペースを解放するようにユーザまたはグループに指示します。 |
ユーザクォータ容量のソフトリミット |
警告 |
ONTAP は、ボリューム内のボリューム、ファイル、またはディレクトリにアクセスできる権限を持つ UNIX または Windows システムのユーザを認識します。その結果、ユーザやユーザグループが使用する Linux または Windows システムのストレージ容量を ONTAP で設定できるようになります。ユーザまたはグループのポリシークォータによって、ユーザが自身のデータに使用できるスペース量が制限されます。このクォータのソフトリミットにより、ボリューム内で使用されている容量が合計容量クォータに達したときにユーザにプロアクティブな通知が可能になります。ユーザクォータまたはグループクォータに保存されているデータ量を監視することで、ユーザに中断のないデータサービスを確実に提供できます。 |
警告のしきい値を超える場合は、すぐに次の操作を実行するように計画してください: 1.増加に対応するために、ユーザクォータまたはグループクォータのスペースを増やしてください。2.不要なデータを削除してスペースを解放します。 |
ボリュームの容量がフルです |
重大 |
アプリケーションとお客様のデータを格納するには、ボリュームのストレージ容量が必要です。ONTAP ボリュームに格納されるデータが多いほど、以降のデータで使用できるストレージ容量は少なくなります。ボリューム内のデータストレージ容量が合計ストレージ容量に達すると、ストレージ容量の不足によりデータを格納できなくなる可能性があります。ボリュームの使用済みストレージ容量を監視して、データサービスの継続性を確保します。 |
重大のしきい値を超えた場合は、サービスの停止を最小限に抑えるために次の緊急アクションを検討してください: 1.増加に対応するためにボリュームのスペースを増やしてください。2.不要なデータを削除してスペースを解放します。3.SnapshotコピーがSnapshotリザーブよりも多くのスペースを占有している場合は、古いSnapshotを削除するか、ボリュームSnapshotの自動削除を有効にしてください。…警告しきい値を超えている場合は、次のアクションをすぐに実行するように計画してください。1.増加に対応するために、ボリュームのスペースを増やしてください。 2.Snapshot コピーが Snapshot リザーブよりも多くのスペースを占有している場合は、古い Snapshot を削除するか、ボリュームの Snapshot の自動削除を有効にしています … |
ボリュームの inode 制限 |
重大 |
ファイルを格納するボリュームでは、インデックスノード( inode )を使用してファイルメタデータが格納されます。ボリュームの inode 割り当てが使用されなくなった場合は、 これ以上ファイルを追加できません。…警告アラートは、使用可能な inode の数を増やすために計画的なアクションを実行する必要があることを示しています。重要なアラートは、ファイル制限の枯渇が差し迫っていることを示しており、サービスの継続性を確保するために緊急対策を講じる必要があることを示しています。 |
重大のしきい値を超えた場合は、サービスの停止を最小限に抑えるために次の緊急アクションを検討してください: 1.ボリュームの inode の値を増やします。inode の値がすでに最大値に達している場合は、ファイルシステムのサイズが最大サイズを超えているため、ボリュームを複数のボリュームにスプリットします。2.FlexGroupを使用すると、大規模なファイルシステムに対応できます。警告のしきい値を超える場合は、すぐに次の操作を実行するように計画してください: 1.ボリュームの inode の値を増やします。inode の値がすでに最大値に達している場合は、ファイルシステムのサイズが最大サイズを超えているため、ボリュームを 2 つ以上のボリュームにスプリットします。2.FlexGroupを使用して大規模なファイルシステムに対応 |
ボリュームレイテンシが高くなっています |
重大 |
ボリュームは、 I/O トラフィックを処理するオブジェクトで、多くの場合、 DevOps アプリケーション、ホームディレクトリ、データベースなどのパフォーマンス重視のアプリケーションによって駆動されます。ボリュームのレイテンシが高いと、アプリケーション自体に影響を及ぼし、タスクを実行できなくなる可能性があります。ボリュームのレイテンシを監視することは、アプリケーションの整合性を維持するうえで非常に重要です。メディアタイプに基づく想定レイテンシは、最大 1 ~ 2 ミリ秒、 SAS は最大 8 ~ 10 ミリ秒、 SATA HDD は 17 ~ 20 ミリ秒です |
重大しきい値に違反した場合は、サービスの中断を最小限に抑えるためにすぐに実行することを検討してください。ボリュームにQoSポリシーが割り当てられている場合は、ボリュームのワークロードが調整されている場合に備えて、制限しきい値を評価します。警告しきい値を超えた場合は、すぐに次の操作を実行することを検討してください。 1.アグリゲートの利用率も高い場合は、ボリュームを別のアグリゲートに移動します。2.ボリュームにQoSポリシーが割り当てられている場合は、制限のしきい値が原因でボリュームのワークロードが調整されていないかどうかを評価します。3.ノードの利用率も高い場合は、ボリュームを別のノードに移動するか、ノードの合計ワークロードを減らしてください。 |
モニタ名 |
重大度 |
概要を監視します |
対処方法 |
ノードの高レイテンシ |
警告 / 重大 |
ノードのレイテンシが、ノード上のアプリケーションのパフォーマンスに影響する可能性があるレベルに達しました。ノードのレイテンシが低いため、アプリケーションのパフォーマンスが安定します。メディアタイプに基づく想定レイテンシは次のとおりです。 SSD は最大 1 ~ 2 ミリ秒、 SAS は最大 8 ~ 10 ミリ秒、 SATA HDD は 17 ~ 20 ミリ秒。 |
重大しきい値を超える場合は、サービスの中断を最小限に抑えるためにただちに対処する必要があります: 1 。スケジュールされたタスク、 Snapshot 、または SnapMirror レプリケーション 2 を一時停止QoS 制限により、優先度の低いワークロードの需要を低減します。 3.重要でないワークロードを非アクティブ化すると、警告しきい値を超えた場合の即時対処が考慮されます: 1 。1 つ以上のワークロードを別のストレージに移動します。 2.QoS 制限により、優先度の低いワークロードの需要を低減します。 3.ストレージノード( AFF )またはディスクシェルフ( FAS )を追加し、ワークロードを再配分します。 4.ワークロード特性(ブロックサイズ、アプリケーションキャッシングなど)の変更 |
ノードのパフォーマンス制限 |
警告 / 重大 |
ノードのパフォーマンス使用率が、 IOS およびノードでサポートされているアプリケーションのパフォーマンスに影響する可能性があるレベルに達しました。ノードのパフォーマンス利用率が低いため、アプリケーションのパフォーマンスが安定します。 |
重大のしきい値を超えた場合にサービスの中断を最小限に抑えるために、ただちに対処する必要があります: 1 。スケジュールされたタスク、 Snapshot 、または SnapMirror レプリケーション 2 を一時停止QoS 制限により、優先度の低いワークロードの需要を低減します。 3.重要でないワークロードを非アクティブ化すると、警告しきい値を超えた場合に次の処理が実行されることが考慮されます。 1.1 つ以上のワークロードを別のストレージに移動します。 2.QoS 制限により、優先度の低いワークロードの需要を低減します。 3.ストレージノード( AFF )またはディスクシェルフ( FAS )を追加し、ワークロードを再配分します。 4.ワークロード特性(ブロックサイズ、アプリケーションキャッシングなど)の変更 |
Storage VM のレイテンシが高くなっています |
警告 / 重大 |
Storage VM ( SVM )のレイテンシが Storage VM のアプリケーションのパフォーマンスに影響する可能性があるレベルに達しました。Storage VM のレイテンシが低いため、アプリケーションのパフォーマンスが安定します。メディアタイプに基づく想定レイテンシは次のとおりです。 SSD は最大 1 ~ 2 ミリ秒、 SAS は最大 8 ~ 10 ミリ秒、 SATA HDD は 17 ~ 20 ミリ秒。 |
重大しきい値を超えた場合は、 QoS ポリシーが割り当てられた Storage VM のボリュームについてすぐにしきい値を評価して、ボリュームワークロードの負荷が調整されているかどうかを確認し、警告しきい値を超えた場合の即時対処方法として次の点を考慮します: 1 。アグリゲートの利用率も高い場合は、 Storage VM の一部のボリュームを別のアグリゲートに移動します。2.QoSポリシーが割り当てられているStorage VMのボリュームについて、しきい値制限が原因でボリュームワークロードが調整されている場合は評価します3。ノードの利用率が高い場合は、 Storage VM の一部のボリュームを別のノードに移動するか、ノードの合計ワークロードを減らします |
ユーザクォータのファイル数のハードリミット |
重大 |
ボリューム内に作成されたファイル数が重大な制限に達したため、追加ファイルを作成できません。保存されたファイル数を監視することで、ユーザに中断のないデータサービスを確実に提供できます。 |
重大のしきい値を超えた場合にサービスの中断を最小限に抑えるには、即時アクションが必要です。次のアクションを実行することを検討してください。 1.特定のユーザのファイル数クォータを増やします 2.不要なファイルを削除して、特定のユーザのファイルクォータに対する圧力を軽減します |
ユーザクォータのファイル数がソフトリミット |
警告 |
ボリューム内に作成されたファイル数がクォータのしきい値に達し、重大な制限に近づいています。クォータが重大の上限に達した場合、追加のファイルを作成できません。ユーザが保存するファイル数を監視することで、ユーザに中断のないデータサービスが確実に提供されます。 |
警告しきい値を超えた場合は、ただちに対処することを検討してください。 1.特定のユーザクォータ 2 のファイル数クォータを増やします。不要なファイルを削除して、特定のユーザのファイルクォータに対する圧力を軽減します |
ボリュームキャッシュミス率 |
警告 / 重大 |
ボリュームキャッシュミス率は、クライアントアプリケーションからの読み取り要求に対してキャッシュからではなくディスクからデータが返される割合です。これは、ボリュームが設定されたしきい値に達したことを意味します。 |
重大しきい値を超える場合は、サービスの中断を最小限に抑えるためにただちに対処する必要があります: 1 。ボリュームのノードから一部のワークロードを移動して、 IO 負荷を軽減してください 2 。ボリュームのノードに Flash Cache 3 がない場合は、 Flash Cache 3 を購入して追加し、 WAFL キャッシュを拡張します。QoS 制限を使用して同じノードに対する優先度の低いワークロードの要求を下げ、警告しきい値を超えた場合の即時対処を検討します。 1.ボリュームのノードから一部のワークロードを移動して、 IO 負荷を軽減してください 2 。ボリュームのノードに Flash Cache 3 がない場合は、 Flash Cache 3 を購入して追加し、 WAFL キャッシュを拡張します。QoS 制限により、同じノードでの優先度の低いワークロードの要求を軽減します。 4.ワークロード特性(ブロックサイズ、アプリケーションキャッシングなど)の変更 |
ボリュームの qtree クォータオーバーコミット |
警告 / 重大 |
ボリュームの qtree クォータオーバーコミットは、ボリュームが qtree クォータによってオーバーコミットされているとみなす割合を示します。ボリュームの qtree クォータの設定しきい値に達しました。ボリューム qtree クォータオーバーコミットを監視することで、ユーザに中断のないデータサービスが確実に提供されます。 |
重大しきい値を超える場合は、サービスの中断を最小限に抑えるためにただちに対処する必要があります: 1 。ボリューム 2 のスペースを増やします。警告しきい値を超えたときに不要なデータを削除してから、ボリュームのスペースを増やすことを検討してください。 |
ログモニタ
モニタ名 |
重大度 |
製品説明 |
対処方法 |
AWS クレデンシャルが初期化されて |
情報 |
このイベントは、モジュールが初期化される前に、クラウドクレデンシャルスレッドから Amazon Web Services ( AWS )の Identity and Access Management ( IAM )ロールベースクレデンシャルにアクセスしようとした場合に発生します。 |
" クラウドクレデンシャルのスレッドとシステムの初期化が完了するまで待ちます。 |
クラウド階層に到達不能です |
重大 |
ストレージノードからクラウド階層のオブジェクトストア API に接続することはできません。一部のデータにアクセスできません。 |
オンプレミス製品を使用している場合は、次の対処策を実施します。 …「 network interface show 」コマンドを使用して、クラスタ間 LIF がオンラインで機能していることを確認します。…デスティネーションノードのクラスタ間 LIF で「 ping 」コマンドを使用して、オブジェクトストアサーバへのネットワーク接続を確認します。…オブジェクトストアの設定が変更されていないことを確認します。ログインおよび接続の情報はです それでも有効です。問題が解決しない場合は、ネットアップのテクニカルサポートにお問い合わせください。Cloud Volumes ONTAPを使用する場合は、次の対処方法を実行します。…オブジェクトストアの設定が変更されていないことを確認します。…ログイン情報と接続情報がまだ有効であることを確認してください。問題が解決しない場合は、NetAppテクニカルサポートにお問い合わせください。 |
ディスクがサービスを停止しています |
情報 |
「このイベントは、ディスクが障害としてマークされているか、完全消去中であるか、 Maintenance Center に入力されたためにサービスから削除された場合に発生します。」 |
ありません。 |
FlexGroup 構成要素がフルです |
重大 |
「 FlexGroup ボリューム内のコンスティチュエントがいっぱいになっているため、原因がサービスを停止する可能性があります。この場合も、 FlexGroup ボリュームでファイルを作成または拡張できます。ただし、コンスティチュエントに格納されているファイルを変更することはできません。その結果、 FlexGroup ボリュームに対して書き込み処理を実行しようとしたときに、ランダムなスペース不足エラーが発生することがあります。」 |
「 volume modify -files + X 」コマンドを使用して、 FlexGroup ボリュームに容量を追加することを推奨します。または、 FlexGroup ボリュームからファイルを削除することもできます。しかし、どのファイルがコンスティチュエントに置かれているかを特定するのは難しい」 |
FlexGroup コンスティチュエントがほぼフルです |
警告 |
「 FlexGroup ボリューム内のコンスティチュエントのスペースがほとんどなくなると、原因によってサービスが停止する可能性があります。ファイルを作成して展開できます。ただし、コンスティチュエントのスペースが不足すると、コンスティチュエントにファイルを追加したり変更したりできなくなる可能性があります。 |
「 volume modify -files + X 」コマンドを使用して、 FlexGroup ボリュームに容量を追加することを推奨します。または、 FlexGroup ボリュームからファイルを削除することもできます。しかし、どのファイルがコンスティチュエントに置かれているかを特定するのは難しい」 |
FlexGroup コンスティチュエントの inode がほぼなくなっています |
警告 |
「 FlexGroup ボリューム内のコンスティチュエントは inode がほとんどなくなっており、原因がサービスの停止を招く可能性があります。コンスティチュエントに平均よりも少ない作成要求が送信されます。FlexGroup ボリュームの全体的なパフォーマンスに影響することがあります。これは、 inode が多いコンスティチュエントに要求がルーティングされるためです。」 |
「 volume modify -files + X 」コマンドを使用して、 FlexGroup ボリュームに容量を追加することを推奨します。または、 FlexGroup ボリュームからファイルを削除することもできます。しかし、どのファイルがコンスティチュエントに置かれているかを特定するのは難しい」 |
FlexGroup コンスティチュエントの inode が不明です |
重大 |
「 FlexGroup ボリュームのコンスティチュエントの inode が不足しており、原因によってサービスが停止する可能性があります。この構成要素には新しいファイルを作成できません。これにより、 FlexGroup ボリューム間でコンテンツが全体的に不均衡な状態に分散される可能性があります。」 |
「 volume modify -files + X 」コマンドを使用して、 FlexGroup ボリュームに容量を追加することを推奨します。または、 FlexGroup ボリュームからファイルを削除することもできます。しかし、どのファイルがコンスティチュエントに置かれているかを特定するのは難しい」 |
LUNはオフライン |
情報 |
このイベントは、 LUN が手動でオフラインになった場合に発生します。 |
LUN をオンラインに戻します。 |
メインユニットファンに障害が発生しました |
警告 |
1 つ以上のメインユニットファンで障害が発生しました。システムは動作し続けます。しかし、状態が長く続くと、過熱によって自動シャットダウンがトリガーされることがあります。 |
" 障害が発生したファンを取り付け直します。エラーが解消されない場合は、交換します。 |
警告状態のメインユニットファン |
情報 |
このイベントは、 1 つまたは複数のメインユニットファンが警告状態のときに発生します。 |
過熱を防ぐため、示されたファンを交換してください。 |
NVRAM バッテリ低下 |
警告 |
NVRAM バッテリ容量が非常に少なくなっています。バッテリの電力が不足すると、データが失われる可能性があります。 …NetApp テクニカルサポートと設定済みの送信先(該当する場合)に、 AutoSupport または「 call home 」というメッセージが生成されて送信されます。AutoSupport メッセージが正常に配信されると、問題の特定と解決方法が大幅に改善されます。 |
「 system node environment sensors show 」コマンドを使用して、バッテリの現在のステータス、容量、および充電状態を表示します。バッテリを最近交換した場合や、システムが長時間にわたって動作していない場合は、次の対処方法を実行します。 バッテリを監視して、適切に充電されていることを確認してください。…バッテリの稼働時間が引き続きクリティカルなレベルを下回ると、ストレージシステムが自動的にシャットダウンする場合は、ネットアップテクニカルサポートにお問い合わせください。 |
サービスプロセッサが未設定 |
警告 |
「このイベントは毎週発生し、サービスプロセッサ( SP )の設定を通知するために使用されます。SP は、システムに組み込まれている物理デバイスであり、リモートアクセス機能とリモート管理機能を提供します。すべての機能を使用できるように SP を設定する必要があります。 |
次の対処方法を実行します。…「 system service-processor network modify 」コマンドを使用して SP を設定します。オプションで、 「 system service-processor network show 」コマンドを使用して、 SP の MAC アドレスを取得します。…「 system service-processor network show 」コマンドを使用して、 SP ネットワーク設定を確認します。「 system service-processor AutoSupport invoke 」コマンドを使用して、 SP から AutoSupport E メールを送信できることを確認します。注 AutoSupport :このコマンドを実行する前に、 ONTAP E メールホストと受信者を問題で設定する必要があります。 |
サービスプロセッサはオフライン |
重大 |
「すべての SP リカバリアクションが実行されていても、 ONTAP はサービスプロセッサ( SP )からハートビートを受信しなくなりました。ONTAP は、 SP なしでハードウェアの状態を監視できません。システムはシャットダウンして、ハードウェアの損傷やデータの損失を防ぎます。SP がオフラインになった場合にすぐに通知されるようにパニック・アラートを設定する |
次の操作を実行して、システムの電源を再投入します。…コントローラをシャーシから引き出します。…コントローラをもう一度押し込みます。…コントローラをオンに戻します。問題が解決しない場合は、コントローラモジュールを交換します。 |
シェルフのファンに障害があります |
重大 |
" シェルフの冷却ファンまたはファンモジュールに障害が発生しました。シェルフ内のディスクに十分な通気による冷却が確保されないと、ディスク障害が発生する可能性があります。」 |
次の対処方法を実行します。ファンモジュールが完全に装着され、固定されていることを確認します。メモ:一部のディスクシェルフの電源装置モジュールにファンが内蔵されています。問題が解決しない場合は、ファンモジュールを交換してください。それでも問題が解決しない場合は、ネットアップのテクニカルサポートにお問い合わせください。 |
メインユニットファンの障害により、システムは動作できません |
重大 |
「 1 つまたは複数のメインユニットファンで障害が発生し、システムの動作が中断しました。これにより、データが失われる可能性があります。 |
障害が発生したファンを交換します。 |
未割り当てディスク |
情報 |
システムに未割り当てのディスクがあります - 容量が無駄になっており、構成の設定ミスや部分的な変更がシステムに適用されている可能性があります。 |
次の対処方法を実行します。「 disk show -n 」コマンドを使用して、どのディスクが割り当てられていないかを確認します。「 disk assign 」コマンドを使用して、ディスクをシステムに割り当てます。 |
アンチウイルスサーバビジー |
警告 |
ウィルス対策サーバがビジーのため、新しいスキャン要求を受け入れることができません。 |
このメッセージが頻繁に表示される場合は、 SVM で生成されるウィルススキャンの負荷を処理できるだけの十分なウィルス対策サーバがあることを確認してください。 |
IAM ロールの AWS クレデンシャルの期限が切れました |
重大 |
Cloud Volume ONTAP にアクセスできなくなりました。ID およびアクセス管理( IAM )ロールベースのクレデンシャルの期限が切れている。クレデンシャルは、 IAM ロールを使用して Amazon Web Services ( AWS )メタデータサーバから取得され、 Amazon Simple Storage Service ( Amazon S3 )への API 要求に署名するために使用されます。 |
次の手順を実行します。… AWS EC2 管理コンソールにログインします。…インスタンスページに移動します。… Cloud Volumes ONTAP 導入のインスタンスを探してその健常性を確認します。…インスタンスに関連付けられている AWS IAM ロールが有効であり、インスタンスに適切な権限が付与されていることを確認します。 |
IAM ロールの AWS クレデンシャルが見つかりません |
重大 |
クラウドクレデンシャルスレッドで、 Amazon Web Services ( AWS )の Identity and Access Management ( IAM )ロールベースのクレデンシャルを AWS メタデータサーバから取得することはできません。クレデンシャルは、 Amazon Simple Storage Service ( Amazon S3 )への API 要求への署名に使用されます。Cloud Volume ONTAP にアクセスできなくなりました。… |
次の手順を実行します。… AWS EC2 管理コンソールにログインします。…インスタンスページに移動します。… Cloud Volumes ONTAP 導入のインスタンスを探してその健常性を確認します。…インスタンスに関連付けられている AWS IAM ロールが有効であり、インスタンスに適切な権限が付与されていることを確認します。 |
IAM ロールの AWS クレデンシャルが無効です |
重大 |
ID およびアクセス管理( IAM )ロールベースのクレデンシャルが無効です。クレデンシャルは、 IAM ロールを使用して Amazon Web Services ( AWS )メタデータサーバから取得され、 Amazon Simple Storage Service ( Amazon S3 )への API 要求に署名するために使用されます。Cloud Volume ONTAP にアクセスできなくなりました。 |
次の手順を実行します。… AWS EC2 管理コンソールにログインします。…インスタンスページに移動します。… Cloud Volumes ONTAP 導入のインスタンスを探してその健常性を確認します。…インスタンスに関連付けられている AWS IAM ロールが有効であり、インスタンスに適切な権限が付与されていることを確認します。 |
AWS IAM ロールが見つかりません |
重大 |
Identity and Access Management ( IAM )ロールスレッドで、 AWS メタデータサーバに Amazon Web Services ( AWS ) IAM ロールが見つかりません。IAM ロールは、 Amazon Simple Storage Service ( Amazon S3 )への API 要求の署名に使用するロールベースのクレデンシャルを取得する必要があります。Cloud Volume ONTAP にアクセスできなくなりました。… |
次の手順を実行します。… AWS EC2 管理コンソールにログインします。…インスタンスページに移動します。… Cloud Volumes ONTAP 導入のインスタンスを探してその健常性を確認します。…インスタンスに関連付けられている AWS IAM ロールが有効であることを確認します。 |
AWS IAM ロールが無効です |
重大 |
AWS メタデータサーバの Amazon Web Services ( AWS ) Identity and Access Management ( IAM )ロールが無効です。Cloud Volume ONTAP にアクセスできなくなりました。… |
次の手順を実行します。… AWS EC2 管理コンソールにログインします。…インスタンスページに移動します。… Cloud Volumes ONTAP 導入のインスタンスを探してその健常性を確認します。…インスタンスに関連付けられている AWS IAM ロールが有効であり、インスタンスに適切な権限が付与されていることを確認します。 |
AWS メタデータサーバに接続できませんでした |
重大 |
Identity and Access Management ( IAM )役割スレッドで、 Amazon Web Services ( AWS )メタデータサーバとの通信リンクを確立できません。Amazon Simple Storage Service ( Amazon S3 )への API 要求の署名に使用する AWS IAM ロールベースの必要なクレデンシャルを取得するために通信を確立する必要があります。Cloud Volume ONTAP にアクセスできなくなりました。… |
次の手順を実行します。… AWS EC2 管理コンソールにログインします。…インスタンスページに移動します。… Cloud Volumes ONTAP 導入のインスタンスを探してその健全性を確認します。 |
FabricPool のスペース使用制限にほぼ達しました |
警告 |
容量ライセンスのあるプロバイダが提供するオブジェクトストアでのクラスタ全体の FabricPool スペースの使用量が、ライセンスで許可された上限にほぼ達しています。 |
次の対処方法を実行します。…「 storage aggregate object-store show-space 」コマンドを使用して、各 FabricPool ストレージ階層で使用されているライセンス容量の割合を確認します。…「 volume snapshot delete 」コマンドを使用して、階層化ポリシー「 snapshot 」または「 backup 」が設定されたボリュームから Snapshot コピーを削除します。…新しいライセンスをインストールします クラスタ上でライセンス容量を拡張します。 |
FabricPool のスペース使用制限に達しました |
重大 |
容量ライセンスプロバイダが提供するオブジェクトストアでのクラスタ全体の FabricPool スペースの使用量がライセンスの上限に達しました。 |
次の対処方法を実行します。…「 storage aggregate object-store show-space 」コマンドを使用して、各 FabricPool ストレージ階層で使用されているライセンス容量の割合を確認します。…「 volume snapshot delete 」コマンドを使用して、階層化ポリシー「 snapshot 」または「 backup 」が設定されたボリュームから Snapshot コピーを削除します。…新しいライセンスをインストールします クラスタ上でライセンス容量を拡張します。 |
アグリゲートのギブバックに失敗しました |
重大 |
ストレージフェイルオーバー( SFO )ギブバックの一環としてアグリゲートを移行したときに、デスティネーションノードがオブジェクトストアに到達できない場合に発生します。 |
次の対処方法を実行します。…「 network interface show 」コマンドを使用して、インタークラスタ LIF がオンラインで機能していることを確認します。…デスティネーションノードのクラスタ間 LIF で「 ping 」コマンドを使用して、オブジェクトストアサーバへのネットワーク接続を確認します。…「 aggregate object-store config show 」コマンドを使用して、オブジェクトストアの設定が変更されておらず、ログインおよび接続の情報が正確であることを確認してください。または、 このエラーを無効にするには、 giveback コマンドの「 require-partner-waiting 」パラメータに false を指定します。詳細やサポートについては、ネットアップテクニカルサポートにお問い合わせください。 |
HA インターコネクトが停止しています |
警告 |
ハイアベイラビリティ( HA )インターコネクトが停止しています。フェイルオーバーを利用できない場合、サービスが停止するリスクがあります。 |
対処方法は、プラットフォームでサポートされている HA インターコネクトリンクの数と種類、およびインターコネクトが停止している理由によって異なります。…リンクがダウンしている場合 : … HA ペアの両方のコントローラが動作していることを確認します。外部接続リンクの場合は、相互接続ケーブルが正しく接続されていること、および小型フォームファクタプラガブル( SFP )が両方のコントローラに正しく装着されていることを確認します。内部接続されているリンクの場合は、リンクを無効にし、リンクを有効にします。 一方は、「 IC LINK OFF 」コマンドと「 IC LINK ON 」コマンドを使用して行います。…リンクが無効になっている場合は、「 ic link on 」コマンドを使用してリンクを有効にします。…ピアが接続されていない場合は、「 ic link off 」コマンドと「 ic link on 」コマンドを使用して、一方のリンクを無効にし、再度有効にします。…問題が解決しない場合は、ネットアップのテクニカルサポートにお問い合わせください。 |
ユーザあたりの最大セッション数を超えました |
警告 |
TCP 接続でのユーザあたりの最大許容セッション数を超えました。セッションを確立する要求は、一部のセッションが解放されるまで拒否されます。… |
次の対処策を実行します。 …クライアントで実行されているすべてのアプリケーションを検査し、正常に動作していないアプリケーションを終了します。…クライアントを再起動します。…問題が新規または既存のアプリケーションによって発生しているかどうかを確認します。アプリケーションが新規の場合は、「 cifs option modify -max-opense-opense-file-per-tree 」コマンドを使用して、クライアントのしきい値を大きく設定します。クライアントが想定どおりに動作していても、しきい値の上昇が必要となる場合があります。クライアントのしきい値を高く設定するには、 advanced 権限が必要です。…問題が既存のアプリケーションに起因している場合は、クライアントに問題が存在する可能性があります。詳細またはサポートについては、ネットアップテクニカルサポートにお問い合わせください。 |
ファイルあたりの最大オープン回数を超えました |
警告 |
TCP 接続でファイルを開くことができる最大回数を超えました。このファイルを開く要求は、ファイルの開いているインスタンスをいくつか閉じるまでは拒否されます。これは通常、異常なアプリケーション動作を示します。 |
次の修正アクションを実行します。この TCP 接続を使用してクライアントで実行されているアプリケーションを検査します。クライアントが正しく動作していない可能性があります。クライアントを再起動します。クライアントが新規または既存のアプリケーションによって問題が発生しているかどうかを確認します。アプリケーションが新規である場合は、「 cifs option modify -max-opense-opense-file-per-tree 」コマンドを使用して、クライアントのしきい値を大きく設定します。クライアントが想定どおりに動作していても、しきい値の上昇が必要となる場合があります。クライアントのしきい値を高く設定するには、 advanced 権限が必要です。…問題が既存のアプリケーションに起因している場合は、クライアントに問題が存在する可能性があります。詳細またはサポートについては、ネットアップテクニカルサポートにお問い合わせください。 |
NetBIOS 名が競合しています |
重大 |
NetBIOS ネームサービスが、リモートマシンから名前登録要求に対して否定的な応答を受信しました。これは通常、 NetBIOS 名またはエイリアスの競合が原因です。その結果、クライアントがデータにアクセスできなくなったり、クラスタ内の適切なデータを提供しているノードに接続できなくなったりすることがあります。 |
次のいずれかの修正処置を実行します。… NetBIOS 名またはエイリアスに競合がある場合、 次のいずれかを実行します。…「 vserver cifs delete -aliases alias -vserver vserver 」コマンドを使用して、重複する NetBIOS エイリアスを削除します。…「 vserver cifs create -aliases alias -vserver vserver 」コマンドを使用して、重複する名前を削除し、新しい名前のエイリアスを追加して、 NetBIOS エイリアスの名前を変更します。… NetBIOS 名にエイリアスが設定されておらず、競合がある場合は、「 vserver cifs delete -vserver vserver 」コマンドと「 vserver cifs create -cifs -server netbiosname 」コマンドを使用して CIFS サーバの名前を変更します。メモ: CIFS サーバを削除すると、データにアクセスできなくなる可能性があります。…リモートマシンの NetBIOS 名を削除するか、 NetBIOS 名を変更します。 |
NFSv4 ストアプールを使い果たしました |
重大 |
NFSv4 ストアプールを使い果たしました。 |
NFS サーバが応答しなくなってから 10 分以上が経過した場合は、ネットアップテクニカルサポートにお問い合わせください。 |
登録済みのスキャンエンジンがありません |
重大 |
Antivirus Connector は、スキャンエンジンが登録されていないことを ONTAP に通知しました。「 scan-mandatory 」オプションを有効にすると、原因データを使用できなくなることがあります。 |
次の対処方法を実行します。…アンチウイルスサーバーにインストールされているスキャンエンジンソフトウェアが ONTAP と互換性があることを確認します。スキャンエンジンソフトウェアが実行中で、ローカルループバックを介してアンチウイルスコネクタに接続するように設定されていることを確認します。 |
Vscan 接続なし |
重大 |
ONTAP では、ウィルススキャン要求への対応に関する Vscan 接続はありません。「 scan-mandatory 」オプションを有効にすると、原因データを使用できなくなることがあります。 |
スキャナプールが正しく設定され、ウィルス対策サーバがアクティブで ONTAP に接続されていることを確認します。 |
ノードのルートボリュームのスペースが不足しています |
重大 |
ルートボリュームのスペースが危険なほど少なくなっていることが検出されました。ノードが完全には動作していません。ノードで NFS アクセスと CIFS アクセスが制限されているため、クラスタ内でデータ LIF がフェイルオーバーされる可能性があります。管理機能は、ノードがルートボリューム上のスペースをクリアするためのローカルリカバリ手順に限定されます。 |
次の対処方法を実行します。…古い Snapshot コピーを削除してルートボリュームのスペースをクリアする、 /mrootDirectory から不要になったファイルを削除する、またはルートボリュームの容量を拡張する。…コントローラをリブートする…詳細やサポートについては、ネットアップのテクニカルサポートにお問い合わせください。 |
存在しない管理共有です |
重大 |
vscan 問題:クライアントが、存在しない ONTAP_ADMIN$ 共有に接続しようとしました。 |
指定した SVM ID で Vscan が有効になっていることを確認してください。SVM で Vscan を有効にすると、 SVM 用に ONTAP_ADMIN$ 共有が自動的に作成されます。 |
NVMe ネームスペースのスペースが不足しています |
重大 |
スペース不足が原因の書き込みエラーが原因で NVMe ネームスペースがオフラインになりました。 |
ボリュームにスペースを追加し、「 vserver nvme namespace modify 」コマンドを使用して NVMe ネームスペースをオンラインにします。 |
NVMF の猶予期間 - アクティブ |
警告 |
このイベントは、 NVMe over Fabrics ( NVMe-oF )プロトコルを使用していてライセンスの猶予期間がアクティブになっている場合に毎日発生します。NVMe-oF 機能には、ライセンスの猶予期間が終了したあとにライセンスが必要です。ライセンスの猶予期間が終了すると、 NVMe-oF 機能は無効になります。 |
営業担当者に連絡して NVMe-oF ライセンスを取得し、クラスタに追加するか、 NVMe-oF 構成のすべてのインスタンスをクラスタから削除してください。 |
NVMF の猶予期間 - 終了 |
警告 |
NVMe over Fabrics ( NVMe-oF )ライセンスの猶予期間が終了し、 NVMe-oF 機能は無効になります。 |
営業担当者に連絡して NVMe-oF ライセンスを取得し、クラスタに追加してください。 |
NVMF の猶予期間 - 開始 |
警告 |
ONTAP 9.5 ソフトウェアへのアップグレード中に NVMe over Fabrics ( NVMe-oF )設定が検出されました。NVMe-oF 機能を使用するには、ライセンスの猶予期間が終了したあとにライセンスが必要です。 |
営業担当者に連絡して NVMe-oF ライセンスを取得し、クラスタに追加してください。 |
オブジェクトストアのホスト解決不可 |
重大 |
オブジェクトストアサーバのホスト名を IP アドレスに解決できません。オブジェクトストアクライアントが IP アドレスに解決しないとオブジェクトストアサーバと通信できません。その結果、データにアクセスできなくなる可能性があります。 |
DNS 設定を調べて、ホスト名が IP アドレスで正しく設定されていることを確認します。 |
オブジェクトストアのクラスタ間 LIF が停止しています |
重大 |
オブジェクトストアクライアントが、オブジェクトストアサーバと通信するための稼働している LIF を見つけることができません。クラスタ間 LIF が動作可能になるまで、このノードはオブジェクトストアクライアントトラフィックを許可しません。その結果、データにアクセスできなくなる可能性があります。 |
次の対処方法を実行します。…「 network interface show -role intercluster 」コマンドを使用して、クラスタ間 LIF のステータスを確認します。…クラスタ間 LIF が正しく設定されていて動作していることを確認します。…クラスタ間 LIF が設定されていない場合は、「 network interface create -role intercluster 」コマンドを使用して追加します。 |
オブジェクトストアシグネチャの不一致 |
重大 |
オブジェクトストアサーバに送信された要求の署名が、クライアントで計算された署名と一致しません。その結果、データにアクセスできなくなる可能性があります。 |
シークレットアクセスキーが正しく設定されていることを確認します。正しく設定されている場合は、ネットアップテクニカルサポートにお問い合わせください。 |
READDIR タイムアウト |
重大 |
READDIR ファイル処理が、 WAFL で実行が許可されているタイムアウトを超えました。これは、ディレクトリが非常に大きく、スパースであるためです。対処方法を推奨します。 |
次の対処方法を実行します。 …READDIR ファイル操作が期限切れになった最近のディレクトリに関する情報を検索するには、次の 'diag ' 特権ノードシェル CLI コマンドを使用します。 WAFL readdir notice show… ディレクトリが sparse または not: として示されているかどうかを確認します。ディレクトリが sparse として示されている場合は、ディレクトリの内容を新しいディレクトリにコピーしてディレクトリファイルの sparsess を削除することをお勧めします。…ディレクトリがスパースとして示されておらず、ディレクトリが大きい場合は、ディレクトリ内のファイルエントリの数を減らすことでディレクトリファイルのサイズを小さくすることをお勧めします。 |
アグリゲートの再配置に失敗しました |
重大 |
このイベントは、アグリゲートの再配置時にデスティネーションノードがオブジェクトストアに到達できない場合に発生します。 |
次の対処方法を実行します。…「 network interface show 」コマンドを使用して、インタークラスタ LIF がオンラインで機能していることを確認します。…デスティネーションノードのクラスタ間 LIF で「 ping 」コマンドを使用して、オブジェクトストアサーバへのネットワーク接続を確認します。…「 aggregate object-store config show 」コマンドを使用して、オブジェクトストアの設定が変更されておらず、ログインおよび接続の情報が正確であることを確認してください。または、再配置コマンドの「 override-destination-checks 」パラメータを使用してエラーを無効にすることもできます。詳細やサポートについては、ネットアップのテクニカルサポートにお問い合わせください。 |
シャドウコピーに失敗しました |
重大 |
ボリュームシャドウコピーサービス( VSS )の実行に失敗しました。 VSS は、 Microsoft Server のバックアップおよびリストアサービス処理です。 |
イベントメッセージに表示される情報を使用して、次の項目を確認します。… Is shadow copy configuration enabled? …適切なライセンスがインストールされているか ? …どの共有でシャドウコピー操作が実行されますか ? 共有名は正しいですか ? 共有パスは存在しますか ? シャドウコピーセットとそのシャドウコピーの状態はどうなっていますか ? |
ストレージスイッチの電源装置に障害が発生しました |
警告 |
クラスタスイッチに電源装置がありません。冗長性が低下し、停電が発生するリスクが高まります。 |
次の対処方法を実行します。クラスタスイッチに電力を供給する電源装置の電源がオンになっていることを確認します。電源コードが電源装置に接続されていることを確認します。問題が解決しない場合は、ネットアップのテクニカルサポートにお問い合わせください。 |
CIFS 認証が多すぎます |
警告 |
多数の認証ネゴシエーションが同時に行われています。このクライアントからの新規セッション要求は 256 個あります。 |
クライアントが新しい接続要求を 256 個以上作成した理由を調べます。エラーの原因を特定するために、クライアントまたはアプリケーションのベンダーに問い合わせなければならない場合があります。 |
管理共有への権限のないユーザアクセス |
警告 |
クライアントが ONTAP_ADMIN$ 共有に接続しようとしましたが、ログインしているユーザが許可されていません。 |
次の対処方法を実行します。…指定したユーザ名と IP アドレスがアクティブな Vscan スキャナプールの 1 つに設定されていることを確認します。… vserver vscan scanner pool show-active コマンドを使用して、現在アクティブなスキャナプールの設定を確認します。 |
ウイルスを検出しました |
警告 |
Vscan サーバからストレージシステムにエラーが報告されました。通常は、ウイルスが検出されたことを示します。ただし、 Vscan サーバでその他のエラーが発生すると、このイベントを原因できます。ファイルへのクライアントアクセスは拒否されます。Vscan サーバは、設定に応じて、ファイルをクリーンアップするか、ファイルを隔離するか、または削除する可能性があります。 |
「 syslog 」イベントで報告された Vscan サーバのログを調べて、感染ファイルのクリーンアップ、隔離、削除が正常に完了したかどうかを確認します。削除できなかった場合は、システム管理者が手動でファイルを削除しなければならないことがあります。 |
ボリュームはオフライン |
情報 |
ボリュームがオフラインになりました。 |
ボリュームをオンラインに戻します。 |
ボリュームは制限状態 |
情報 |
フレキシブルボリュームが制限されたことを示すイベントです。 |
ボリュームをオンラインに戻します。 |
Storage VMが停止しました |
情報 |
このメッセージは、「vserver stop」処理が成功した場合に表示されます。 |
Storage VMでデータアクセスを開始するには、「vserver start」コマンドを使用します。 |
ノードのパニック |
警告 |
このイベントはパニック状態になった場合に生成されます |
ネットアップカスタマーサポートにお問い合わせください。 |
ランサムウェア対策ログモニタ
モニタ名 |
重大度 |
製品説明 |
対処方法 |
Storage VM ランサムウェア対策監視が無効になっています |
警告 |
Storage VM のランサムウェア対策監視は無効になっています。Storage VM を保護するには、ランサムウェア対策を有効にしてください。 |
なし |
Storage VM ランサムウェア対策監視有効(ラーニングモード) |
情報 |
Storage VM のランサムウェア対策監視は、学習モードで有効になっています。 |
なし |
Volume Anti-Ransomware Monitoring を有効にしました |
情報 |
ボリュームのランサムウェア対策監視が有効になっている。 |
なし |
ボリュームのアンチランサムウェア監視が無効になっています |
警告 |
ボリュームのランサムウェア対策監視は無効になっています。ランサムウェア対策を有効にしてボリュームを保護 |
なし |
ボリュームでのランサムウェア対策監視の有効化(ラーニングモード) |
情報 |
ボリュームのランサムウェア対策監視は、学習モードで有効になっています。 |
なし |
ボリュームのアンチランサムウェア監視が一時停止されました(ラーニングモード) |
警告 |
ボリュームのアンチランサムウェアモニタリングが学習モードで一時停止しています。 |
なし |
ボリュームのアンチランサムウェアモニタリングが一時停止されました |
警告 |
ボリュームのランサムウェア対策監視が一時停止されています。 |
なし |
Volume Anti-Ransomware Monitoring Disabling の略 |
警告 |
ボリュームのアンチランサムウェア監視が無効になっています。 |
なし |
ランサムウェアのアクティビティが検出され |
重大 |
検出されたランサムウェアからデータを保護するために、元のデータをリストアするために使用できる Snapshot コピーが作成されました。システムによって AutoSupport または「コールホーム」メッセージが生成され、ネットアップテクニカルサポートおよび設定された宛先に送信されます。AutoSupport メッセージを使用すると、問題の特定と解決方法が向上します |
ランサムウェアの活動を修復する方法については、「 final-document-name 」を参照してください。 |
NetApp ONTAP モニタの FSX
モニタ名 |
しきい値 |
概要を監視します |
対処方法 |
FSX ボリューム容量がフルです |
警告@>85%…重大@>95% |
アプリケーションとお客様のデータを格納するには、ボリュームのストレージ容量が必要です。ONTAP ボリュームに格納されるデータが多いほど、以降のデータで使用できるストレージ容量は少なくなります。ボリューム内のデータストレージ容量が合計ストレージ容量に達すると、ストレージ容量の不足によりデータを格納できなくなる可能性があります。ボリュームの使用済みストレージ容量を監視して、データサービスの継続性を確保します。 |
重大のしきい値を超えた場合にサービスの中断を最小限に抑えるには、即時アクションが必要です。 1.スペースを解放するために、不要になったデータを削除することを検討してください |
FSX ボリューム高レイテンシ |
警告 @ > 1000 µ s …クリティカル @ > 2000 µ s |
ボリュームとは、多くの場合、 DevOps アプリケーション、ホームディレクトリ、データベースなどのパフォーマンス重視のアプリケーションによって I/O トラフィックを処理するオブジェクトです。ボリュームのレイテンシが高いと、アプリケーション自体に影響を及ぼし、タスクを実行できなくなる可能性があります。ボリュームのレイテンシを監視することは、アプリケーションの整合性を維持するうえで非常に重要です。 |
重大のしきい値を超えた場合にサービスの中断を最小限に抑えるには、即時アクションが必要です。 1.ボリュームに QoS ポリシーが割り当てられている場合は、ボリュームのワークロードが抑制される原因になった場合に制限しきい値を評価します。……警告しきい値を超えた場合には、すぐに次の処理を実行するよう計画してください。 1.ボリュームに QoS ポリシーが割り当てられている場合は、ボリュームのワークロードが調整される原因となった場合に備えて、制限のしきい値を評価します。… 2.ノードの利用率も高い場合は、ボリュームを別のノードに移動するか、ノードの合計ワークロードを減らしてください。 |
FSX ボリュームの inode 制限 |
警告@>85%…重大@>95% |
ファイルを格納するボリュームでは、インデックスノード( inode )を使用してファイルメタデータが格納されます。ボリュームが inode の割り当てを使用しなくなると、そのボリュームにはこれ以上ファイルを追加できません。警告アラートは、使用可能な inode の数を増やすために計画的な処理が必要であることを示しています。重大アラートは、ファイル制限の枯渇が差し迫っていることを示し、サービスの継続性を確保するために inode を解放するための緊急対策を講じる必要があることを示しています |
重大のしきい値を超えた場合にサービスの中断を最小限に抑えるには、即時アクションが必要です。 1.ボリュームの inode の値を増やすことを検討してください。inode の値がすでに最大値に達している場合は、ファイルシステムが最大サイズを超えているため、ボリュームを 2 つ以上のボリュームに分割することを検討してください。次の処理は、警告しきい値に違反した場合にすぐに実行されます。 1.ボリュームの inode の値を増やすことを検討してください。inode の値がすでに最大値に達している場合は、ファイルシステムの最大サイズを超えたためにボリュームを 2 つ以上のボリュームにスプリットすることを検討してください |
FSX ボリュームの qtree クォータオーバーコミット |
警告@>95%…重大@>100% |
ボリュームの qtree クォータオーバーコミットは、ボリュームが qtree クォータによってオーバーコミットされているとみなす割合を示します。ボリュームの qtree クォータの設定しきい値に達しました。ボリューム qtree クォータオーバーコミットを監視することで、ユーザに中断のないデータサービスが確実に提供されます。 |
重大しきい値を超える場合は、サービスの中断を最小限に抑えるためにただちに対処する必要があります: 1 。不要なデータを削除してください。警告しきい値を超えた場合は、ボリュームのスペースを増やすことを検討してください。 |
FSX Snapshot リザーブスペースがフルです |
警告@>90%…重大@>95% |
アプリケーションとお客様のデータを格納するには、ボリュームのストレージ容量が必要です。スナップショット予約領域と呼ばれる領域の一部はスナップショットの保存に使用され、データをローカルで保護できます。ONTAP ボリュームに格納される新規データや更新データが多いほど、使用される Snapshot 容量は増えますが、今後追加または更新されるデータに使用できる Snapshot ストレージ容量は少なくなります。ボリューム内の Snapshot データ容量が Snapshot リザーブの合計スペースに達すると、新しい Snapshot データを格納できなくなり、ボリューム内のデータの保護レベルが低下する可能性があります。ボリュームの使用済み Snapshot 容量を監視して、データサービスの継続性を確保します。 |
重大のしきい値を超えた場合にサービスの中断を最小限に抑えるには、即時アクションが必要です。 1.スナップショット予約がいっぱいになったときに、ボリューム内のデータ領域を使用するようにスナップショットを設定することを検討してください。 2.容量を解放するために不要になった古いスナップショットを削除することを検討してください……警告しきい値を超えた場合には、すぐに次のアクションを実行するよう計画してください。 …1.ボリューム内のスナップショット予約容量を増やして、増加に対応することを検討してください。 2.Snapshot リザーブがフルになったときにボリューム内のデータスペースを使用するように Snapshot を設定することを検討してください |
FSX ボリュームキャッシュミス率 |
警告@>95%…重大@>100% |
ボリュームキャッシュミス率は、クライアントアプリケーションからの読み取り要求に対してキャッシュからではなくディスクからデータが返される割合です。これは、ボリュームが設定されたしきい値に達したことを意味します。 |
重大しきい値を超える場合は、サービスの中断を最小限に抑えるためにただちに対処する必要があります: 1 。ボリュームのノードから一部のワークロードを移動して、 IO 負荷を軽減してください 2 。QoS 制限により、同じノードでの優先度の低いワークロードの要求を軽減 … 警告しきい値を超えた場合の即時対処を検討する。 1.ボリュームのノードから一部のワークロードを移動して、 IO 負荷を軽減してください 2 。QoS 制限により、同じノードでの優先度の低いワークロードの要求を軽減します。 3.ワークロード特性(ブロックサイズ、アプリケーションキャッシングなど)の変更 |
K8s モニタ
モニタ名 |
製品説明 |
対処方法 |
重大度/しきい値 |
永続ボリュームレイテンシが高い |
高レイテンシの永続ボリュームは、アプリケーション自体に影響を及ぼし、タスクを実行できない可能性があることを意味します。アプリケーションの一貫したパフォーマンスを維持するには、永続ボリュームのレイテンシを監視することが重要です。メディアタイプに基づく想定レイテンシは、最大 1 ~ 2 ミリ秒、 SAS は最大 8 ~ 10 ミリ秒、 SATA HDD は 17 ~ 20 ミリ秒です |
即時アクション重大しきい値を超えた場合は、すぐに実行できるアクションを検討してサービスの中断を最小限に抑えます。ボリュームにQoSポリシーが割り当てられている場合は、ボリュームのワークロードが調整されている場合に備えて、制限しきい値を評価します。すぐに実行するアクション警告しきい値に違反した場合は、すぐに次のアクションを計画します。ストレージプールの利用率も高い場合は、ボリュームを別のストレージプールに移動します。2.ボリュームにQoSポリシーが割り当てられている場合は、制限のしきい値が原因でボリュームのワークロードが調整されていないかどうかを評価します。3.コントローラの利用率も高い場合は、ボリュームを別のコントローラに移動するか、コントローラの総ワークロードを減らしてください。 |
警告@>6、000 μ s重大@>12、000 μ s |
クラスタメモリ飽和度高 |
クラスタの割り当て可能メモリの飽和度が高くなっています。クラスタのCPU飽和度は、メモリ使用量の合計をすべてのKubernetesノードの割り当て可能なメモリの合計で割った値です。 |
ノードを追加します。スケジュールされていないノードを修正します。適切なサイズのポッドでノードのメモリを解放 |
警告 @>80% 重大 @>90% |
ポッドの接続に失敗しました |
このアラートは、ポッドとのボリューム接続に失敗した場合に発生します。 |
警告 |
|
高い再送信レート |
高いTCP再送信レート |
ネットワークの輻輳を確認する-ネットワーク帯域幅を大量に消費するワークロードを特定します。PodのCPU利用率が高いかどうかを確認します。ハードウェアネットワークのパフォーマンスを確認します。 |
警告 @>10% 重大 @>25% |
ノードファイルシステム容量上限 |
ノードファイルシステム容量上限 |
-アプリケーションファイル用の十分なスペースを確保するために、ノードディスクのサイズを拡張します。-アプリケーションファイルの使用量を削減します。 |
警告 @>80% 重大 @>90% |
ワークロードネットワークジッタ上限 |
高いTCPジッタ(レイテンシ/応答時間の変動が大きい) |
ネットワークの輻輳を確認します。ネットワーク帯域幅を大量に消費するワークロードを特定します。PodのCPU利用率が高いかどうかを確認します。ハードウェアネットワークのパフォーマンスの確認 |
警告@>30 ms重大@>50 ms |
永続的ボリュームのスループット |
永続ボリュームの MBps のしきい値を使用して、永続ボリュームが事前に定義されたパフォーマンスの期待値を超えたときに管理者にアラートを送信し、他の永続ボリュームに影響を及ぼしている可能性があるこのモニタをアクティブにすると、 SSD 上の永続的ボリュームの一般的なスループットプロファイルに適したアラートが生成されます。このモニタはテナントのすべての永続ボリュームに対応します。警告および重大のしきい値は、監視目標に基づいてこのモニタを複製し、ストレージクラスに適したしきい値を設定することで調整できます。複製されたモニタは、テナント上の永続ボリュームのサブセットにさらにターゲットを絞ることができます。 |
即時アクション重大しきい値を超えた場合は、サービスの中断を最小限に抑えるための即時アクションを計画します。ボリュームに対して QoS MBps の制限を適用します。2.ボリュームのワークロードを処理しているアプリケーションに異常がないかどうかを確認します。すぐに実行するアクション警告しきい値に違反した場合は、次のアクションを直ちに実行することを計画してください。1.ボリュームに対して QoS MBps の制限を適用します。2.ボリュームのワークロードを処理しているアプリケーションに異常がないかどうかを確認します。 |
警告@>10,000 MB/秒重大@>15、000 MB/秒 |
OOMが終了する危険性のあるコンテナ |
コンテナのメモリ制限が低すぎます。コンテナが削除される可能性があります(Out of Memory Kill)。 |
コンテナメモリの上限を引き上げます。 |
警告@> 95% |
ワークロード停止 |
ワークロードに正常なポッドがありません。 |
重大@< 1 |
|
永続的ボリューム要求のバインドに失敗しました |
このアラートは、 PVC でバインディングが失敗した場合に発生します。 |
警告 |
|
リソースクォータのメモリ制限を超えようとしています |
ネームスペースのメモリ制限がResourceQuotaを超えようとしています |
警告 @>80% 重大 @>90% |
|
ResourceQuotaのメモリ要求が超過しようとしています |
ネームスペースのメモリ要求がResourceQuotaを超えようとしています |
警告 @>80% 重大 @>90% |
|
ノード作成に失敗しました |
設定エラーのため、ノードをスケジュールできませんでした。 |
Kubernetesイベントログで、設定エラーの原因を確認します。 |
重大 |
永続的ボリュームの再生に失敗しました |
ボリュームの自動再生に失敗しました。 |
警告@>0 B |
|
コンテナのCPUスロットリング |
コンテナのCPU制限が低すぎます。コンテナプロセスの速度が低下します。 |
コンテナのCPU制限を引き上げます。 |
警告 @>95% 重大 @>98% |
サービスロードバランサを削除できませんでした |
警告 |
||
永続ボリューム IOPS |
永続ボリュームの IOPS しきい値を使用すると、永続ボリュームが事前に定義されたパフォーマンスの期待値を超えたときに管理者に通知することができます。このモニタをアクティブにすると、永続ボリュームの一般的な IOPS プロファイルに適したアラートが生成されます。このモニタはテナントのすべての永続ボリュームに対応します。警告および重大のしきい値は、このモニタを複製し、ワークロードに適したしきい値を設定することで、監視の目標に基づいて調整できます。 |
即時アクション重大しきい値を超えた場合は、サービスの中断を最小限に抑えるために即時アクションを計画します。ボリュームのQoS IOPS制限を導入します。2.ボリュームのワークロードを処理しているアプリケーションに異常がないかどうかを確認します。すぐに実行するアクション警告しきい値に違反した場合は、すぐに次のアクションを計画します。ボリュームのQoS IOPS制限を導入します。2.ボリュームのワークロードを処理しているアプリケーションに異常がないかどうかを確認します。 |
警告@>20、000 IO/秒重大@>25、000 IO/秒 |
サービスロードバランサを更新できませんでした |
警告 |
||
ポッドのマウントに失敗しました |
このアラートは、ポッドでマウントに失敗したときに発生します。 |
警告 |
|
ノードPID圧力 |
(Linux)ノードで使用可能なプロセス識別子が削除しきい値を下回っています。 |
多数のプロセスを生成し、使用可能なプロセスIDのノードを枯渇させるポッドを検索して修正します。プロセスを生成するポッドやコンテナからノードを保護するには、PodPidsLimitを設定します。 |
重大@>0 |
ポッドイメージのプルエラー |
Kubernetesがポッドコンテナイメージを取得できませんでした。 |
-ポッド構成でポッドのイメージのスペルが正しいことを確認します。-レジストリにイメージタグが存在することを確認してください。-イメージレジストリのクレデンシャルを確認します。-レジストリ接続の問題を確認します。-公共のレジストリプロバイダーによって課されたレート制限に達していないことを確認します。 |
警告 |
ジョブの実行時間が長すぎます |
ジョブの実行時間が長すぎます |
警告@>1時間重大@>5時間 |
|
ノードメモリ上限 |
ノードのメモリ使用率が高くなっています |
ノードを追加します。スケジュールされていないノードを修正します。適切なサイズのポッドでノードのメモリを解放 |
警告 @>85% 重大 @>90% |
ResourceQuotaのCPU制限を超えようとしています |
ネームスペースのCPU制限がリソースクォータを超えようとしています |
警告 @>80% 重大 @>90% |
|
ポッドクラッシュループバックオフ |
ポッドがクラッシュし、何度も再起動しようとしました。 |
重大@>3 |
|
ノードCPU高 |
ノードのCPU使用率が高くなっています。 |
ノードを追加します。スケジュールされていないノードを修正します。適切なサイズのポッドでノードのCPUを解放 |
警告 @>80% 重大 @>90% |
ワークロードネットワークレイテンシのRTTが高い |
高いTCP RTT(Round Trip Time)遅延 |
Check for Network congestion:ネットワーク帯域幅を大量に消費するワークロードを特定します。PodのCPU利用率が高いかどうかを確認します。ハードウェアネットワークのパフォーマンスを確認します。 |
警告@>150 ms重大@>300 ms |
ジョブ失敗 |
ノードのクラッシュまたはリブート、リソースの枯渇、ジョブのタイムアウト、またはポッドのスケジュール設定エラーが原因で、ジョブが正常に完了しませんでした。 |
Kubernetesイベントログで障害の原因を確認します。 |
警告@>1 |
永続的ボリュームが数日でフル |
永続的ボリュームのスペースが数日後に不足します |
-ボリュームサイズを大きくして、アプリケーションファイル用の十分な空き容量を確保します。-アプリケーションに保存されるデータ量を削減します。 |
警告@< 8日重大@< 3日 |
ノードのメモリ圧力 |
ノードのメモリが不足しています。使用可能なメモリが削除しきい値に達しました。 |
ノードを追加します。スケジュールされていないノードを修正します。適切なサイズのポッドでノードのメモリを解放 |
重大@>0 |
ノード-準備完了 |
ノードの準備が5分間完了していません |
ノードに十分なCPU、メモリ、およびディスクリソースがあることを確認します。ノードのネットワーク接続を確認してください。Kubernetesイベントログで障害の原因を確認します。 |
重大@< 1 |
永続的ボリュームの容量が上限です |
永続的ボリュームバックエンドの使用容量が多くなっています。 |
-ボリュームサイズを大きくして、アプリケーションファイル用の十分な空き容量を確保します。-アプリケーションに保存されるデータ量を削減します。 |
警告 @>80% 重大 @>90% |
サービスロードバランサを作成できませんでした |
サービスロードバランサの作成に失敗しました |
重大 |
|
ワークロードレプリカの不一致 |
現在、一部のポッドはDeploymentまたはDaemonSetで使用できません。 |
警告@>1 |
|
ResourceQuota CPU要求が超過しようとしています |
ネームスペースのCPU要求がリソースクォータを超えようとしています |
警告 @>80% 重大 @>90% |
|
高い再送信レート |
高いTCP再送信レート |
ネットワークの輻輳を確認する-ネットワーク帯域幅を大量に消費するワークロードを特定します。PodのCPU利用率が高いかどうかを確認します。ハードウェアネットワークのパフォーマンスを確認します。 |
警告 @>10% 重大 @>25% |
ノードディスク圧力 |
ノードのルートファイルシステムまたはイメージファイルシステムで使用可能なディスクスペースとinodeが削除しきい値を超えています。 |
-アプリケーションファイル用の十分なスペースを確保するために、ノードディスクのサイズを拡張します。-アプリケーションファイルの使用量を削減します。 |
重大@>0 |
クラスタのCPU飽和度-上限 |
クラスタの割り当て可能なCPU使用率が高くなっています。クラスタのCPU使用率は、CPU使用率の合計をすべてのKubernetesノードの割り当て可能なCPUの合計で割って算出されます。 |
ノードを追加します。スケジュールされていないノードを修正します。適切なサイズのポッドでノードのCPUを解放 |
警告 @>80% 重大 @>90% |
変更ログモニタ
モニタ名 |
重大度 |
概要を監視します |
内部ボリュームが検出されました |
情報 |
このメッセージは、内部ボリュームが検出された場合に表示されます。 |
内部ボリュームが変更されました |
情報 |
このメッセージは、内部ボリュームが変更された場合に表示されます。 |
ストレージノードを検出 |
情報 |
このメッセージは、ストレージノードが検出された場合に表示されます。 |
ストレージノードが削除されました |
情報 |
このメッセージは、ストレージノードが削除された場合に表示されます。 |
ストレージプールが検出されました |
情報 |
このメッセージは、ストレージプールが検出された場合に表示されます。 |
Storage Virtual Machineを検出 |
情報 |
このメッセージは、Storage Virtual Machineが検出された場合に表示されます。 |
Storage Virtual Machineを変更 |
情報 |
このメッセージは、Storage Virtual Machineが変更された場合に表示されます。 |
データ収集モニタ
モニタ名 |
製品説明 |
対処方法 |
Acquisition Unit のシャットダウン |
Data Infrastructure Insights Acquisition Unitは、アップグレードの一環として定期的に再起動し、新機能を導入します。これは、一般的な環境で月に1回以下の頻度で発生します。Acquisition Unitがシャットダウンしたという警告アラートのすぐ後に、新しく再起動したAcquisition UnitがData Infrastructure Insightsへの登録を完了したことを示す解決策が表示されます。通常、このシャットダウンと登録のサイクルには5~15分かかります。 |
このアラートが頻繁に発生する場合や15分以上続く場合は、Acquisition Unit、ネットワーク、およびAUをインターネットに接続するプロキシをホストしているシステムの動作を確認してください。 |
コレクタでエラーが |
データコレクタのポーリングで予期しない障害が発生しました。 |
Data Infrastructure Insightsのデータコレクタページにアクセスして、状況の詳細を確認してください。 |
コレクタ警告 |
このアラートは通常、データコレクタまたはターゲットシステムの設定に誤りがある場合に発生します。今後のアラートを防止するために、設定を再確認してください。また、データコレクタがすべてのデータを収集した、完了していないデータの取得が原因の可能性もあります。これは、データ収集中に状況が変化した場合に発生します(データ収集の開始時に存在する仮想マシンが、データ収集の実行中とキャプチャの前に削除された場合など)。 |
データコレクタまたはターゲットシステムの設定を確認します。コレクタ警告のモニタは他のモニタタイプよりも多くのアラートを送信できるため、トラブルシューティングを行っていない限り、アラート受信者を設定しないことをお勧めします。 |
セキュリティモニタ
モニタ名 |
しきい値 |
概要を監視します |
対処方法 |
AutoSupport HTTPS転送が無効 |
警告@<1. |
AutoSupportでは、転送プロトコルとしてHTTPS、HTTP、およびSMTPがサポートされます。AutoSupportメッセージは機密性が高いため、NetAppでは、AutoSupportメッセージをNetAppサポートに送信するためのデフォルトの転送プロトコルとしてHTTPSを使用することを強く推奨します。 |
AutoSupport メッセージの転送プロトコルとしてHTTPSを設定するには、次のONTAP コマンドを実行します。…system node AutoSupport modify -transport https |
SSH用のクラスタのセキュアでない暗号 |
警告@<1. |
SSHでセキュアでない暗号(たとえば、*CBCで始まる暗号)が使用されていることを示します。 |
CBC暗号を削除するには、次のONTAP コマンドを実行します。…security ssh remove -vserver <admin vserver>-ciphers aes256-cbc、aes192-cbc、aes128-cbc、3des-cbc |
クラスタでログインバナーが無効になりました |
警告@<1. |
ONTAP システムにアクセスするユーザに対してログインバナーが無効になっていることを示します。ログインバナーを表示すると、システムに期待されるアクセス方法や使用方法を設定するのに役立ちます。 |
クラスタにログインバナーを設定するには、次のONTAP コマンドを実行します。…security login banner modify -vserver <admin SVM>-message "権限のあるユーザだけがアクセスできます" |
クラスタピア通信が暗号化されていません |
警告@<1. |
ディザスタリカバリ、キャッシュ、またはバックアップのためにデータをレプリケートする場合は、ONTAPクラスタ間でネットワークを介して転送するときに、そのデータを保護する必要があります。ソースとデスティネーションの両方のクラスタで暗号化を設定する必要があります。 |
ONTAP 9 6より前に作成されたクラスタピア関係で暗号化を有効にするには、ソースクラスタとデスティネーションクラスタを9.6にアップグレードする必要があります。その後、「cluster peer modify」コマンドを使用して、クラスタピアリング暗号化を使用するようにソースとデスティネーション両方のクラスタピアを変更します。詳細については、『ONTAP 9セキュリティ設定ガイド』を参照してください。 |
デフォルトのローカル管理ユーザが有効 |
警告@>0 |
ロックコマンドを使用して、不要なデフォルトの管理ユーザ(組み込み)アカウントをロック(無効化)することを推奨します。これらは主に、パスワードが更新または変更されていないデフォルトアカウントです。 |
組み込みの「admin」アカウントをロックするには、次のONTAP コマンドを実行します。…security login lock-username admin |
FIPSモードが無効 |
警告@<1. |
FIPS 140-2への準拠を有効にすると、TLSv1とSSLv3は無効になり、TLSv1.1とTLSv1.2のみが引き続き有効になります。ONTAPでは、FIPS 140-2への準拠が有効な場合、TLSv1とSSLv3を有効にすることはできません。 |
クラスタでFIPS 140-2準拠モードを有効にするには、次のONTAP コマンドをadvanced権限モードで実行します。…security config modify -interface SSL -is-fips-enabled true |
ログ転送が暗号化されていない |
警告@<1. |
違反の範囲やフットプリントを単一のシステムまたはソリューションに限定するには、syslog情報のオフロードが必要です。そのため、NetAppでは、syslog情報を安全なストレージまたは保持場所に安全にオフロードすることを推奨しています。 |
ログの転送先を作成したあとにプロトコルを変更することはできません。暗号化されたプロトコルに変更するには、次のONTAP コマンドを使用して、ログの転送先を削除して再作成します。…cluster log-forwarding create -destination <destination ip>-protocol tcp-encrypted |
MD5ハッシュ化パスワード |
警告@>0 |
ONTAP ユーザアカウントのパスワードには、より安全なSHA-512ハッシュ関数を使用することを推奨します。安全性の低いMD5ハッシュ関数を使用するアカウントは、SHA-512ハッシュ関数に移行する必要があります。 |
ユーザに解決策 MD5ハッシュ関数を使用するパスワードでアカウントをロックするには、次のONTAP コマンドを実行します。…security login lock -vserver *-username *-hash-function MD5 |
NTPサーバが設定されていません |
警告@<1. |
クラスタにNTPサーバが設定されていないことを示します。冗長性と最適なサービスを実現するために、最低3台のNTPサーバをクラスタに関連付けることを推奨します。 |
クラスタにNTPサーバを関連付けるには、次のONTAP コマンドを実行します。cluster time-service ntp server create -server <ntp server host name or ip address> |
NTPサーバ数が不足しています |
警告@<3. |
クラスタに設定されているNTPサーバが3台未満であることを示します。冗長性と最適なサービスを実現するために、最低3台のNTPサーバをクラスタに関連付けることを推奨します。 |
クラスタにNTPサーバを関連付けるには、次のONTAP コマンドを実行します。…cluster time-service ntp server create -server <ntp server host name or ip address> |
リモートシェルが有効です |
警告@>0 |
リモートシェルは、ONTAP 解決策 へのコマンドラインアクセスを確立するためのセキュアな方法ではありません。セキュアなリモートアクセスのために、リモートシェルを無効にする必要があります。 |
ネットアップでは、セキュアなリモートアクセスのためにSecure Shell(SSH)を推奨しています。クラスタでリモートシェルを無効にするには、advanced権限モードで次のONTAP コマンドを実行します。…security protocol modify -application rsh -enabled false |
Storage VM監査ログが無効になりました |
警告@<1. |
SVMで監査ログが無効になっていることを示します。 |
SVMの監査ログを設定するには、次のONTAP コマンドを実行します。…vserver audit enable -vserver <svm> |
SSH用のStorage VMのセキュアでない暗号 |
警告@<1. |
SSHでセキュアでない暗号(たとえば、*CBCで始まる暗号)が使用されていることを示します。 |
CBC暗号を削除するには、次のONTAP コマンドを実行します。…security ssh remove -vserver <vserver>-ciphers aes256-cbc、aes192-cbc、aes128-cbc、3des-cbc |
Storage VMのログインバナーが無効になっています |
警告@<1. |
システムでSVMにアクセスするユーザに対してログインバナーが無効になっていることを示します。ログインバナーを表示すると、システムに期待されるアクセス方法や使用方法を設定するのに役立ちます。 |
クラスタにログインバナーを設定するには、次のONTAP コマンドを実行します。…security login banner modify -vserver <svm>-message "権限のあるユーザだけがアクセスできます" |
Telnetプロトコルが有効 |
警告@>0 |
Telnetは、ONTAP 解決策 へのコマンドラインアクセスを確立するためのセキュアな方法ではありません。セキュアなリモートアクセスのためにTelnetを無効にする必要があります。 |
NetAppでは、セキュアなリモートアクセスにセキュアシェル(SSH)を推奨しています。クラスタでTelnetを無効にするには、次のONTAP コマンドをadvanced権限モードで実行します。…security protocol modify -application telnet -enabled false |
データ保護モニタ
モニタ名 |
しきい値 |
概要を監視します |
対処方法 |
LUN Snapshotコピー用の十分なスペースがありません |
(contains _luns = Yes)Warning @> 95%…Critical @> 100% |
アプリケーションとお客様のデータを格納するには、ボリュームのストレージ容量が必要です。スナップショット予約領域と呼ばれる領域の一部はスナップショットの保存に使用され、データをローカルで保護できます。ONTAP ボリュームに格納される新規データや更新データが多いほど、使用される Snapshot 容量は増えますが、今後追加または更新されるデータに使用できる Snapshot ストレージ容量は少なくなります。ボリューム内のSnapshotデータ容量がSnapshotリザーブスペースの合計に達すると、新しいSnapshotデータを格納できなくなり、ボリューム内のLUN内のデータの保護レベルが低下する可能性があります。ボリュームの使用済み Snapshot 容量を監視して、データサービスの継続性を確保します。 |
緊急アクション重大しきい値に違反した場合は、サービスの中断を最小限に抑えるための即時アクションを考慮してください。1.Snapshot リザーブがフルになったときにボリューム内のデータスペースを使用するように Snapshot を設定します。2.不要な古いSnapshotをいくつか削除してスペースを解放してください。すぐに実行するアクション警告しきい値に違反した場合は、次のアクションを直ちに実行することを計画してください。1.この増加に対応するために、ボリューム内の Snapshot リザーブスペースを増やしてください。2.Snapshot リザーブがフルになったときにボリューム内のデータスペースを使用するように Snapshot を設定します。 |
SnapMirror関係の遅延 |
警告@>150%…重大@>300% |
SnapMirror関係の遅延は、Snapshotのタイムスタンプとデスティネーションシステムの時間の差です。lag_time_ percentは、SnapMirrorポリシーのスケジュール間隔に対する遅延時間の比率です。遅延時間がスケジュール間隔と等しい場合、lag_time_パーセントは100%になります。SnapMirrorポリシーにスケジュールが設定されていない場合、lag_time_ percentは計算されません。 |
snapmirror showコマンドを使用して、SnapMirrorのステータスを監視します。snapmirror show-historyコマンドを使用して、SnapMirror転送の履歴を確認します |
Cloud Volume(CVO)モニタ
モニタ名 |
CI の重大度 |
概要を監視します |
対処方法 |
CVO Disk Out of Service』を参照してください |
情報 |
「このイベントは、ディスクが障害としてマークされているか、完全消去中であるか、 Maintenance Center に入力されたためにサービスから削除された場合に発生します。」 |
なし |
ストレージプールのCVOギブバックに失敗しました |
重大 |
ストレージフェイルオーバー( SFO )ギブバックの一環としてアグリゲートを移行したときに、デスティネーションノードがオブジェクトストアに到達できない場合に発生します。 |
次の対処方法を実行します。network interface showコマンドを使用して、インタークラスタLIFがオンラインで機能していることを確認します。デスティネーションノードのクラスタ間LIFで「ping」コマンドを使用して、オブジェクトストアサーバへのネットワーク接続を確認してください。aggregate object-store config showコマンドを使用して、オブジェクトストアの設定が変更されておらず、ログインおよび接続の情報がまだ正確であることを確認してください。また、 giveback コマンドの「 require-partner-waiting 」パラメータに false を指定して、エラーを無効にすることもできます。詳細またはサポートについては、ネットアップテクニカルサポートにお問い合わせください。 |
CVO HAインターコネクトが停止しています |
警告 |
ハイアベイラビリティ( HA )インターコネクトが停止しています。フェイルオーバーを利用できない場合、サービスが停止するリスクがあります。 |
対処方法は、プラットフォームでサポートされている HA インターコネクトリンクの数と種類、およびインターコネクトが停止している理由によって異なります。リンクが停止している場合:HAペアの両方のコントローラが動作していることを確認します。外部接続リンクの場合は、インターコネクトケーブルが正しく接続されていることと、Small Form-Factor Pluggable(SFP)がある場合は、両方のコントローラに正しく取り付けられていることを確認してください。内部接続リンクの場合は、「ic link off」コマンドと「ic link on」コマンドを使用して、一方のリンクを無効にし、再度有効にします。リンクが無効になっている場合は、「ic link on」コマンドを使用してリンクを有効にします。ピアが接続されていない場合は、「IC link off」コマンドと「IC link on」コマンドを使用して、一方のリンクをディセーブルにし、再度イネーブルにします。問題が解決しない場合は、ネットアップテクニカルサポートにお問い合わせください。 |
ユーザあたりのCVOの最大セッション数を超えました |
警告 |
TCP 接続でのユーザあたりの最大許容セッション数を超えました。セッションを確立する要求は、一部のセッションが解放されるまで拒否されます。 |
次の修正アクションを実行します。クライアントで実行されているすべてのアプリケーションを検査し、正常に動作していないアプリケーションを終了します。クライアントをリブートします。問題 が新規または既存のアプリケーションに起因しているかどうかを確認します。アプリケーションが新規の場合は、「cifs option modify -max-opens-opense-file-per-tree」コマンドを使用して、クライアントのしきい値を高く設定します。クライアントが想定どおりに動作していても、しきい値の上昇が必要となる場合があります。クライアントのしきい値を高く設定するには、 advanced 権限が必要です。既存のアプリケーションが問題 の原因である場合は、クライアントに問題 がある可能性があります。詳細またはサポートについては、ネットアップテクニカルサポートにお問い合わせください。 |
CVO NetBIOS名が競合しています |
重大 |
NetBIOS ネームサービスが、リモートマシンから名前登録要求に対して否定的な応答を受信しました。これは通常、 NetBIOS 名またはエイリアスの競合が原因です。その結果、クライアントがデータにアクセスできなくなったり、クラスタ内の適切なデータを提供しているノードに接続できなくなったりすることがあります。 |
次のいずれかの対処策を実行します。NetBIOS名またはエイリアスに競合がある場合は、次のいずれかを実行します。「vserver cifs delete -alias alias -vserver vserver」コマンドを使用して、重複するNetBIOSエイリアスを削除します。「vserver cifs create -aliases alias alias -vserver vserver」コマンドを使用して、重複する名前を削除し、新しい名前のエイリアスを追加してNetBIOSエイリアスの名前を変更します。エイリアスが設定されておらず、NetBIOS名に競合がある場合は、「vserver cifs delete -vserver vserver」コマンドと「vserver cifs create -cifs -server netbiosname」コマンドを使用してCIFSサーバの名前を変更します。メモ: CIFS サーバを削除すると、データにアクセスできなくなる可能性があります。NetBIOS名を削除するか、リモートマシンのNetBIOS名を変更します。 |
CVO NFSv4のストアプールを使い果たしました |
重大 |
NFSv4 ストアプールを使い果たしました。 |
NFS サーバが応答しなくなってから 10 分以上が経過した場合は、ネットアップテクニカルサポートにお問い合わせください。 |
CVOノードのパニック |
警告 |
このイベントはパニック状態になった場合に生成されます |
ネットアップカスタマーサポートにお問い合わせください。 |
CVOノードのルートボリュームのスペースが不足しています |
重大 |
ルートボリュームのスペースが危険なほど少なくなっていることが検出されました。ノードが完全には動作していません。ノードで NFS アクセスと CIFS アクセスが制限されているため、クラスタ内でデータ LIF がフェイルオーバーされる可能性があります。管理機能は、ノードがルートボリューム上のスペースをクリアするためのローカルリカバリ手順に限定されます。 |
次の対処策を実行します。古いSnapshotコピーを削除するか、/mrootdirectoryから不要になったファイルを削除するか、ルートボリュームの容量を拡張して、ルートボリュームのスペースをクリアします。コントローラをリブートします。詳細またはサポートについては、ネットアップテクニカルサポートにお問い合わせください。 |
CVOが存在しない管理者共有です |
重大 |
vscan 問題:クライアントが、存在しない ONTAP_ADMIN$ 共有に接続しようとしました。 |
指定した SVM ID で Vscan が有効になっていることを確認してください。SVM で Vscan を有効にすると、 SVM 用に ONTAP_ADMIN$ 共有が自動的に作成されます。 |
CVOオブジェクトストアのホスト解決不可 |
重大 |
オブジェクトストアサーバのホスト名を IP アドレスに解決できません。オブジェクトストアクライアントが IP アドレスに解決しないとオブジェクトストアサーバと通信できません。その結果、データにアクセスできなくなる可能性があります。 |
DNS 設定を調べて、ホスト名が IP アドレスで正しく設定されていることを確認します。 |
CVOオブジェクトストアのクラスタ間LIFが停止しています |
重大 |
オブジェクトストアクライアントが、オブジェクトストアサーバと通信するための稼働している LIF を見つけることができません。クラスタ間 LIF が動作可能になるまで、このノードはオブジェクトストアクライアントトラフィックを許可しません。その結果、データにアクセスできなくなる可能性があります。 |
次の対処方法を実行します。「network interface show -role intercluster」コマンドを使用して、クラスタ間LIFのステータスを確認します。クラスタ間LIFが正しく設定され、動作していることを確認してください。インタークラスタLIFが設定されていない場合は、「network interface create -role intercluster」コマンドを使用して追加します。 |
CVOオブジェクトストアシグネチャの不一致 |
重大 |
オブジェクトストアサーバに送信された要求の署名が、クライアントで計算された署名と一致しません。その結果、データにアクセスできなくなる可能性があります。 |
シークレットアクセスキーが正しく設定されていることを確認します。正しく設定されている場合は、ネットアップテクニカルサポートにお問い合わせください。 |
CVO QoS監視メモリの最大化 |
重大 |
QoS サブシステムの動的メモリが現在のプラットフォームハードウェアの上限に達しました。一部の QoS 機能は、制限された容量で動作する場合があります。 |
いくつかのアクティブなワークロードまたはストリームを削除してメモリを解放してください。アクティブなワークロードを判別するには、「statistics show -object workloads counter ops」コマンドを使用します。アクティブなワークロードに対する処理がゼロ以外の処理を示しています。次に、「workload delete <workloads name>」コマンドを複数回使用して、特定のワークロードを削除します。または、「stream delete-workload <workload name>*」コマンドを使用して、アクティブなワークロードから関連するストリームを削除します。 |
CVO READDIRタイムアウト |
重大 |
READDIR ファイル処理が、 WAFL で実行が許可されているタイムアウトを超えました。これは、ディレクトリが非常に大きく、スパースであるためです。対処方法を推奨します。 |
次の対処方法を実行します。Find information specific to recent directories that have READDIR file operations expire using the following 'diag ' privilege nodeshell CLIコマンド:WAFL readdir notice showディレクトリがスパースとして示されているかどうかを確認します。ディレクトリがスパースとして示されている場合は、ディレクトリの内容を新しいディレクトリにコピーしてディレクトリファイルのsparsessを削除することをお勧めします。ディレクトリがスパースとして示されておらず、ディレクトリが大きい場合は、ディレクトリ内のファイルエントリの数を減らすことでディレクトリファイルのサイズを縮小することを推奨します。 |
ストレージプールのCVOの再配置に失敗しました |
重大 |
このイベントは、アグリゲートの再配置時にデスティネーションノードがオブジェクトストアに到達できない場合に発生します。 |
次の対処方法を実行します。network interface showコマンドを使用して、インタークラスタLIFがオンラインで機能していることを確認します。デスティネーションノードのクラスタ間LIFで「ping」コマンドを使用して、オブジェクトストアサーバへのネットワーク接続を確認してください。aggregate object-store config showコマンドを使用して、オブジェクトストアの設定が変更されておらず、ログインおよび接続の情報がまだ正確であることを確認してください。また、再配置コマンドの「 override -destination -checks 」パラメータを使用して、このエラーを無視することもできます。詳細またはサポートについては、ネットアップテクニカルサポートにお問い合わせください。 |
CVOシャドウコピーが失敗しました |
重大 |
ボリュームシャドウコピーサービス( VSS )の実行に失敗しました。 VSS は、 Microsoft Server のバックアップおよびリストアサービス処理です。 |
イベントメッセージに表示された情報を使用して、次のことを確認します。Is shadow copy configuration enabled?適切なライセンスがインストールされているか。どの共有でシャドウコピー処理が実行されますか。共有名は正しいですか?共有パスが存在するか。シャドウコピーセットとそのシャドウコピーの状態 |
CVO Storage VMが停止されました |
情報 |
このメッセージは、「vserver stop」処理が成功した場合に表示されます。 |
Storage VMでデータアクセスを開始するには、「vserver start」コマンドを使用します。 |
CVOにCIFS認証が多すぎます |
警告 |
多数の認証ネゴシエーションが同時に行われています。このクライアントからの新規セッション要求は 256 個あります。 |
クライアントが新しい接続要求を 256 個以上作成した理由を調べます。エラーの原因を特定するために、クライアントまたはアプリケーションのベンダーに問い合わせなければならない場合があります。 |
CVOの未割り当てディスク |
情報 |
システムに未割り当てのディスクがあります - 容量が無駄になっており、構成の設定ミスや部分的な変更がシステムに適用されている可能性があります。 |
次の対処方法を実行します。disk show -nコマンドを使用して、割り当てが解除されたディスクを確認します。disk assignコマンドを使用して、ディスクをシステムに割り当てます。 |
CVO:管理者共有への不正なユーザアクセス |
警告 |
クライアントが ONTAP_ADMIN$ 共有に接続しようとしましたが、ログインしているユーザが許可されていません。 |
次の対処策を実行します。指定したユーザ名とIPアドレスがアクティブなVscanスキャナプールの1つに設定されていることを確認します。vserver vscan scanner-pool show-activeコマンドを使用して、現在アクティブなスキャナプールの設定を確認します。 |
CVO Virus Detected.(CVOウイルスが検出 |
警告 |
Vscan サーバからストレージシステムにエラーが報告されました。通常は、ウイルスが検出されたことを示します。ただし、 Vscan サーバで発生したその他のエラーではこのイベントを原因 処理できます。ファイルへのクライアントアクセスが拒否されました。Vscan サーバは、設定に応じて、ファイルをクリーンアップするか、ファイルを隔離するか、または削除する可能性があります。 |
「 syslog 」イベントで報告された Vscan サーバのログを調べて、感染ファイルのクリーンアップ、隔離、削除が正常に完了したかどうかを確認します。削除できなかった場合は、システム管理者が手動でファイルを削除しなければならないことがあります。 |
CVO Volumeオフライン |
情報 |
ボリュームがオフラインになりました。 |
ボリュームをオンラインに戻します。 |
CVO Volumeは制限付きです |
情報 |
フレキシブルボリュームが制限されたことを示すイベントです。 |
ボリュームをオンラインに戻します。 |
ビジネス継続性(SMBC)メディエーターログモニタ用SnapMirror
モニタ名 |
重大度 |
概要を監視します |
対処方法 |
ONTAP メディエーターが追加されました |
情報 |
このメッセージは、ONTAP メディエーターがクラスタに追加された場合に表示されます。 |
なし |
ONTAP メディエーターにアクセスできません |
重大 |
このメッセージは、ONTAP メディエーターが転用された場合、またはメディエーターパッケージがメディエーターサーバにインストールされなくなった場合に表示されます。そのため、SnapMirrorフェイルオーバーを実行できません。 |
「snapmirror mediator remove」コマンドを使用して、現在のONTAP メディエーターの設定を削除します。snapmirror mediator addコマンドを使用してONTAP メディエーターへのアクセスを再設定します。 |
ONTAP メディエーターが削除されました |
情報 |
このメッセージは、ONTAP メディエーターがクラスタから削除された場合に表示されます。 |
なし |
ONTAP メディエーターに到達できません |
警告 |
このメッセージは、クラスタでONTAP メディエーターに到達できない場合に表示されます。そのため、SnapMirrorフェイルオーバーを実行できません。 |
「network ping」コマンドと「network traceroute」コマンドを使用して、ONTAP メディエーターへのネットワーク接続を確認します。問題 が解除されない場合は、「snapmirror mediator remove」コマンドを使用して現在のONTAP メディエーターの設定を削除します。snapmirror mediator addコマンドを使用してONTAP メディエーターへのアクセスを再設定します。 |
SMBC CA証明書期限切れ |
重大 |
このメッセージは、ONTAP メディエーター認証局(CA)証明書の有効期限が切れた場合に表示されます。そのため、ONTAP メディエーターへの以降のすべての通信を行うことができません。 |
「snapmirror mediator remove」コマンドを使用して、現在のONTAP メディエーターの設定を削除します。ONTAP メディエーターサーバで新しいCA証明書を更新します。snapmirror mediator addコマンドを使用してONTAP メディエーターへのアクセスを再設定します。 |
SMBC CA証明書の有効期限が切れて |
警告 |
このメッセージは、ONTAP メディエーター認証局(CA)証明書の有効期限が30日以内になった場合に表示されます。 |
この証明書の有効期限が切れる前に、「snapmirror mediator remove」コマンドを使用して現在のONTAP メディエーターの設定を削除します。ONTAP メディエーターサーバで新しいCA証明書を更新します。snapmirror mediator addコマンドを使用してONTAP メディエーターへのアクセスを再設定します。 |
SMBCクライアント証明書期限切れ |
重大 |
このメッセージは、ONTAP メディエータークライアント証明書の有効期限が切れた場合に表示されます。そのため、ONTAP メディエーターへの以降のすべての通信を行うことができません。 |
「snapmirror mediator remove」コマンドを使用して、現在のONTAP メディエーターの設定を削除します。snapmirror mediator addコマンドを使用してONTAP メディエーターへのアクセスを再設定します。 |
SMBCクライアント証明書の有効期限が切れて |
警告 |
このメッセージは、ONTAP メディエータークライアント証明書の有効期限が30日以内に切れると表示されます。 |
この証明書の有効期限が切れる前に、「snapmirror mediator remove」コマンドを使用して現在のONTAP メディエーターの設定を削除します。snapmirror mediator addコマンドを使用してONTAP メディエーターへのアクセスを再設定します。 |
SMBC関係が同期していない場合の注意:UMにはこれがありません |
重大 |
このメッセージは、SnapMirror for Business Continuity(SMBC)関係のステータスが「In-Sync」から「Out-of-sync」に変わると表示されます。このRPO = 0のため、データ保護は中断されます。 |
ソースボリュームとデスティネーションボリュームの間のネットワーク接続を確認します。デスティネーションで「snapmirror show」コマンドを使用し、ソースで「snapmirror list-destinations」コマンドを使用して、SMBC関係のステータスを監視します。自動再同期では、関係のステータスが「同期中」に戻ります。再同期に失敗した場合は、クラスタ内のすべてのノードがクォーラムにあること、および正常な状態であることを確認します。 |
SMBCサーバ証明書期限切れ |
重大 |
このメッセージは、ONTAP メディエーターサーバ証明書の有効期限が切れた場合に表示されます。そのため、ONTAP メディエーターへの以降のすべての通信を行うことができません。 |
「snapmirror mediator remove」コマンドを使用して、現在のONTAP メディエーターの設定を削除します。ONTAP メディエーターサーバで新しいサーバ証明書を更新します。snapmirror mediator addコマンドを使用してONTAP メディエーターへのアクセスを再設定します。 |
SMBCサーバ証明書の有効期限が切れて |
警告 |
このメッセージは、ONTAP メディエーターサーバ証明書の有効期限が30日以内になった場合に表示されます。 |
この証明書の有効期限が切れる前に、「snapmirror mediator remove」コマンドを使用して現在のONTAP メディエーターの設定を削除します。ONTAP メディエーターサーバで新しいサーバ証明書を更新します。snapmirror mediator addコマンドを使用してONTAP メディエーターへのアクセスを再設定します。 |
その他の電源、ハートビート、およびその他のシステムモニタ
モニタ名 | 重大度 | 概要を監視します | 対処方法 |
---|---|---|---|
ディスクシェルフの電源装置が検出されました |
情報 |
このメッセージは、電源装置をディスクシェルフに追加した場合に表示されます。 |
なし |
ディスクシェルフの電源装置が取り外されました |
情報 |
このメッセージは、電源装置をディスクシェルフから取り外すと表示されます。 |
なし |
MetroClusterの自動計画外スイッチオーバーが無効 |
重大 |
このメッセージは、自動計画外スイッチオーバー機能が無効になっている場合に表示されます。 |
クラスタ内の各ノードで「MetroCluster modify -node -name <nodename> -automatic-switchover -onfailure true」コマンドを実行して、自動スイッチオーバーを有効にします。 |
MetroCluster ストレージブリッジに到達不能 |
重大 |
ストレージブリッジに管理ネットワーク経由でアクセスできません |
1)ブリッジをSNMPで監視している場合は、「network interface show」コマンドを使用して、ノード管理LIFが動作していることを確認します。「network ping」コマンドを使用して、ブリッジがアクティブであることを確認します。2)ブリッジがインバンドで監視されている場合は、ブリッジへのファブリックケーブル接続を確認し、ブリッジの電源が入っていることを確認します。 |
MetroCluster ブリッジの温度が異常-重大を下回っています |
重大 |
ファイバチャネルブリッジのセンサーが重大しきい値を下回っている温度を報告しています。 |
1)ストレージブリッジのファンの動作ステータスを確認します。2)ブリッジが推奨される温度条件で動作していることを確認します。 |
MetroCluster ブリッジの温度が異常-重大を超えています |
重大 |
ファイバチャネルブリッジのセンサーが重大しきい値を超えている温度を報告しています。 |
1)ストレージブリッジのシャーシ温度センサーの動作ステータスを確認するには、コマンド「storage bridge show -Cooling」を使用します。2)ストレージブリッジが推奨される温度条件で動作していることを確認します。 |
MetroClusterで取り残されたアグリゲート |
警告 |
アグリゲートはスイッチバック時にリストアされませんでした。 |
1)コマンド「aggr show」を使用して、アグリゲートの状態を確認します。2)アグリゲートがオンラインの場合、コマンド「MetroCluster switchback」を使用して、アグリゲートを元の所有者に戻します。 |
MetroCluster パートナー間のすべてのリンクが停止しています |
重大 |
RDMAインターコネクトアダプタとクラスタ間LIFがピアクラスタへの接続を切断しているか、ピアクラスタが停止しています。 |
1)クラスタ間LIFが動作していることを確認します。インタークラスタLIFが停止している場合は修復します。2)「cluster peer ping」コマンドを使用して、ピアクラスタが稼働中であることを確認します。ピアクラスタが停止している場合は、『MetroCluster ディザスタリカバリガイド』を参照してください。3) Fabric MetroCluster の場合は、バックエンドファブリックISLが稼働していることを確認します。バックエンドファブリックISLが停止している場合は、ISLを修復します。4)非ファブリックMetroCluster 構成の場合は、RDMAインターコネクトアダプタ間のケーブル接続が正しいことを確認します。リンクがダウンしている場合は、ケーブル接続を再設定します。 |
ピアリングネットワーク経由でMetroClusterパートナーにアクセスできない |
重大 |
ピアクラスタへの接続が切断されています。 |
1)ポートが正しいネットワーク/スイッチに接続されていることを確認します。2)クラスタ間LIFがピアクラスタに接続されていることを確認3) cluster peer pingコマンドを使用して、ピアクラスタが稼働中であることを確認します。ピアクラスタが停止している場合は、『MetroCluster ディザスタリカバリガイド』を参照してください。 |
MetroCluster スイッチ間のすべてのリンクが停止しています |
重大 |
ストレージスイッチのすべてのスイッチ間リンク(ISL)が停止しています。 |
1)ストレージスイッチのバックエンドファブリックISLを修復します。2)パートナースイッチが稼働し、ISLが動作していることを確認します。3) xWDMデバイスなどの中間機器が動作していることを確認します。 |
MetroCluster ノードからストレージスタックへのSASリンクが停止しています |
警告 |
SASアダプタまたは接続されているケーブルに問題がある可能性があります。 |
1.SASアダプタがオンラインで稼働していることを確認します。2.物理的なケーブル接続が固定され、動作していることを確認し、必要に応じてケーブルを交換します。3.SASアダプタがディスクシェルフに接続されている場合は、IOMとディスクが適切に装着されていることを確認します。 |
MetroClusterFCイニシエータリンクガテイシシテイル |
重大 |
FCイニシエータアダプタに障害が発生しています。 |
1.FCイニシエータリンクが改ざんされていないことを確認します。2.system node run -node local -command storage show adapterコマンドを使用して、FCイニシエータアダプタの動作ステータスを確認します。 |
FC-VIインターコネクトリンクが停止しています |
重大 |
FC-VIポート上の物理リンクがオフラインです。 |
1.FC-VIリンクが改ざんされていないことを確認します。2.コマンド「MetroCluster interconnect adapter show」を使用して、FC-VIアダプタの物理ステータスが「up」になっていることを確認します。3.構成にファブリックスイッチが含まれている場合は、それらが適切にケーブル接続および設定されていることを確認します。 |
MetroClusterで残ったスペアディスク |
警告 |
スペアディスクはスイッチバック中にリストアされませんでした。 |
ディスクで障害が発生していない場合は、コマンド「MetroCluster switchback」を使用してディスクを元の所有者に戻します。 |
MetroCluster ストレージブリッジのポートが停止しています |
重大 |
ストレージブリッジのポートはオフラインです。 |
1)コマンド「storage bridge show -ports」を使用して、ストレージブリッジのポートの動作ステータスを確認します。2)ポートへの論理接続と物理接続を確認します。 |
MetroCluster ストレージスイッチのファンに障害が発生しました |
重大 |
ストレージスイッチのファンで障害が発生しました。 |
1)コマンドstorage switch show -Coolingを使用して、スイッチのファンが正しく動作していることを確認します。2)ファンFRUが正しく挿入され、動作していることを確認します。 |
MetroCluster ストレージスイッチに到達不能です |
重大 |
ストレージスイッチに管理ネットワーク経由でアクセスできません。 |
1)「network interface show」コマンドを使用して、ノード管理LIFが動作していることを確認します。2)「network ping」コマンドを使用して、スイッチが有効であることを確認します。3)スイッチにログインした後、SNMP経由でスイッチにアクセスできることを確認します。 |
MetroCluster スイッチの電源装置に障害が発生しました |
重大 |
ストレージスイッチの電源装置が正常に動作していません。 |
1)コマンド「storage switch show -error-switch -name <swtich name> 」を使用して、エラーの詳細を確認します。2)コマンド「storage switch show power-switch-name <switch name> 」を使用して、障害のある電源装置ユニットを特定します。3)電源装置のunitisがストレージスイッチのシャーシに正しく挿入され、完全に動作していることを確認します。 |
MetroCluster スイッチの温度センサーに障害が発生しました |
重大 |
Fibre Channelスイッチのセンサーに障害が発生しました。 |
1)コマンドstorage switch show -Coolingを使用して、ストレージスイッチの温度センサーの動作ステータスを確認します。2)スイッチが推奨される温度条件で動作していることを確認します。 |
MetroCluster スイッチの温度が異常です |
重大 |
Fibre Channelスイッチの温度センサーが異常な温度を報告しました。 |
1)コマンドstorage switch show -Coolingを使用して、ストレージスイッチの温度センサーの動作ステータスを確認します。2)スイッチが推奨される温度条件で動作していることを確認します。 |
Service Processor Heartbeat Missedの略 |
情報 |
このメッセージは、ONTAP がサービスプロセッサ(SP)から想定される「ハートビート」信号を受信しなかった場合に表示されます。このメッセージに加えて、SPからのログファイルがデバッグのために送信されます。ONTAP はSPをリセットして通信を回復しようとします。SPのリブート中は、最大2分間はSPを使用できません。 |
ネットアップテクニカルサポートにお問い合わせください。 |
サービスプロセッサハートビートを停止しました |
警告 |
このメッセージは、ONTAP がサービスプロセッサ(SP)からハートビートを受信しなくなった場合に表示されます。ハードウェアの設計によっては、システムは引き続きデータを提供することも、データ損失やハードウェアの破損を防ぐためにシャットダウンすることもあります。システムはデータを提供し続けますが、SPが動作していない可能性があるため、システムは停止しているアプライアンス、ブートエラー、またはOpen Firmware(OFW)のPower-on Self-Test(POST)エラーの通知を送信できません。システムが設定されている場合は、AutoSupport (「コールホーム」)メッセージを生成してネットアップテクニカルサポートおよび設定された宛先に送信します。AutoSupport メッセージが正常に配信されると、問題の特定と解決方法が大幅に改善されます。 |
システムがシャットダウンした場合は、ハード電源の再投入を試みます。コントローラをシャーシから引き出し、押し込んでから、システムの電源を入れます。電源再投入後も問題が解決しない場合、または注意が必要なその他の状況については、ネットアップテクニカルサポートにお問い合わせください。 |