システムモニター
Data Infrastructure Insights には、メトリックとログの両方に対するシステム定義のモニターが多数含まれています。利用可能なシステム モニターは、テナントに存在するデータ コレクターによって異なります。そのため、データ コレクターが追加されたり、その構成が変更されたりすると、 Data Infrastructure Insightsで使用できるモニターが変わる可能性があります。
|
多くのシステム モニターは、デフォルトでは 一時停止 状態になっています。モニターの [再開] オプションを選択すると、システム モニターを有効にすることができます。データ コレクターで [Advanced Counter Data Collection] と [Enable ONTAP EMS log collection] が有効になっていることを確認します。これらのオプションは、 ONTAPデータ コレクターの [Advanced Configuration] にあります。![]() |
目次:[]
モニターの説明
システム定義のモニターは、事前定義されたメトリックと条件、および変更できないデフォルトの説明と修正アクションで構成されます。システム定義モニターの通知受信者リストを変更することができます。メトリック、条件、説明、修正アクションを表示したり、受信者リストを変更したりするには、システム定義のモニター グループを開き、リスト内のモニター名をクリックします。
システム定義のモニター グループは変更または削除できません。
以下のシステム定義モニターは、記載されているグループで使用できます。
-
* ONTAPインフラストラクチャ* には、 ONTAPクラスタのインフラストラクチャ関連の問題を監視するモニターが含まれています。
-
* ONTAPワークロードの例* には、ワークロード関連の問題のモニターが含まれています。
-
両方のグループのモニターはデフォルトで 一時停止 状態になります。
以下は、現在Data Infrastructure Insightsに含まれているシステム モニターです。
メトリックモニター
モニター名 |
重大度 |
モニターの説明 |
対処方法 |
ファイバーチャネルポート使用率が高い |
重大 |
ファイバー チャネル プロトコル ポートは、顧客のホスト システムとONTAP LUN 間の SAN トラフィックを受信および転送するために使用されます。ポートの使用率が高い場合、それがボトルネックとなり、最終的にはファイバー チャネル プロトコルのワークロードの重要なパフォーマンスに影響を及ぼします。…警告アラートは、ネットワーク トラフィックを分散させるために計画されたアクションを実行する必要があることを示します。…重大なアラートは、サービスの中断が差し迫っており、サービスの継続性を確保するためにネットワーク トラフィックを分散するための緊急措置を実行する必要があることを示します。 |
重要なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、直ちに次のアクションを検討してください。1.ワークロードを、使用率の低い別の FCP ポートに移動します。2. ONTAP のQoS ポリシーまたはホスト側の構成を使用して、特定の LUN のトラフィックを必要な作業のみに制限し、FCP ポートの使用率を軽減します。…警告しきい値を超えた場合は、次のアクションを実行するように計画します。1.ポート使用率がより多くのポートに分散されるように、データ トラフィックを処理するためにさらに多くの FCP ポートを構成します。2.ワークロードを、使用率の低い別の FCP ポートに移動します。3. ONTAP のQoS ポリシーまたはホスト側の構成を使用して、特定の LUN のトラフィックを必要な作業のみに制限し、FCP ポートの使用率を軽減します。 |
Lunレイテンシ高 |
重大 |
LUN は、データベースなどのパフォーマンスが重視されるアプリケーションによって実行されることが多い I/O トラフィックを処理するオブジェクトです。 LUN のレイテンシが高い場合、アプリケーション自体に問題が発生し、タスクを実行できなくなる可能性があります。…警告アラートは、LUN を適切なノードまたはアグリゲートに移動するために計画されたアクションを実行する必要があることを示します。…重大なアラートは、サービスの中断が差し迫っており、サービスの継続性を確保するために緊急措置を講じる必要があることを示します。メディアの種類に応じて予想されるレイテンシは次のとおりです - SSD 最大 1~2 ミリ秒、SAS 最大 8~10 ミリ秒、SATA HDD 17~20 ミリ秒 |
重大なしきい値を超えた場合は、サービスの中断を最小限に抑えるために次のアクションを検討してください。LUN またはそのボリュームに QoS ポリシーが関連付けられている場合は、そのしきい値制限を評価し、それが LUN ワークロードの調整を引き起こしているかどうかを検証します。…警告しきい値を超えた場合は、次のアクションを実行するように計画します。1.アグリゲートの使用率も高い場合は、LUN を別のアグリゲートに移動します。2.ノードの使用率も高い場合は、ボリュームを別のノードに移動する、またはノードの合計ワークロードを削減します。3. LUN またはそのボリュームに QoS ポリシーが関連付けられている場合は、そのしきい値制限を評価し、それが LUN ワークロードの調整を引き起こしているかどうかを検証します。 |
ネットワークポート使用率が高い |
重大 |
ネットワーク ポートは、顧客のホスト システムとONTAPボリューム間の NFS、CIFS、および iSCSI プロトコル トラフィックを受信および転送するために使用されます。ポートの使用率が高い場合、それがボトルネックとなり、最終的には NFS、CIFS、iSCSI ワークロードのパフォーマンスに影響します。…警告アラートは、ネットワーク トラフィックを分散させるために計画されたアクションを実行する必要があることを示します。…重大なアラートは、サービスの中断が差し迫っており、サービスの継続性を確保するためにネットワーク トラフィックを分散するための緊急措置を実行する必要があることを示します。 |
重大なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、次の即時アクションを検討してください。1. ONTAPの QoS ポリシーまたはホスト側の分析を使用して、特定のボリュームのトラフィックを必要な作業のみに制限し、ネットワーク ポートの使用率を下げます。2.使用率の低い別のネットワーク ポートを使用するように 1 つ以上のボリュームを構成します。…警告しきい値を超えた場合は、次の即時アクションを検討してください。1.ポート使用率がより多くのポートに分散されるように、データ トラフィックを処理するためにさらに多くのネットワーク ポートを構成します。2.使用率の低い別のネットワーク ポートを使用するように 1 つ以上のボリュームを構成します。 |
NVMe名前空間レイテンシ高 |
重大 |
NVMe 名前空間は、データベースなどのパフォーマンスが重視されるアプリケーションによって実行される I/O トラフィックを処理するオブジェクトです。 NVMe 名前空間のレイテンシが高いと、アプリケーション自体に問題が発生し、タスクを完了できなくなる可能性があります。…警告アラートは、LUN を適切なノードまたはアグリゲートに移動するために計画されたアクションを実行する必要があることを示します。…重大なアラートは、サービスの中断が差し迫っており、サービスの継続性を確保するために緊急措置を講じる必要があることを示します。 |
重要なしきい値を超えた場合は、サービスの中断を最小限に抑えるための即時のアクションを検討してください。NVMe 名前空間またはそのボリュームに QoS ポリシーが割り当てられている場合は、その制限しきい値が NVMe 名前空間のワークロードの調整を引き起こしていないかどうか確認してください。…警告しきい値を超えた場合は、次のアクションを実行することを検討してください。1.アグリゲートの使用率も高い場合は、LUN を別のアグリゲートに移動します。2.ノードの使用率も高い場合は、ボリュームを別のノードに移動する、またはノードの合計ワークロードを削減します。3. NVMe 名前空間またはそのボリュームに QoS ポリシーが割り当てられている場合は、そのポリシーによって NVMe 名前空間のワークロードが調整される可能性がないか、その制限しきい値を評価します。 |
QTree 容量がいっぱい |
重大 |
qtree は、ボリューム内のルート ディレクトリの特別なサブディレクトリとして存在できる、論理的に定義されたファイル システムです。各 qtree には、デフォルトのスペース クォータまたはクォータ ポリシーによって定義されたクォータがあり、ボリューム容量内でツリーに保存されるデータの量を制限します。…警告アラートは、スペースを増やすために計画されたアクションを実行する必要があることを示します。…重大なアラートは、サービスの中断が差し迫っており、サービスの継続性を確保するためにスペースを解放する緊急措置を実行する必要があることを示します。 |
重要なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、直ちに次のアクションを検討してください。1.成長に対応するために qtree のスペースを増やします。2.不要なデータを削除してスペースを解放します。…警告しきい値を超えた場合は、次の即時措置を講じる計画を立ててください。1.成長に対応するために qtree のスペースを増やします。2.不要なデータを削除してスペースを解放します。 |
QTree 容量のハード制限 |
重大 |
qtree は、ボリューム内のルート ディレクトリの特別なサブディレクトリとして存在できる、論理的に定義されたファイル システムです。各 qtree には、KB 単位で測定されるスペース クォータがあり、これを使用してデータを保存します。これにより、ボリューム内のユーザー データの増加を制御し、合計容量を超えないようにします。…qtree は、qtree の合計容量クォータ制限に達してデータを保存できなくなる前に、ユーザーに事前に警告するソフト ストレージ容量クォータを維持します。 qtree 内に保存されているデータの量を監視することで、ユーザーは中断のないデータ サービスを受けることができます。 |
重大なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、次の即時アクションを検討してください。1.成長に対応するために、ツリーのスペース割り当てを増やします 2。スペースを解放するためにツリー内の不要なデータを削除するようにユーザーに指示します |
QTree 容量ソフト制限 |
警告 |
qtree は、ボリューム内のルート ディレクトリの特別なサブディレクトリとして存在できる、論理的に定義されたファイル システムです。各 qtree には、KB 単位で測定されるスペース クォータがあり、これを使用してデータを保存することで、ユーザー データの増加を制御し、合計容量を超えないようにします。…qtree は、qtree の合計容量クォータ制限に達してデータを保存できなくなる前に、ユーザーに事前に警告するソフト ストレージ容量クォータを維持します。 qtree 内に保存されているデータの量を監視することで、ユーザーは中断のないデータ サービスを受けることができます。 |
警告しきい値を超えた場合は、次の即時アクションを検討してください。1.成長に対応するためにツリーのスペース割り当てを増やします。2.スペースを解放するために、ツリー内の不要なデータを削除するようにユーザーに指示します。 |
QTree ファイルのハード制限 |
重大 |
qtree は、ボリューム内のルート ディレクトリの特別なサブディレクトリとして存在できる、論理的に定義されたファイル システムです。各 qtree には、ボリューム内で管理可能なファイル システム サイズを維持するために含めることができるファイル数のクォータがあります。…qtree は、ツリー内の新しいファイルが拒否されるハード ファイル数クォータを維持します。 qtree 内のファイル数を監視することで、ユーザーは中断のないデータ サービスを受けることができます。 |
重要なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、直ちに次のアクションを検討してください。1. qtree のファイル数クォータを増やします。2. qtree ファイル システムから不要なファイルを削除します。 |
QTree ファイルのソフト制限 |
警告 |
qtree は、ボリューム内のルート ディレクトリの特別なサブディレクトリとして存在できる、論理的に定義されたファイル システムです。各 qtree には、ボリューム内で管理可能なファイル システム サイズを維持するために、格納できるファイル数のクォータがあります。…qtree は、qtree 内のファイル制限に達して追加のファイルを保存できなくなる前に、ユーザーに事前に警告するためにソフト ファイル数クォータを維持します。 qtree 内のファイル数を監視することで、ユーザーは中断のないデータ サービスを受けることができます。 |
警告しきい値を超えた場合は、次の即時措置を講じる計画を立ててください。1. qtree のファイル数クォータを増やします。2. qtree ファイル システムから不要なファイルを削除します。 |
スナップショット予約領域がいっぱいです |
重大 |
アプリケーションと顧客データを保存するには、ボリュームのストレージ容量が必要です。スナップショット予約領域と呼ばれるその領域の一部は、データをローカルで保護できるようにするスナップショットを保存するために使用されます。 ONTAPボリュームに保存される新規データや更新データが増えるほど、使用されるスナップショット容量が増え、将来の新規データや更新データに使用できるスナップショット ストレージ容量は少なくなります。ボリューム内のスナップショット データ容量が合計スナップショット予約領域に達すると、新しいスナップショット データを保存できなくなり、ボリューム内のデータの保護レベルが低下する可能性があります。ボリュームの使用済みスナップショット容量を監視することで、データ サービスの継続性が確保されます。 |
重要なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、直ちに次のアクションを検討してください。1.スナップショット予約がいっぱいになったときにボリューム内のデータ領域を使用するようにスナップショットを構成します。2.古くて不要なスナップショットをいくつか削除して、スペースを解放します。…警告しきい値を超えた場合は、次の即時措置を講じる計画を立ててください。1.成長に対応するために、ボリューム内のスナップショット予約領域を増やします。2.スナップショット予約がいっぱいになったときにボリューム内のデータ領域を使用するようにスナップショットを構成します。 |
ストレージ容量制限 |
重大 |
ストレージ プール (アグリゲート) がいっぱいになると、I/O 操作が遅くなり、最終的には停止して、ストレージ停止インシデントが発生します。警告アラートは、最小限の空き領域を回復するために計画されたアクションをすぐに実行する必要があることを示します。重大なアラートは、サービスの中断が差し迫っており、サービスの継続性を確保するためにスペースを解放するための緊急措置を講じる必要があることを示します。 |
重大なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、直ちに次のアクションを検討してください。1.重要でないボリューム上のスナップショットを削除します。2.重要でないワークロードであり、オフストレージ コピーから復元できる可能性のあるボリュームまたは LUN を削除します。……警告しきい値を超えた場合は、次の即時アクションを計画してください。1. 1 つ以上のボリュームを別の保存場所に移動します。2.ストレージ容量を追加します。3.ストレージ効率設定を変更するか、非アクティブなデータをクラウド ストレージに階層化します。 |
ストレージパフォーマンスの制限 |
重大 |
ストレージ システムのパフォーマンス限界に達すると、操作が遅くなり、待ち時間が増加し、ワークロードとアプリケーションに障害が発生する可能性があります。 ONTAP は、ワークロードのストレージ プールの使用率を評価し、消費されたパフォーマンスの割合を推定します。…警告アラートは、ワークロードのピークに対応するために十分なストレージ プール パフォーマンスを確保するために、ストレージ プールの負荷を軽減するための計画的なアクションを実行する必要があることを示します。…重大なアラートは、パフォーマンスの低下が差し迫っており、サービスの継続性を確保するためにストレージ プールの負荷を軽減するための緊急措置を実行する必要があることを示します。 |
重大なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、次の即時アクションを検討してください。1.スナップショットやSnapMirrorレプリケーションなどのスケジュールされたタスクを一時停止します。2.重要でないワークロードをアイドル状態にします。…警告しきい値を超えた場合は、直ちに次の措置を講じてください。1. 1 つ以上のワークロードを別のストレージの場所に移動します。2.ストレージ ノード (AFF) またはディスク シェルフ (FAS) を追加し、ワークロードを再分配します 3.ワークロード特性 (ブロック サイズ、アプリケーション キャッシュ) を変更します。 |
ユーザークォータ容量のハード制限 |
重大 |
ONTAP は、ボリューム、ボリューム内のファイル、またはディレクトリにアクセスする権限を持つ Unix または Windows システムのユーザーを認識します。その結果、 ONTAP を使用すると、顧客は Linux または Windows システムのユーザーまたはユーザー グループのストレージ容量を構成できるようになります。ユーザーまたはグループ ポリシー クォータは、ユーザーが自身のデータに利用できるスペースの量を制限します。…このクォータのハード制限により、ボリューム内で使用されている容量が合計容量クォータに達する直前にユーザーに通知することができます。ユーザーまたはグループのクォータ内に保存されるデータの量を監視することで、ユーザーが中断のないデータ サービスを受けられるようになります。 |
重大なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、次の即時アクションを検討してください。1.成長に対応するために、ユーザーまたはグループのクォータのスペースを増やします。2.不要なデータを削除してスペースを解放するようにユーザーまたはグループに指示します。 |
ユーザークォータ容量ソフト制限 |
警告 |
ONTAP は、ボリューム、ボリューム内のファイル、またはディレクトリにアクセスする権限を持つ Unix または Windows システムのユーザーを認識します。その結果、 ONTAP を使用すると、顧客は Linux または Windows システムのユーザーまたはユーザー グループのストレージ容量を構成できるようになります。ユーザーまたはグループ ポリシー クォータは、ユーザーが自身のデータに利用できるスペースの量を制限します。…このクォータのソフト制限により、ボリューム内で使用されている容量が合計容量クォータに達したときに、ユーザーにプロアクティブに通知することができます。ユーザーまたはグループのクォータ内に保存されるデータの量を監視することで、ユーザーが中断のないデータ サービスを受けられるようになります。 |
警告しきい値を超えた場合は、次の即時措置を講じる計画を立ててください。1.成長に対応するために、ユーザーまたはグループのクォータのスペースを増やします。2.不要なデータを削除してスペースを解放します。 |
ボリューム容量がいっぱいです |
重大 |
アプリケーションと顧客データを保存するには、ボリュームのストレージ容量が必要です。 ONTAPボリュームに保存されるデータが増えるほど、将来のデータのストレージ可用性は低下します。ボリューム内のデータ保存容量が合計保存容量に達した場合、保存容量不足によりお客様がデータを保存できなくなる可能性があります。使用されたボリュームのストレージ容量を監視することで、データ サービスの継続性が確保されます。 |
重大なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、次の即時アクションを検討してください。1.成長に対応するためにボリュームのスペースを増やします。2.不要なデータを削除してスペースを解放します。3.スナップショットのコピーがスナップショット リザーブよりも多くのスペースを占有している場合は、古いスナップショットを削除するか、ボリューム スナップショットの自動削除を有効にします。…警告しきい値を超えた場合は、次の即時アクションを実行するように計画してください。1.成長に対応するためにボリュームのスペースを増やします 2。スナップショットのコピーがスナップショット リザーブよりも多くのスペースを占有する場合は、古いスナップショットを削除するか、ボリューム スナップショットの自動削除を有効にします。…… |
ボリュームのiノード制限 |
重大 |
ファイルを保存するボリュームは、インデックス ノード (inode) を使用してファイルのメタデータを保存します。ボリュームの inode 割り当てを使い果たすと、それ以上ファイルを追加できなくなります。…警告アラートは、使用可能な inode の数を増やすために計画されたアクションを実行する必要があることを示します。…重大なアラートは、ファイル制限の使い果たしが差し迫っており、サービスの継続性を確保するために inode を解放する緊急措置を講じる必要があることを示します。 |
重大なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、次の即時アクションを検討してください。1.ボリュームの inode 値を増やします。 inode 値がすでに最大値に達している場合は、ファイル システムが最大サイズを超えているため、ボリュームを 2 つ以上のボリュームに分割します。2. FlexGroupを使用すると、大規模なファイル システムに対応しやすくなります。警告しきい値を超えた場合は、次の即時措置を講じる計画を立ててください。1.ボリュームの inode 値を増やします。 inode 値がすでに最大値に達している場合は、ファイル システムが最大サイズを超えているため、ボリュームを 2 つ以上のボリュームに分割します。2. FlexGroupを使用すると、大規模なファイルシステムに対応できます。 |
ボリュームレイテンシー高 |
重大 |
ボリュームは、devOps アプリケーション、ホーム ディレクトリ、データベースなどのパフォーマンスが重視されるアプリケーションによって実行されることが多い I/O トラフィックを処理するオブジェクトです。大量の待ち時間が発生すると、アプリケーション自体に問題が発生し、タスクを完了できなくなる可能性があります。アプリケーションの一貫したパフォーマンスを維持するためには、ボリュームのレイテンシを監視することが重要です。メディア タイプに基づいて予想されるレイテンシは次のとおりです - SSD 最大 1 ~ 2 ミリ秒、SAS 最大 8 ~ 10 ミリ秒、SATA HDD 17 ~ 20 ミリ秒。 |
重要なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、次の即時アクションを検討してください。ボリュームに QoS ポリシーが割り当てられている場合は、ボリュームのワークロードが調整される原因となっていないか、その制限しきい値を評価します。…警告しきい値を超えた場合は、次の即時アクションを検討してください。1.アグリゲートの使用率も高い場合は、ボリュームを別のアグリゲートに移動します。2.ボリュームに QoS ポリシーが割り当てられている場合は、ボリュームのワークロードが調整される原因にならないように、その制限しきい値を評価します。3.ノードの使用率も高い場合は、ボリュームを別のノードに移動する、またはノードの合計ワークロードを削減します。 |
モニター名 |
重大度 |
モニターの説明 |
対処方法 |
ノードの高レイテンシ |
警告/重大 |
ノードのレイテンシが、ノード上のアプリケーションのパフォーマンスに影響を及ぼす可能性があるレベルに達しました。ノードのレイテンシが低いため、アプリケーションの一貫したパフォーマンスが保証されます。メディア タイプに基づいて予想されるレイテンシは、SSD で最大 1 ~ 2 ミリ秒、SAS で最大 8 ~ 10 ミリ秒、SATA HDD で 17 ~ 20 ミリ秒です。 |
重要なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、直ちに措置を講じる必要があります。1.スケジュールされたタスク、スナップショット、またはSnapMirrorレプリケーションを一時停止します 2。 QoS 制限 3 を介して、優先度の低いワークロードの需要を下げます。重要でないワークロードを非アクティブ化します。警告しきい値を超えた場合は、直ちに次のアクションを検討してください。1. 1 つ以上のワークロードを別のストレージの場所に移動します 2。 QoS 制限 3 を介して、優先度の低いワークロードの需要を下げます。ストレージ ノード (AFF) またはディスク シェルフ (FAS) を追加し、ワークロードを再分配します 4。ワークロード特性の変更(ブロックサイズ、アプリケーションキャッシュなど) |
ノードパフォーマンス制限 |
警告/重大 |
ノードのパフォーマンス使用率が、ノードでサポートされている IO およびアプリケーションのパフォーマンスに影響を及ぼす可能性があるレベルに達しました。ノードのパフォーマンス使用率が低いため、アプリケーションのパフォーマンスが一貫して確保されます。 |
重要なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、直ちに措置を講じる必要があります。1.スケジュールされたタスク、スナップショット、またはSnapMirrorレプリケーションを一時停止します 2。 QoS 制限 3 を介して、優先度の低いワークロードの需要を下げます。重要でないワークロードを非アクティブ化します。警告しきい値を超えた場合は、次のアクションを検討してください。1. 1 つ以上のワークロードを別のストレージの場所に移動します 2。 QoS 制限 3 を介して、優先度の低いワークロードの需要を下げます。ストレージ ノード (AFF) またはディスク シェルフ (FAS) を追加し、ワークロードを再分配します 4.ワークロード特性の変更(ブロックサイズ、アプリケーションキャッシュなど) |
ストレージVMの高レイテンシ |
警告/重大 |
ストレージ VM (SVM) のレイテンシが、ストレージ VM 上のアプリケーションのパフォーマンスに影響を及ぼす可能性があるレベルに達しました。ストレージ VM のレイテンシが低いため、アプリケーションの一貫したパフォーマンスが保証されます。メディア タイプに基づいて予想されるレイテンシは、SSD で最大 1 ~ 2 ミリ秒、SAS で最大 8 ~ 10 ミリ秒、SATA HDD で 17 ~ 20 ミリ秒です。 |
重大なしきい値を超えた場合は、QoS ポリシーが割り当てられたストレージ VM のボリュームのしきい値制限を直ちに評価し、ボリューム ワークロードの調整の原因になっているかどうかを確認します。警告しきい値を超えた場合は、次の即時アクションを検討してください。1.アグリゲートの使用率も高い場合は、ストレージ VM の一部のボリュームを別のアグリゲートに移動します。2. QoS ポリシーが割り当てられたストレージ VM のボリュームについては、しきい値制限によってボリューム ワークロードが調整されるかどうかを評価します 3。ノードの使用率が高い場合は、ストレージVMの一部のボリュームを別のノードに移動する、またはノードの全体的なワークロードを削減します。 |
ユーザークォータファイルハード制限 |
重大 |
ボリューム内に作成されたファイル数が重大な制限に達したため、追加のファイルを作成できません。保存されているファイルの数を監視することで、ユーザーは中断のないデータ サービスを受けることができます。 |
重要なしきい値を超えた場合は、サービスの中断を最小限に抑えるために即時の措置が必要です。…次の措置を検討してください。1.特定のユーザー 2 のファイル数クォータを増やします。不要なファイルを削除して、特定のユーザーのファイルクォータの負担を軽減します。 |
ユーザークォータファイルソフト制限 |
警告 |
ボリューム内に作成されたファイルの数がクォータのしきい値制限に達しており、重大な制限に近づいています。クォータが重大な制限に達した場合、追加のファイルを作成することはできません。ユーザーが保存するファイルの数を監視することで、ユーザーが中断のないデータ サービスを受けられるようになります。 |
警告しきい値を超えた場合は、直ちにアクションを検討してください。1.特定のユーザー クォータ 2 のファイル数クォータを増やします。不要なファイルを削除して、特定のユーザーのファイルクォータの負担を軽減します。 |
ボリュームキャッシュミス率 |
警告/重大 |
ボリューム キャッシュ ミス率は、クライアント アプリケーションからの読み取り要求のうち、キャッシュから返されるのではなくディスクから返される要求の割合です。これは、音量が設定されたしきい値に達したことを意味します。 |
重要なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、直ちに措置を講じる必要があります。1. IO 負荷 2 を軽減するために、一部のワークロードをボリュームのノードから移動します。ボリュームのノードにまだない場合は、Flash Cache 3 を購入して追加し、 WAFLキャッシュを増やします。 QoS 制限を使用して、同じノード上の優先度の低いワークロードの需要を下げます。警告しきい値を超えた場合は、直ちに次のアクションを検討してください。1. IO 負荷 2 を軽減するために、一部のワークロードをボリュームのノードから移動します。ボリュームのノードにまだない場合は、Flash Cache 3 を購入して追加し、 WAFLキャッシュを増やします。 QoS 制限 4 を使用して、同じノード上の優先度の低いワークロードの需要を下げます。ワークロード特性の変更(ブロックサイズ、アプリケーションキャッシュなど) |
ボリューム Qtree クォータ オーバーコミット |
警告/重大 |
ボリューム qtree クォータ オーバーコミットは、ボリュームが qtree クォータによってオーバーコミットされていると見なされるパーセンテージを指定します。ボリュームの qtree クォータに設定されたしきい値に達しました。ボリューム qtree クォータのオーバーコミットを監視することで、ユーザーは中断のないデータ サービスを受けることができます。 |
重要なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、直ちに措置を講じる必要があります。1.ボリューム2のスペースを増やします。不要なデータを削除します。警告しきい値を超えた場合は、ボリュームのスペースを増やすことを検討してください。 |
ログモニター
モニター名 |
重大度 |
説明 |
対処方法 |
AWS 認証情報が初期化されていません |
情報 |
このイベントは、モジュールがクラウド資格情報スレッドから Amazon Web Services (AWS) Identity and Access Management (IAM) ロールベースの資格情報にアクセスしようとしたときに、資格情報が初期化される前に発生します。 |
クラウド資格情報スレッドとシステムの初期化が完了するまで待ちます。 |
クラウド層にアクセスできません |
重大 |
ストレージ ノードは Cloud Tier オブジェクト ストア API に接続できません。一部のデータにアクセスできなくなります。 |
オンプレミス製品を使用している場合は、次の修正アクションを実行してください。…「network interface show」コマンドを使用して、クラスタ間 LIF がオンラインで機能していることを確認します。…宛先ノードのクラスタ間 LIF で「ping」コマンドを使用して、オブジェクト ストア サーバへのネットワーク接続を確認します。…次の点を確認してください。…オブジェクト ストアの構成が変更されていないこと。…ログインおよび接続情報がまだ有効であること。…問題が解決しない場合は、 NetAppテクニカル サポートにお問い合わせください。 Cloud Volumes ONTAPを使用する場合は、次の修正アクションを実行します。…オブジェクト ストアの構成が変更されていないことを確認します。…ログインおよび接続情報がまだ有効であることを確認してください。問題が解決しない場合は、 NetAppテクニカル サポートにお問い合わせください。 |
ディスクが使用不可 |
情報 |
このイベントは、ディスクが障害としてマークされた、サニタイズされている、またはメンテナンス センターに入ったためにサービスから削除されたときに発生します。 |
なし。 |
FlexGroup構成員全員 |
重大 |
FlexGroupボリューム内の構成要素がいっぱいなので、サービスが中断される可能性があります。 FlexGroupボリューム上でファイルを作成または拡張することは可能です。ただし、構成要素に保存されているファイルは変更できません。その結果、 FlexGroupボリュームで書き込み操作を実行しようとすると、ランダムに領域不足エラーが発生する可能性があります。 |
「volume modify -files +X」コマンドを使用して、 FlexGroupボリュームに容量を追加することをお勧めします。または、 FlexGroupボリュームからファイルを削除します。ただし、どのファイルが構成要素に到達したかを判断するのは困難です。 |
Flexgroupの構成員がほぼ満員 |
警告 |
FlexGroupボリューム内の構成要素のスペースがほとんど不足しており、サービスが中断される可能性があります。ファイルの作成と展開が可能です。ただし、構成要素のスペースが不足すると、構成要素上のファイルに追加したり変更したりできなくなる可能性があります。 |
「volume modify -files +X」コマンドを使用して、 FlexGroupボリュームに容量を追加することをお勧めします。または、 FlexGroupボリュームからファイルを削除します。ただし、どのファイルが構成要素に到達したかを判断するのは困難です。 |
FlexGroup構成要素の inode がほぼ不足しています |
警告 |
FlexGroupボリューム内の構成要素の inode がほとんど不足しているため、サービスが中断される可能性があります。構成要素は平均よりも少ない作成要求を受け取ります。要求はより多くの inode を持つ構成要素にルーティングされるため、 FlexGroupボリュームの全体的なパフォーマンスに影響する可能性があります。 |
「volume modify -files +X」コマンドを使用して、 FlexGroupボリュームに容量を追加することをお勧めします。または、 FlexGroupボリュームからファイルを削除します。ただし、どのファイルが構成要素に到達したかを判断するのは困難です。 |
FlexGroup構成要素の inode 不足 |
重大 |
FlexGroupボリュームの構成要素の inode が不足しており、サービスが中断される可能性があります。この構成要素に新しいファイルを作成することはできません。これにより、 FlexGroupボリューム全体でコンテンツの配分が全体的に不均衡になる可能性があります。 |
「volume modify -files +X」コマンドを使用して、 FlexGroupボリュームに容量を追加することをお勧めします。または、 FlexGroupボリュームからファイルを削除します。ただし、どのファイルが構成要素に到達したかを判断するのは困難です。 |
LUN はオフライン |
情報 |
このイベントは、LUN が手動でオフラインになったときに発生します。 |
LUN をオンラインに戻します。 |
本体ファンの故障 |
警告 |
メインユニットの 1 つ以上のファンが故障しました。システムは引き続き動作します。…ただし、この状態が長時間続くと、過熱により自動シャットダウンがトリガーされる可能性があります。 |
故障したファンを取り付け直してください。エラーが解決しない場合は交換してください。 |
本体ファンが警告状態 |
情報 |
このイベントは、メインユニットの 1 つ以上のファンが警告状態にある場合に発生します。 |
過熱を防ぐため、指定されたファンを交換してください。 |
NVRAM バッテリ低下 |
警告 |
NVRAMバッテリー容量が極めて低くなっています。バッテリが切れると、データが失われる可能性があります。…システムは、 AutoSupportまたは「コール ホーム」メッセージを生成し、 NetAppテクニカル サポートおよび設定された送信先(そのように設定されている場合は)に送信します。 AutoSupportメッセージが正常に配信されると、問題の特定と解決が大幅に改善されます。 |
次の修正アクションを実行してください。…「system node environment sensors show」コマンドを使用して、バッテリの現在のステータス、容量、充電状態を表示します。…バッテリを最近交換した場合、またはシステムが長期間動作していなかった場合は、バッテリを監視して、適切に充電されていることを確認します。…バッテリのランタイムが引き続き危険なレベルを下回り、ストレージ システムが自動的にシャットダウンする場合は、 NetAppテクニカル サポートに問い合わせてください。 |
サービス プロセッサが未設定 |
警告 |
このイベントは毎週発生し、サービス プロセッサ (SP) を構成するよう通知します。 SP は、リモート アクセスおよびリモート管理機能を提供するためにシステムに組み込まれる物理デバイスです。 SP のすべての機能を使用するには、 SPを構成する必要があります。 |
次の修正アクションを実行します。…「system service-processor network modify」コマンドを使用してSPを設定します。…オプションで、「system service-processor network show」コマンドを使用してSPの MAC アドレスを取得します。…「system service-processor network show」コマンドを使用してSPネットワーク設定を確認します。…「system service-processor autosupport invoke」コマンドを使用してSP がAutoSupport電子メールを送信できることを確認します。注: このコマンドを発行する前に、 ONTAPでAutoSupport電子メール ホストと受信者を設定する必要があります。 |
サービス プロセッサはオフライン |
重大 |
すべてのSPリカバリアクションが実行されたにもかかわらず、 ONTAP はサービス プロセッサ (SP ) からハートビートを受信しなくなりました。 ONTAP はSPなしではハードウェアの状態を監視できません。…ハードウェアの損傷とデータ損失を防ぐためにシステムはシャットダウンします。 SPがオフラインになった場合に直ちに通知されるパニックアラートを設定します。 |
次の操作を実行して、システムの電源を入れ直します。…コントローラをシャーシから引き出します。…コントローラを押し込みます。…コントローラの電源を入れ直します。…問題が解決しない場合は、コントローラ モジュールを交換します。 |
棚ファンが故障しました |
重大 |
シェルフの指定された冷却ファンまたはファン モジュールに障害が発生しました。シェルフ内のディスクに十分な冷却気流が供給されず、ディスク障害が発生する可能性があります。 |
次の修正アクションを実行します。…ファン モジュールが完全に装着され、固定されていることを確認します。注: 一部のディスク シェルフでは、ファンは電源モジュールに統合されています。…問題が解決しない場合は、ファン モジュールを交換してください。…それでも問題が解決しない場合は、 NetAppテクニカル サポートにお問い合わせください。 |
本体ファンの故障によりシステムが動作不能 |
重大 |
1 つ以上のメインユニットファンが故障し、システムの動作が中断されました。これにより、データが失われる可能性があります。 |
故障したファンを交換してください。 |
未割り当てのディスク |
情報 |
システムには未割り当てのディスクがあり、容量が無駄になっており、システムに誤った構成や部分的な構成変更が適用されている可能性があります。 |
次の修正アクションを実行します。…「disk show -n」コマンドを使用して、割り当てられていないディスクを特定します。…「disk assign」コマンドを使用して、ディスクをシステムに割り当てます。 |
ウイルス対策サーバーがビジー状態です |
警告 |
ウイルス対策サーバーがビジー状態のため、新しいスキャン要求を受け入れることができません。 |
このメッセージが頻繁に発生する場合は、SVM によって生成されるウイルス スキャン負荷を処理できる十分なウイルス対策サーバーがあることを確認してください。 |
IAM ロールの AWS 認証情報が期限切れです |
重大 |
Cloud Volume ONTAPにアクセスできなくなりました。 Identity and Access Management (IAM) のロールベースの認証情報の有効期限が切れました。認証情報は、IAM ロールを使用して Amazon Web Services (AWS) メタデータ サーバーから取得され、Amazon Simple Storage Service (Amazon S3) への API リクエストに署名するために使用されます。 |
以下の手順を実行します。…AWS EC2 マネジメントコンソールにログインします。…[インスタンス] ページに移動します。… Cloud Volumes ONTAPデプロイメントのインスタンスを見つけて、そのヘルスを確認します。…インスタンスに関連付けられた AWS IAM ロールが有効であり、インスタンスに対する適切な権限が付与されていることを確認します。 |
IAM ロールの AWS 認証情報が見つかりません |
重大 |
クラウド資格情報スレッドは、AWS メタデータ サーバーから Amazon Web Services (AWS) Identity and Access Management (IAM) ロールベースの資格情報を取得できません。認証情報は、Amazon Simple Storage Service (Amazon S3) への API リクエストに署名するために使用されます。 Cloud Volume ONTAPにアクセスできなくなりました。… |
以下の手順を実行します。…AWS EC2 マネジメントコンソールにログインします。…[インスタンス] ページに移動します。… Cloud Volumes ONTAPデプロイメントのインスタンスを見つけて、そのヘルスを確認します。…インスタンスに関連付けられた AWS IAM ロールが有効であり、インスタンスに対する適切な権限が付与されていることを確認します。 |
IAM ロールの AWS 認証情報が無効です |
重大 |
Identity and Access Management (IAM) のロールベースの認証情報が無効です。認証情報は、IAM ロールを使用して Amazon Web Services (AWS) メタデータ サーバーから取得され、Amazon Simple Storage Service (Amazon S3) への API リクエストに署名するために使用されます。 Cloud Volume ONTAPにアクセスできなくなりました。 |
以下の手順を実行します。…AWS EC2 マネジメントコンソールにログインします。…[インスタンス] ページに移動します。… Cloud Volumes ONTAPデプロイメントのインスタンスを見つけて、そのヘルスを確認します。…インスタンスに関連付けられた AWS IAM ロールが有効であり、インスタンスに対する適切な権限が付与されていることを確認します。 |
AWS IAM ロールが見つかりません |
重大 |
Identity and Access Management (IAM) ロール スレッドは、AWS メタデータ サーバーで Amazon Web Services (AWS) IAM ロールを見つけることができません。 Amazon Simple Storage Service (Amazon S3) への API リクエストに署名するために使用されるロールベースの認証情報を取得するには、IAM ロールが必要です。 Cloud Volume ONTAPにアクセスできなくなりました。… |
次の操作を実行します。…AWS EC2 マネジメントコンソールにログインします。…[インスタンス] ページに移動します。… Cloud Volumes ONTAPデプロイメントのインスタンスを見つけて、その正常性を確認します。…インスタンスに関連付けられた AWS IAM ロールが有効であることを確認します。 |
AWS IAM ロールが無効です |
重大 |
AWS メタデータ サーバーの Amazon Web Services (AWS) Identity and Access Management (IAM) ロールが無効です。 Cloud Volume ONTAPにアクセスできなくなりました。 |
以下の手順を実行します。…AWS EC2 マネジメントコンソールにログインします。…[インスタンス] ページに移動します。… Cloud Volumes ONTAPデプロイメントのインスタンスを見つけて、そのヘルスを確認します。…インスタンスに関連付けられた AWS IAM ロールが有効であり、インスタンスに対する適切な権限が付与されていることを確認します。 |
AWS メタデータサーバーの接続失敗 |
重大 |
Identity and Access Management (IAM) ロール スレッドは、Amazon Web Services (AWS) メタデータ サーバーとの通信リンクを確立できません。 Amazon Simple Storage Service (Amazon S3) への API リクエストに署名するために使用される必要な AWS IAM ロールベースの認証情報を取得するための通信を確立する必要があります。 Cloud Volume ONTAPにアクセスできなくなりました。… |
以下の手順を実行します。…AWS EC2 マネジメントコンソールにログインします。…[インスタンス] ページに移動します。… Cloud Volumes ONTAPデプロイメントのインスタンスを見つけて、そのヘルスを確認します。… |
FabricPool のスペース使用制限にほぼ達しました |
警告 |
容量ライセンス プロバイダーからのオブジェクト ストアのクラスター全体のFabricPoolスペース使用量の合計が、ライセンス制限にほぼ達しています。 |
次の修正アクションを実行します。…「storage aggregate object-store show-space」コマンドを使用して、各FabricPoolストレージ層で使用されているライセンス容量の割合を確認します。…「volume snapshot delete」コマンドを使用して、階層化ポリシーが「snapshot」または「backup」であるボリュームから Snapshot コピーを削除し、スペースを解放します。…クラスターに新しいライセンスをインストールして、ライセンス容量を増やします。 |
FabricPool のスペース使用制限に達しました |
重大 |
容量ライセンス プロバイダーからのオブジェクト ストアのクラスタ全体のFabricPoolスペース使用量の合計がライセンス制限に達しました。 |
次の修正アクションを実行します。…「storage aggregate object-store show-space」コマンドを使用して、各FabricPoolストレージ層で使用されているライセンス容量の割合を確認します。…「volume snapshot delete」コマンドを使用して、階層化ポリシーが「snapshot」または「backup」であるボリュームから Snapshot コピーを削除し、スペースを解放します。…クラスターに新しいライセンスをインストールして、ライセンス容量を増やします。 |
集計のギブバックに失敗しました |
重大 |
このイベントは、ストレージ フェイルオーバー (SFO) ギブバックの一環としてアグリゲートを移行しているときに、宛先ノードがオブジェクト ストアに到達できない場合に発生します。 |
次の修正アクションを実行します。…「network interface show」コマンドを使用して、クラスタ間 LIF がオンラインで機能していることを確認します。…宛先ノードのクラスタ間 LIF で「ping」コマンドを使用して、オブジェクト ストア サーバへのネットワーク接続を確認します。 …「aggregate object-store config show」コマンドを使用して、オブジェクト ストアの構成が変更されておらず、ログインおよび接続情報が正確であることを確認してください。…または、giveback コマンドの「require-partner-waiting」パラメータに false を指定してエラーを無効にすることもできます。…詳細またはサポートについては、 NetAppテクニカル サポートにお問い合わせください。 |
HA相互接続ダウン |
警告 |
高可用性 (HA) 相互接続がダウンしています。フェイルオーバーが利用できない場合、サービス停止のリスクがあります。 |
修正アクションは、プラットフォームでサポートされている HA 相互接続リンクの数とタイプ、および相互接続がダウンしている理由によって異なります。リンクがダウンしている場合: HA ペアの両方のコントローラが動作していることを確認します。外部接続リンクの場合は、相互接続ケーブルが正しく接続されていること、および該当する場合は Small Form-Factor Pluggable (SFP) が両方のコントローラに正しく装着されていることを確認します。内部接続リンクの場合は、「ic link off」コマンドと「ic link on」コマンドを使用して、リンクを順番に無効にしてから再度有効にします。 …リンクが無効になっている場合は、「ic link on」コマンドを使用してリンクを有効にします。 …ピアが接続されていない場合は、「ic link off」コマンドと「ic link on」コマンドを使用して、リンクを順番に無効にしてから再度有効にします。…問題が解決しない場合は、 NetAppテクニカル サポートにお問い合わせください。 |
ユーザーあたりの最大セッション数を超えました |
警告 |
TCP 接続でユーザーごとに許可されるセッションの最大数を超えました。いくつかのセッションが解放されるまで、セッションを確立する要求はすべて拒否されます。… |
次の修正アクションを実行します。…クライアントで実行されているすべてのアプリケーションを検査し、正常に動作していないアプリケーションを終了します。…クライアントを再起動します。…問題の原因が新しいアプリケーションか既存のアプリケーションかを確認します。…アプリケーションが新しい場合は、「cifs option modify -max-opens-same-file-per-tree」コマンドを使用して、クライアントのしきい値を高く設定します。場合によっては、クライアントは期待どおりに動作しますが、より高いしきい値が必要になります。クライアントに対してより高いしきい値を設定するには、高度な権限が必要です。 …問題が既存のアプリケーションによって発生している場合は、クライアントに問題がある可能性があります。詳細情報やサポートについては、 NetAppテクニカル サポートにお問い合わせください。 |
ファイルあたりの最大オープン回数を超えました |
警告 |
TCP 接続経由でファイルを開くことができる最大回数を超えました。ファイルの開いているインスタンスをいくつか閉じるまで、このファイルを開く要求はすべて拒否されます。これは通常、異常なアプリケーションの動作を示します。… |
次の修正アクションを実行します:…この TCP 接続を使用してクライアントで実行されるアプリケーションを検査します。クライアント上で実行されているアプリケーションが原因で、クライアントが正しく動作していない可能性があります。…クライアントを再起動してください。…問題の原因が新しいアプリケーションか既存のアプリケーションかを確認してください。…アプリケーションが新しい場合は、「cifs option modify -max-opens-same-file-per-tree」コマンドを使用して、クライアントのしきい値を高く設定してください。場合によっては、クライアントは期待どおりに動作しますが、より高いしきい値が必要になります。クライアントに対してより高いしきい値を設定するには、高度な権限が必要です。 …問題が既存のアプリケーションによって発生している場合は、クライアントに問題がある可能性があります。詳細情報やサポートについては、 NetAppテクニカル サポートにお問い合わせください。 |
NetBIOS名の競合 |
重大 |
NetBIOS ネーム サービスは、リモート マシンからの名前登録要求に対する否定応答を受信しました。これは通常、NetBIOS 名またはエイリアスの競合によって発生します。その結果、クライアントはデータにアクセスできないか、クラスター内の適切なデータ提供ノードに接続できない可能性があります。 |
次のいずれかの修正処置を実行してください。…NetBIOS 名またはエイリアスに競合がある場合は、次のいずれかを実行してください。…「vserver cifs delete -aliases alias -vserver vserver」コマンドを使用して、重複した NetBIOS エイリアスを削除します。…「vserver cifs create -aliases alias -vserver vserver」コマンドを使用して、重複した名前を削除し、新しい名前のエイリアスを追加することで、NetBIOS エイリアスの名前を変更します。 …エイリアスが設定されておらず、NetBIOS 名が競合している場合は、「vserver cifs delete -vserver vserver」および「vserver cifs create -cifs-server netbiosname」コマンドを使用して CIFS サーバの名前を変更します。注意: CIFS サーバーを削除すると、データにアクセスできなくなる可能性があります。 …NetBIOS 名を削除するか、リモート マシン上の NetBIOS の名前を変更します。 |
NFSv4 ストア プールが枯渇しました |
重大 |
NFSv4 ストア プールが使い果たされました。 |
このイベント後、NFS サーバーが 10 分以上応答しない場合は、 NetAppテクニカル サポートにお問い合わせください。 |
登録済みのスキャンエンジンがありません |
重大 |
ウイルス対策コネクタは、登録済みのスキャン エンジンがないことをONTAP に通知しました。 「スキャン必須」オプションが有効になっている場合、データが利用できなくなる可能性があります。 |
次の修正アクションを実行します。…ウイルス対策サーバにインストールされているスキャン エンジン ソフトウェアがONTAPと互換性があることを確認します。…スキャン エンジン ソフトウェアが実行されており、ローカル ループバックを介してウイルス対策コネクタに接続するように設定されていることを確認します。 |
Vscan接続なし |
重大 |
ONTAP には、ウイルス スキャン要求を処理するための Vscan 接続がありません。 「スキャン必須」オプションが有効になっている場合、データが利用できなくなる可能性があります。 |
スキャナ プールが適切に設定されており、ウイルス対策サーバがアクティブでONTAPに接続されていることを確認します。 |
ノードルートボリュームの空き容量が少ない |
重大 |
システムはルート ボリュームの空き容量が危険なほど少ないことを検出しました。ノードは完全には動作していません。データ LIF がクラスター内でフェイルオーバーした可能性があります。そのため、ノード上の NFS および CIFS アクセスが制限されています。管理機能は、ルート ボリューム上のスペースをクリアするためのノードのローカル回復手順に制限されます。 |
次の修正アクションを実行してください。…古いスナップショット コピーを削除するか、/mroot ディレクトリから不要になったファイルを削除するか、ルート ボリュームの容量を拡張して、ルート ボリュームのスペースを解放します。…コントローラを再起動します。…詳細またはサポートについては、 NetAppテクニカル サポートにお問い合わせください。 |
管理者共有が存在しません |
重大 |
Vscan の問題: クライアントが存在しない ONTAP_ADMIN$ 共有に接続しようとしました。 |
指定された SVM ID に対して Vscan が有効になっていることを確認します。 SVM で Vscan を有効にすると、SVM に対して ONTAP_ADMIN$ 共有が自動的に作成されます。 |
NVMe名前空間のスペース不足 |
重大 |
スペース不足による書き込み失敗のため、NVMe 名前空間がオフラインになりました。 |
ボリュームにスペースを追加し、「vserver nvme namespace modify」コマンドを使用して NVMe 名前空間をオンラインにします。 |
NVMF の猶予期間 - アクティブ |
警告 |
このイベントは、NVMe over Fabrics (NVMe-oF) プロトコルが使用されており、ライセンスの猶予期間がアクティブな場合に毎日発生します。ライセンスの猶予期間が終了した後、NVMe-oF 機能にはライセンスが必要になります。ライセンスの猶予期間が終了すると、NVMe-oF 機能は無効になります。 |
営業担当者に連絡して NVMe-oF ライセンスを取得し、それをクラスターに追加するか、クラスターから NVMe-oF 構成のすべてのインスタンスを削除してください。 |
NVMF の猶予期間 - 終了 |
警告 |
NVMe over Fabrics (NVMe-oF) ライセンスの猶予期間が終了し、NVMe-oF 機能が無効になっています。 |
営業担当者に連絡して NVMe-oF ライセンスを取得し、クラスターに追加してください。 |
NVMe-oF 猶予期間の開始 |
警告 |
ONTAP 9.5 ソフトウェアへのアップグレード中に、NVMe over Fabrics (NVMe-oF) 構成が検出されました。ライセンスの猶予期間が終了した後、NVMe-oF 機能にはライセンスが必要になります。 |
営業担当者に連絡して NVMe-oF ライセンスを取得し、クラスターに追加してください。 |
オブジェクトストアホストが解決できません |
重大 |
オブジェクト ストア サーバーのホスト名を IP アドレスに解決できません。オブジェクト ストア クライアントは、IP アドレスを解決しないとオブジェクト ストア サーバーと通信できません。その結果、データにアクセスできなくなる可能性があります。 |
DNS 構成をチェックして、ホスト名が IP アドレスで正しく設定されていることを確認します。 |
オブジェクトストアのクラスタ間LIFがダウンしています |
重大 |
オブジェクト ストア クライアントは、オブジェクト ストア サーバーと通信するための動作可能な LIF を見つけることができません。インタークラスタ LIF が動作可能になるまで、ノードはオブジェクト ストア クライアント トラフィックを許可しません。その結果、データにアクセスできなくなる可能性があります。 |
次の修正アクションを実行します。…「network interface show -role intercluster」コマンドを使用して、クラスタ間 LIF のステータスを確認します。…クラスタ間 LIF が正しく設定され、動作していることを確認します。…クラスタ間 LIF が設定されていない場合は、「network interface create -role intercluster」コマンドを使用して追加します。 |
オブジェクトストアの署名の不一致 |
重大 |
オブジェクト ストア サーバーに送信された要求署名が、クライアントによって計算された署名と一致しません。その結果、データにアクセスできなくなる可能性があります。 |
シークレット アクセス キーが正しく設定されていることを確認します。正しく設定されている場合は、 NetAppテクニカル サポートにお問い合わせください。 |
READDIR タイムアウト |
重大 |
READDIR ファイル操作が、 WAFLで実行できるタイムアウトを超えました。これは、ディレクトリが非常に大きいか、またはディレクトリがまばらであるために発生する可能性があります。是正措置をお勧めします。 |
次の修正アクションを実行します。…次の「diag」権限ノードシェル CLI コマンドを使用して、READDIR ファイル操作の有効期限が切れた最近のディレクトリに固有の情報を検索します: wafl readdir notice show。…ディレクトリがスパースとして示されているかどうかを確認します。…ディレクトリがスパースとして示されている場合は、ディレクトリ ファイルのスパース性を削除するために、ディレクトリの内容を新しいディレクトリにコピーすることをお勧めします。 …ディレクトリがスパースとして示されておらず、ディレクトリが大きい場合は、ディレクトリ内のファイル エントリの数を減らして、ディレクトリ ファイルのサイズを小さくすることをお勧めします。 |
集計の再配置に失敗しました |
重大 |
このイベントは、集約の再配置中に、宛先ノードがオブジェクト ストアに到達できない場合に発生します。 |
次の修正アクションを実行します。…「network interface show」コマンドを使用して、クラスタ間 LIF がオンラインで機能していることを確認します。…宛先ノードのクラスタ間 LIF で「ping」コマンドを使用して、オブジェクト ストア サーバへのネットワーク接続を確認します。 …「aggregate object-store config show」コマンドを使用して、オブジェクト ストアの構成が変更されておらず、ログインおよび接続情報が正確であることを確認してください。…または、再配置コマンドの「override-destination-checks」パラメータを使用してエラーを無効にすることもできます。…詳細またはサポートについては、 NetAppテクニカル サポートにお問い合わせください。 |
シャドウコピーに失敗しました |
重大 |
Microsoft Server のバックアップおよび復元サービス操作であるボリューム シャドウ コピー サービス (VSS) が失敗しました。 |
イベント メッセージに提供される情報を使用して、次の点を確認してください。…シャドウ コピー構成は有効になっていますか?…適切なライセンスがインストールされていますか? …シャドウ コピー操作はどの共有で実行されますか?…共有名は正しいですか?…共有パスは存在しますか?…シャドウ コピー セットとそのシャドウ コピーの状態はどうですか? |
ストレージスイッチの電源が故障しました |
警告 |
クラスタ スイッチに電源がありません。冗長性が低下し、さらなる停電で停電の危険が生じます。 |
次の修正アクションを実行してください。…クラスタ スイッチに電力を供給する電源装置のメインがオンになっていることを確認します。…電源コードが電源装置に接続されていることを確認します。…問題が解決しない場合は、 NetAppテクニカル サポートに問い合わせてください。 |
CIFS認証が多すぎる |
警告 |
多くの認証ネゴシエーションが同時に発生しました。このクライアントからの不完全な新規セッション要求が 256 件あります。 |
クライアントが 256 個以上の新しい接続要求を作成した理由を調査します。エラーが発生した原因を特定するには、クライアントまたはアプリケーションのベンダーに問い合わせる必要がある場合があります。 |
管理者共有への不正ユーザーアクセス |
警告 |
ログインしているユーザーが許可されたユーザーではないにもかかわらず、クライアントは特権のある ONTAP_ADMIN$ 共有に接続しようとしました。 |
次の修正アクションを実行します。…指定されたユーザー名と IP アドレスがアクティブな Vscan スキャナ プールの 1 つに設定されていることを確認します。…「vserver vscan scanner pool show-active」コマンドを使用して、現在アクティブなスキャナ プールの設定を確認します。 |
ウイルスが検出されました |
警告 |
Vscan サーバーがストレージ システムにエラーを報告しました。これは通常、ウイルスが見つかったことを示します。ただし、Vscan サーバー上の他のエラーがこのイベントの原因となる場合があります。…ファイルへのクライアント アクセスが拒否されました。 Vscan サーバーは、設定と構成に応じて、ファイルを消去したり、隔離したり、削除したりする場合があります。 |
「syslog」イベントで報告された Vscan サーバーのログをチェックして、感染したファイルを正常にクリーンアップ、隔離、または削除できたかどうかを確認します。それができなかった場合、システム管理者が手動でファイルを削除しなければならない可能性があります。 |
ボリュームはオフライン |
情報 |
このメッセージは、ボリュームがオフラインになっていることを示します。 |
ボリュームをオンラインに戻します。 |
ボリュームは制限状態 |
情報 |
このイベントは、フレキシブル ボリュームが制限されたことを示します。 |
ボリュームをオンラインに戻します。 |
ストレージ VM の停止に成功しました |
情報 |
このメッセージは、「vserver stop」操作が成功したときに表示されます。 |
'vserver start' コマンドを使用して、ストレージ VM 上のデータ アクセスを開始します。 |
ノードパニック |
警告 |
このイベントはパニックが発生したときに発行されます |
NetAppカスタマー サポートにお問い合わせください。 |
ランサムウェア対策ログモニター
モニター名 |
重大度 |
説明 |
対処方法 |
ストレージ VM のランサムウェア対策監視が無効 |
警告 |
ストレージ VM のランサムウェア対策監視が無効になっています。ランサムウェア対策を有効にして、ストレージ VM を保護します。 |
なし |
ストレージ VM のランサムウェア対策監視が有効 (学習モード) |
情報 |
ストレージ VM のランサムウェア対策監視が学習モードで有効になっています。 |
なし |
ボリュームランサムウェア対策監視が有効 |
情報 |
ボリュームのランサムウェア対策監視が有効になっています。 |
なし |
ボリュームランサムウェア対策監視が無効 |
警告 |
ボリュームのランサムウェア対策監視は無効になっています。ボリュームを保護するためにランサムウェア対策を有効にします。 |
なし |
ボリュームランサムウェア対策監視が有効(学習モード) |
情報 |
ボリュームのランサムウェア対策監視が学習モードで有効になっています。 |
なし |
ボリュームランサムウェア対策監視の一時停止(学習モード) |
警告 |
ボリュームのランサムウェア対策監視は学習モードで一時停止されています。 |
なし |
ボリュームランサムウェア対策監視の一時停止 |
警告 |
ボリュームのランサムウェア対策監視が一時停止されています。 |
なし |
ボリュームランサムウェア対策監視の無効化 |
警告 |
ボリュームのランサムウェア対策監視が無効になっています。 |
なし |
ランサムウェア活動が検出されました |
重大 |
検出されたランサムウェアからデータを保護するために、元のデータを復元するために使用できるスナップショット コピーが作成されました。システムはAutoSupportまたは「コール ホーム」メッセージを生成し、 NetAppテクニカル サポートおよび設定された送信先に送信します。 AutoSupportメッセージにより、問題の特定と解決が向上します。 |
ランサムウェア活動に対する是正措置を講じるには、「FINAL-DOCUMENT-NAME」を参照してください。 |
NetApp ONTAPモニターの FSx
モニター名 |
しきい値 |
モニターの説明 |
対処方法 |
FSxボリュームの容量がいっぱいです |
警告 @ > 85 %…重大 @ > 95 % |
アプリケーションと顧客データを保存するには、ボリュームのストレージ容量が必要です。 ONTAPボリュームに保存されるデータが増えるほど、将来のデータのストレージ可用性は低下します。ボリューム内のデータ保存容量が合計保存容量に達した場合、保存容量不足によりお客様がデータを保存できなくなる可能性があります。使用されたボリュームのストレージ容量を監視することで、データ サービスの継続性が確保されます。 |
重要なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、直ちにアクションを実行する必要があります。…1.スペースを空けるために、不要になったデータを削除することを検討してください |
FSxボリュームの高レイテンシー |
警告 @ > 1000 µs…重大 @ > 2000 µs |
ボリュームは、devOps アプリケーション、ホーム ディレクトリ、データベースなどのパフォーマンスが重視されるアプリケーションによって発生することが多い IO トラフィックを処理するオブジェクトです。大量の待ち時間が発生すると、アプリケーション自体に問題が発生し、タスクを完了できなくなる可能性があります。アプリケーションの一貫したパフォーマンスを維持するためには、ボリュームのレイテンシを監視することが重要です。 |
重要なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、直ちにアクションを実行する必要があります。…1.ボリュームに QoS ポリシーが割り当てられている場合は、ボリュームのワークロードが調整される原因にならないように、その制限しきい値を評価します……警告しきい値を超えた場合は、すぐに次のアクションを実行するように計画します:…1.ボリュームに QoS ポリシーが割り当てられている場合は、ボリュームのワークロードが調整される原因にならないように、その制限しきい値を評価します。…2.ノードの使用率も高い場合は、ボリュームを別のノードに移動する、またはノードの合計ワークロードを削減します。 |
FSxボリュームのiノード制限 |
警告 @ > 85 %…重大 @ > 95 % |
ファイルを保存するボリュームは、インデックス ノード (inode) を使用してファイルのメタデータを保存します。ボリュームの inode 割り当てを使い果たすと、それ以上のファイルを追加できなくなります。警告アラートは、利用可能な inode の数を増やすために計画されたアクションを実行する必要があることを示します。重大なアラートは、ファイル制限の枯渇が差し迫っており、サービスの継続性を確保するために、iノードを解放するための緊急措置を講じる必要があることを示します。 |
重要なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、直ちにアクションを実行する必要があります。…1.ボリュームの inode 値を増やすことを検討してください。 inode 値がすでに最大値に達している場合は、ファイル システムが最大サイズを超えているため、ボリュームを 2 つ以上のボリュームに分割することを検討してください……警告しきい値を超えた場合は、すぐに次のアクションを実行するように計画してください:…1.ボリュームの inode 値を増やすことを検討してください。 inode値がすでに最大値に達している場合は、ファイルシステムが最大サイズを超えているため、ボリュームを2つ以上のボリュームに分割することを検討してください。 |
FSx ボリューム Qtree クォータ オーバーコミット |
警告 @ > 95 %…重大 @ > 100 % |
ボリューム qtree クォータ オーバーコミットは、ボリュームが qtree クォータによってオーバーコミットされていると見なされるパーセンテージを指定します。ボリュームの qtree クォータに設定されたしきい値に達しました。ボリューム qtree クォータのオーバーコミットを監視することで、ユーザーは中断のないデータ サービスを受けることができます。 |
重要なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、直ちに措置を講じる必要があります。1.不要なデータを削除します…警告しきい値を超えた場合は、ボリュームのスペースを増やすことを検討してください。 |
FSxスナップショットの予約スペースがいっぱいです |
警告 @ > 90 %…重大 @ > 95 % |
アプリケーションと顧客データを保存するには、ボリュームのストレージ容量が必要です。スナップショット予約領域と呼ばれるその領域の一部は、データをローカルで保護できるようにするスナップショットを保存するために使用されます。 ONTAPボリュームに保存される新規データや更新データが増えるほど、使用されるスナップショット容量が増え、将来の新規データや更新データに使用できるスナップショット ストレージ容量は少なくなります。ボリューム内のスナップショット データ容量が合計スナップショット予約領域に達すると、顧客が新しいスナップショット データを保存できなくなり、ボリューム内のデータの保護レベルが低下する可能性があります。ボリュームの使用済みスナップショット容量を監視することで、データ サービスの継続性が確保されます。 |
重要なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、直ちにアクションを実行する必要があります。…1.スナップショット予約がいっぱいになったときにボリューム内のデータ領域を使用するようにスナップショットを構成することを検討してください…2.スペースを解放するために、不要になった可能性のある古いスナップショットを削除することを検討してください……警告しきい値を超えた場合は、すぐに次のアクションを実行するように計画してください:…1.成長に対応するためにボリューム内のスナップショット予約領域を増やすことを検討してください…2.スナップショットの予約領域がいっぱいになったときにボリューム内のデータ領域を使用するようにスナップショットを構成することを検討してください |
FSxボリュームキャッシュミス率 |
警告 @ > 95 %…重大 @ > 100 % |
ボリューム キャッシュ ミス率は、クライアント アプリケーションからの読み取り要求のうち、キャッシュから返されるのではなくディスクから返される要求の割合です。これは、音量が設定されたしきい値に達したことを意味します。 |
重要なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、直ちに措置を講じる必要があります。1. IO 負荷 2 を軽減するために、一部のワークロードをボリュームのノードから移動します。 QoS 制限を使用して、同じノード上の優先度の低いワークロードの需要を下げます…警告しきい値を超えた場合は、直ちにアクションを検討してください。1. IO 負荷 2 を軽減するために、一部のワークロードをボリュームのノードから移動します。 QoS 制限 3 を使用して、同じノード上の優先度の低いワークロードの需要を下げます。ワークロード特性の変更(ブロックサイズ、アプリケーションキャッシュなど) |
K8sモニター
モニター名 |
説明 |
対処方法 |
重大度/閾値 |
永続ボリュームのレイテンシが高い |
永続ボリュームのレイテンシが高いということは、アプリケーション自体に問題が発生し、タスクを完了できなくなる可能性があることを意味します。アプリケーションの一貫したパフォーマンスを維持するためには、永続ボリュームのレイテンシを監視することが重要です。メディア タイプに基づいて予想されるレイテンシは次のとおりです - SSD 最大 1 ~ 2 ミリ秒、SAS 最大 8 ~ 10 ミリ秒、SATA HDD 17 ~ 20 ミリ秒。 |
即時アクション 重要なしきい値を超えた場合は、サービスの中断を最小限に抑えるための即時アクションを検討してください。ボリュームに QoS ポリシーが割り当てられている場合は、ボリュームのワークロードが調整される原因となっていないか、その制限しきい値を評価します。 すぐに行うべきアクション 警告しきい値を超えた場合は、次の即時アクションを計画してください。1.ストレージ プールの使用率も高い場合は、ボリュームを別のストレージ プールに移動します。2.ボリュームに QoS ポリシーが割り当てられている場合は、ボリュームのワークロードが調整される原因にならないように、その制限しきい値を評価します。3.コントローラの使用率も高い場合は、ボリュームを別のコントローラに移動する、またはコントローラの全体的なワークロードを減らします。 |
警告 @ > 6,000 μs 重大 @ > 12,000 μs |
クラスタメモリ飽和度が高い |
クラスターの割り当て可能なメモリの飽和度が高くなっています。クラスターの CPU 飽和度は、メモリ使用量の合計をすべての K8s ノード全体の割り当て可能なメモリの合計で割って計算されます。 |
ノードを追加します。スケジュールされていないノードを修正します。ポッドのサイズを適正化してノード上のメモリを解放します。 |
警告 @ > 80 % 重大 @ > 90 % |
POD接続に失敗しました |
このアラートは、POD を使用したボリューム接続が失敗したときに発生します。 |
警告 |
|
高い再送信率 |
高いTCP再送信率 |
ネットワークの輻輳をチェックする - ネットワーク帯域幅を大量に消費するワークロードを特定します。 Pod の CPU 使用率が高くないか確認します。ハードウェアのネットワークパフォーマンスを確認します。 |
警告 @ > 10 % 重大 @ > 25 % |
ノードファイルシステム容量高 |
ノードファイルシステム容量高 |
- アプリケーション ファイルに十分なスペースを確保するために、ノード ディスクのサイズを増やします。 - アプリケーション ファイルの使用量を減らします。 |
警告 @ > 80 % 重大 @ > 90 % |
ワークロードネットワークジッター高 |
高い TCP ジッタ (高いレイテンシ/応答時間の変動) |
ネットワークの混雑を確認します。ネットワーク帯域幅を大量に消費するワークロードを特定します。 Pod の CPU 使用率が高くないか確認します。ハードウェアネットワークのパフォーマンスを確認する |
警告 @ > 30 ms 重大 @ > 50 ms |
永続ボリュームのスループット |
永続ボリュームの MBPS しきい値を使用すると、永続ボリュームが事前定義されたパフォーマンスの期待値を超え、他の永続ボリュームに影響を及ぼす可能性がある場合に管理者に警告することができます。このモニターを有効にすると、SSD 上の永続ボリュームの一般的なスループット プロファイルに適したアラートが生成されます。このモニターは、テナント上のすべての永続ボリュームをカバーします。このモニターを複製し、ストレージ クラスに適したしきい値を設定することで、監視目標に基づいて警告および重大なしきい値を調整できます。複製されたモニターは、テナント上の永続ボリュームのサブセットをさらにターゲットにすることができます。 |
即時のアクション 重要なしきい値を超えた場合は、サービスの中断を最小限に抑えるために即時のアクションを計画します。1.ボリュームに QoS MBPS 制限を導入します。2.ボリューム上のワークロードを実行しているアプリケーションに異常がないか確認します。 すぐに行うべきアクション 警告しきい値を超えた場合は、次の即時アクションを実行するように計画してください。1.ボリュームに QoS MBPS 制限を導入します。2.ボリューム上のワークロードを実行しているアプリケーションに異常がないか確認します。 |
警告 @ > 10,000 MB/s 重大 @ > 15,000 MB/s |
OOM になる危険性のあるコンテナが強制終了される |
コンテナのメモリ制限が低すぎます。コンテナは、排除される危険があります (メモリ不足による強制終了)。 |
コンテナのメモリ制限を増やします。 |
警告 @ > 95 % |
作業負荷の減少 |
ワークロードには正常なポッドがありません。 |
クリティカル @ < 1 |
|
永続ボリュームの要求のバインドに失敗しました |
このアラートは、PVC でバインディングが失敗したときに発生します。 |
警告 |
|
リソースクォータのメモリ制限を超過します |
名前空間のメモリ制限が ResourceQuota を超えようとしています |
警告 @ > 80 % 重大 @ > 90 % |
|
リソースクォータメモリ要求が超過しそうです |
名前空間のメモリ要求がリソースクォータを超えようとしています |
警告 @ > 80 % 重大 @ > 90 % |
|
ノードの作成に失敗しました |
構成エラーのため、ノードをスケジュールできませんでした。 |
構成失敗の原因については、Kubernetes イベント ログを確認してください。 |
致命的 |
永続ボリュームの再利用に失敗しました |
ボリュームの自動再利用が失敗しました。 |
警告 @ > 0 B |
|
コンテナのCPUスロットリング |
コンテナの CPU 制限が低すぎます。コンテナのプロセスが遅くなります。 |
コンテナの CPU 制限を増やします。 |
警告 @ > 95 % 重大 @ > 98 % |
サービス ロードバランサの削除に失敗しました |
警告 |
||
永続ボリュームIOPS |
永続ボリュームの IOPS しきい値を使用すると、永続ボリュームが事前定義されたパフォーマンス期待値を超えたときに管理者に警告することができます。このモニターを有効にすると、永続ボリュームの一般的な IOPS プロファイルに適したアラートが生成されます。このモニターは、テナント上のすべての永続ボリュームをカバーします。このモニターを複製し、ワークロードに適したしきい値を設定することで、監視目標に基づいて警告および重大しきい値を調整できます。 |
即時のアクション 重要なしきい値を超えた場合は、サービスの中断を最小限に抑えるために即時のアクションを計画します。1.ボリュームに QoS IOPS 制限を導入します。2.ボリューム上のワークロードを実行しているアプリケーションに異常がないか確認します。 すぐに行うべきアクション 警告しきい値を超えた場合は、次の即時アクションを計画してください。1.ボリュームに QoS IOPS 制限を導入します。2.ボリューム上のワークロードを実行しているアプリケーションに異常がないか確認します。 |
警告 @ > 20,000 IO/s 重大 @ > 25,000 IO/s |
サービス ロードバランサの更新に失敗しました |
警告 |
||
PODマウント失敗 |
このアラートは、POD でのマウントが失敗したときに発生します。 |
警告 |
|
ノードPID圧力 |
(Linux) ノード上の使用可能なプロセス ID が、削除しきい値を下回りました。 |
多くのプロセスを生成し、使用可能なプロセス ID のノードを枯渇させるポッドを見つけて修正します。過剰なプロセスを生成するポッドまたはコンテナからノードを保護するには、PodPidsLimit を設定します。 |
クリティカル @ > 0 |
ポッドイメージのプル失敗 |
Kubernetes はポッド コンテナ イメージのプルに失敗しました。 |
- ポッド構成でポッドのイメージが正しく入力されていることを確認します。 - レジストリにイメージタグが存在することを確認します。 - イメージ レジストリの資格情報を確認します。 - レジストリ接続の問題がないか確認します。 - パブリック レジストリ プロバイダーによって課せられたレート制限に達していないことを確認します。 |
警告 |
ジョブの実行時間が長すぎる |
ジョブの実行時間が長すぎます |
1時間以上で警告、5時間以上で重大 |
|
ノードメモリ高 |
ノードのメモリ使用量が高い |
ノードを追加します。スケジュールされていないノードを修正します。ポッドのサイズを適正化してノード上のメモリを解放します。 |
警告 @ > 85 % 重大 @ > 90 % |
リソースクォータCPU制限を超過しそうです |
名前空間の CPU 制限が ResourceQuota を超えようとしています |
警告 @ > 80 % 重大 @ > 90 % |
|
ポッドクラッシュループバックオフ |
ポッドがクラッシュし、複数回再起動を試行しました。 |
クリティカル @ > 3 |
|
ノードCPU高 |
ノードの CPU 使用率が高くなっています。 |
ノードを追加します。スケジュールされていないノードを修正します。ポッドのサイズを適正化して、ノード上の CPU を解放します。 |
警告 @ > 80 % 重大 @ > 90 % |
ワークロードネットワーク遅延RTT高 |
TCP RTT(ラウンドトリップタイム)の遅延が高い |
ネットワークの輻輳を確認する▒ネットワーク帯域幅を大量に消費するワークロードを特定します。 Pod の CPU 使用率が高くないか確認します。ハードウェアのネットワークパフォーマンスを確認します。 |
警告 @ > 150 ms 重大 @ > 300 ms |
ジョブが失敗しました |
ノードのクラッシュまたは再起動、リソースの枯渇、ジョブのタイムアウト、またはポッドのスケジュール失敗のため、ジョブは正常に完了しませんでした。 |
Kubernetes イベント ログで失敗の原因を確認します。 |
警告 @ > 1 |
数日で永続ボリュームがいっぱいになる |
永続ボリュームの容量は数日で不足します |
- アプリケーション ファイルに十分なスペースを確保するためにボリューム サイズを増やします。 - アプリケーションに保存されるデータの量を削減します。 |
警告 @ < 8日 重大 @ < 3日 |
ノードメモリの圧力 |
ノードのメモリが不足しています。使用可能なメモリが削除しきい値に達しました。 |
ノードを追加します。スケジュールされていないノードを修正します。ポッドのサイズを適正化してノード上のメモリを解放します。 |
クリティカル @ > 0 |
ノードが準備完了ではありません |
ノードは5分間準備されていません |
ノードに十分な CPU、メモリ、ディスク リソースがあることを確認します。ノードのネットワーク接続を確認します。 Kubernetes イベント ログで失敗の原因を確認します。 |
クリティカル @ < 1 |
永続ボリューム容量大 |
永続ボリュームのバックエンドの使用容量が高くなっています。 |
- アプリケーション ファイルに十分なスペースを確保するためにボリューム サイズを増やします。 - アプリケーションに保存されるデータの量を減らします。 |
警告 @ > 80 % 重大 @ > 90 % |
サービス ロードバランサの作成に失敗しました |
サービス ロードバランサの作成に失敗しました |
致命的 |
|
ワークロードレプリカの不一致 |
一部のポッドは現在、デプロイメントまたは DaemonSet で使用できません。 |
警告 @ > 1 |
|
リソースクォータCPU要求が超過しそうです |
名前空間のCPU要求がリソースクォータを超えようとしています |
警告 @ > 80 % 重大 @ > 90 % |
|
高い再送信率 |
高いTCP再送信率 |
ネットワークの輻輳をチェックする - ネットワーク帯域幅を大量に消費するワークロードを特定します。 Pod の CPU 使用率が高くないか確認します。ハードウェアのネットワークパフォーマンスを確認します。 |
警告 @ > 10 % 重大 @ > 25 % |
ノードディスク圧力 |
ノードのルート ファイル システムまたはイメージ ファイル システムのいずれかで使用可能なディスク領域と inode が、削除しきい値を満たしました。 |
- アプリケーション ファイルに十分なスペースを確保するために、ノード ディスクのサイズを増やします。 - アプリケーション ファイルの使用量を減らします。 |
クリティカル @ > 0 |
クラスターCPU飽和度が高い |
クラスターの割り当て可能な CPU 飽和度が高くなっています。クラスターの CPU 飽和度は、CPU 使用量の合計をすべての K8s ノード全体の割り当て可能な CPU の合計で割って計算されます。 |
ノードを追加します。スケジュールされていないノードを修正します。ポッドのサイズを適正化して、ノード上の CPU を解放します。 |
警告 @ > 80 % 重大 @ > 90 % |
変更ログモニター
モニター名 |
重大度 |
モニターの説明 |
内部ボリュームを発見 |
情報 |
このメッセージは、内部ボリュームが検出された場合に発生します。 |
内部ボリュームが変更されました |
情報 |
このメッセージは、内部ボリュームが変更されたときに発生します。 |
ストレージノードが検出されました |
情報 |
このメッセージは、ストレージ ノードが検出されたときに表示されます。 |
ストレージノードが削除されました |
情報 |
このメッセージは、ストレージ ノードが削除されたときに表示されます。 |
ストレージプールが検出されました |
情報 |
このメッセージは、ストレージ プールが検出されたときに表示されます。 |
ストレージ仮想マシンが検出されました |
情報 |
このメッセージは、ストレージ仮想マシンが検出されたときに表示されます。 |
ストレージ仮想マシンが変更されました |
情報 |
このメッセージは、ストレージ仮想マシンが変更されたときに発生します。 |
データ収集モニター
モニター名 |
説明 |
対処方法 |
買収ユニットのシャットダウン |
Data Infrastructure Insights取得ユニットは、新しい機能を導入するために、アップグレードの一環として定期的に再起動されます。通常の環境では、これは月に 1 回以下発生します。取得ユニットがシャットダウンしたという警告アラートの直後には、新しく再起動された取得ユニットがData Infrastructure Insightsへの登録を完了したことを通知する解決策が続く必要があります。通常、このシャットダウンから登録までのサイクルには 5 ~ 15 分かかります。 |
アラートが頻繁に発生する場合、または 15 分以上続く場合は、Acquisition Unit をホストするシステム、ネットワーク、および AU をインターネットに接続しているプロキシの動作を確認してください。 |
コレクターが失敗しました |
データ コレクターのポーリングで予期しない障害状況が発生しました。 |
状況の詳細については、 Data Infrastructure Insightsのデータ コレクター ページをご覧ください。 |
コレクターの警告 |
このアラートは通常、データ コレクターまたはターゲット システムの構成が誤っているために発生する可能性があります。今後のアラートを防ぐために構成を見直してください。また、データ収集者が収集可能なすべてのデータを収集したにもかかわらず、不完全なデータを取得したことが原因である可能性もあります。これは、データ収集中に状況が変化した場合に発生する可能性があります (たとえば、データ収集の開始時に存在していた仮想マシンが、データ収集中、データがキャプチャされる前に削除された場合など)。 |
データ コレクターまたはターゲット システムの構成を確認します。コレクター警告のモニターは他のモニター タイプよりも多くのアラートを送信する可能性があるので、トラブルシューティングを行わない限り、アラート受信者を設定しないことをお勧めします。 |
セキュリティモニター
モニター名 |
しきい値 |
モニターの説明 |
対処方法 |
AutoSupport HTTPS 転送が無効 |
警告 @ < 1 |
AutoSupportは、転送プロトコルとしてHTTPS、HTTP、およびSMTPをサポートします。AutoSupportメッセージは機密性が高いため、NetAppでは、NetAppサポートにAutoSupportメッセージを送信する際のデフォルト転送プロトコルとして、HTTPSを使用することを強く推奨しています。 |
AutoSupportメッセージのトランスポートプロトコルとしてHTTPSを設定するには、次のONTAPコマンドを実行します。…system node autosupport modify -transport https |
SSH のクラスタ安全でない暗号 |
警告 @ < 1 |
SSH が安全でない暗号 (例: *cbc で始まる暗号) を使用していることを示します。 |
CBC暗号を削除するには、次のONTAPコマンドを実行します。…security ssh remove -vserver <admin vserver> -ciphers aes256-cbc,aes192-cbc,aes128-cbc,3des-cbc |
クラスターログインバナーが無効です |
警告 @ < 1 |
ONTAPシステムにアクセスするユーザーに対してログイン バナーが無効になっていることを示します。ログイン バナーを表示すると、システムへのアクセスと使用に関する期待を確立するのに役立ちます。 |
クラスタのログインバナーを設定するには、次のONTAPコマンドを実行します:…security login banner modify -vserver <admin svm> -message "Access limited to authorized users" |
クラスタ ピア通信が暗号化されていない |
警告 @ < 1 |
ディザスタ リカバリ、キャッシュ、またはバックアップの目的でデータをレプリケートする場合は、あるONTAPクラスタから別のONTAPクラスタへの転送時にそのデータを保護する必要があります。暗号化は、ソース クラスターと宛先クラスターの両方で構成する必要があります。 |
ONTAP 9.6 よりも前に作成されたクラスタ ピア関係に対して暗号化を有効にするには、ソースとデスティネーションのクラスタを 9.6 にアップグレードする必要があります。次に、「cluster peer modify」コマンドを使用して、ソース クラスタ ピアと宛先クラスタ ピアの両方がクラスタ ピアリング暗号化を使用するように変更します。詳細については、『 NetAppセキュリティ強化ガイド for ONTAP 9』を参照してください。 |
デフォルトのローカル管理ユーザが有効 |
警告 @ > 0 |
NetApp、lock コマンドを使用して、不要なデフォルトの管理者ユーザー (組み込み) アカウントをロック (無効化) することを推奨しています。これらは主に、パスワードが更新または変更されたことのないデフォルトのアカウントです。 |
組み込みの「admin」アカウントをロックするには、次のONTAPコマンドを実行します。…security login lock -username admin |
FIPS モードが無効 |
警告 @ < 1 |
FIPS 140-2 への準拠を有効にすると、TLSv1 と SSLv3 は無効になり、TLSv1.1 と TLSv1.2 のみが引き続き有効になりますONTAPでは、FIPS 140-2への準拠が有効な場合、TLSv1とSSLv3を有効にすることはできません。 |
クラスタでFIPS 140-2準拠を有効にするには、次のONTAPコマンドを詳細権限モードで実行します。…security config modify -interface SSL -is-fips-enabled true |
ログ転送が暗号化されていない |
警告 @ < 1 |
情報の流出を単一のシステムまたはソリューションに限定するためには、syslog情報をオフロードする必要があります。そのため、syslog情報を安全な保管場所にオフロードすることを推奨します。 |
ログ転送先を作成したら、そのプロトコルを変更することはできません。暗号化されたプロトコルに変更するには、次のONTAPコマンドを使用してログ転送先を削除して再作成します。…cluster log-forwarding create -destination <destination ip> -protocol tcp-encrypted |
MD5ハッシュパスワード |
警告 @ > 0 |
NetApp、 ONTAPユーザー アカウント パスワードには、より安全な SHA-512 ハッシュ関数を使用することを強くお勧めします。安全性の低い MD5 ハッシュ関数を使用しているアカウントは、SHA-512 ハッシュ関数に移行する必要があります。 |
NetAppは、ユーザーにパスワードを変更させることで、ユーザーアカウントをより安全なSHA-512ソリューションに移行することを強く推奨しています。…MD5ハッシュ関数を使用するパスワードでアカウントをロックするには、次のONTAPコマンドを実行します。…security login lock -vserver * -username * -hash-function md5 |
NTPサーバーが設定されていません |
警告 @ < 1 |
クラスターに NTP サーバーが構成されていないことを示します。冗長性と最適なサービスを確保するために、 NetApp少なくとも 3 台の NTP サーバーをクラスタに関連付けることを推奨しています。 |
NTPサーバをクラスタに関連付けるには、次のONTAPコマンドを実行します: cluster time-service ntp server create -server <ntp server host name or ip address> |
NTP サーバ数が不足しています |
警告 @ < 3 |
クラスターに構成されている NTP サーバーが 3 台未満であることを示します。冗長性と最適なサービスを確保するために、 NetApp少なくとも 3 台の NTP サーバーをクラスタに関連付けることを推奨しています。 |
NTPサーバをクラスタに関連付けるには、次のONTAPコマンドを実行します。…cluster time-service ntp server create -server <ntpサーバのホスト名またはIPアドレス> |
リモートシェルが有効 |
警告 @ > 0 |
リモート シェルは、 ONTAPソリューションへのコマンド ライン アクセスを確立するための安全な方法ではありません。安全なリモート アクセスを実現するには、リモート シェルを無効にする必要があります。 |
NetAppは、安全なリモートアクセスのためにセキュアシェル(SSH)を推奨しています。…クラスタでリモートシェルを無効にするには、次のONTAPコマンドを高度な権限モードで実行します。…security protocol modify -application rsh- enabled false |
ストレージ VM 監査ログが無効 |
警告 @ < 1 |
SVM の監査ログが無効になっていることを示します。 |
Vserver の監査ログを設定するには、次のONTAPコマンドを実行します:…vserver audit enable -vserver <svm> |
ストレージ VM SSH の安全でない暗号 |
警告 @ < 1 |
SSH が安全でない暗号 (例: *cbc で始まる暗号) を使用していることを示します。 |
CBC暗号を削除するには、次のONTAPコマンドを実行します。…security ssh remove -vserver <vserver> -ciphers aes256-cbc,aes192-cbc,aes128-cbc,3des-cbc |
ストレージ VM ログイン バナーが無効になっています |
警告 @ < 1 |
システム上の SVM にアクセスするユーザーに対してログイン バナーが無効になっていることを示します。ログイン バナーを表示すると、システムへのアクセスと使用に関する期待を確立するのに役立ちます。 |
クラスタのログインバナーを設定するには、次のONTAPコマンドを実行します:…security login banner modify -vserver <svm> -message "Access limited to authorized users" |
Telnet プロトコルが有効 |
警告 @ > 0 |
Telnet は、 ONTAPソリューションへのコマンドライン アクセスを確立するための安全な方法ではありません。安全なリモート アクセスのために、Telnet を無効にする必要があります。 |
セキュアなリモート アクセスを確立するために、Secure Shell(SSH)を推奨します。クラスタ上でTelnetを無効にするには、次のONTAPコマンドを詳細権限モードで実行します。…security protocol modify -application telnet -enabled false |
データ保護モニター
モニター名 |
しきい値 |
モニターの説明 |
対処方法 |
LUNスナップショットコピー用のスペースが不足しています |
(フィルター contains_luns = Yes) 警告 @ > 95 %…重大 @ > 100 % |
アプリケーションと顧客データを保存するには、ボリュームのストレージ容量が必要です。スナップショット予約領域と呼ばれるその領域の一部は、データをローカルで保護できるようにするスナップショットを保存するために使用されます。 ONTAPボリュームに保存される新規データや更新データが増えるほど、使用されるスナップショット容量が増え、将来の新規データや更新データに使用できるスナップショット ストレージ容量は少なくなります。ボリューム内のスナップショット データ容量が合計スナップショット予約領域に達すると、顧客が新しいスナップショット データを保存できなくなり、ボリューム内の LUN のデータの保護レベルが低下する可能性があります。ボリュームの使用済みスナップショット容量を監視することで、データ サービスの継続性が確保されます。 |
即時のアクション 重要なしきい値を超えた場合は、サービスの中断を最小限に抑えるために、即時のアクションを検討してください。1.スナップショット予約がいっぱいになったときにボリューム内のデータ領域を使用するようにスナップショットを構成します。2.古くて不要なスナップショットをいくつか削除して、スペースを解放します。 すぐに行うべきアクション 警告しきい値を超えた場合は、次の即時アクションを実行するように計画してください。1.成長に対応するために、ボリューム内のスナップショット予約領域を増やします。2.スナップショット予約がいっぱいになったときにボリューム内のデータ領域を使用するようにスナップショットを構成します。 |
SnapMirror関係の遅延 |
警告 @ > 150%…重大 @ > 300% |
SnapMirror関係の遅延は、スナップショットのタイムスタンプと宛先システムの時間の差です。 lag_time_percent は、 SnapMirrorポリシーのスケジュール間隔に対する遅延時間の比率です。遅延時間がスケジュール間隔と等しい場合、lag_time_percent は 100% になります。 SnapMirrorポリシーにスケジュールがない場合、lag_time_percent は計算されません。 |
「snapmirror show」コマンドを使用してSnapMirror のステータスを監視します。 「snapmirror show-history」コマンドを使用してSnapMirrorの転送履歴を確認します。 |
クラウドボリューム(CVO)モニター
モニター名 |
CIの重症度 |
モニターの説明 |
対処方法 |
CVO ディスクがサービス停止中 |
情報 |
このイベントは、ディスクが障害としてマークされた、サニタイズされている、またはメンテナンス センターに入ったためにサービスから削除されたときに発生します。 |
なし |
ストレージプールの CVO ギブバックに失敗しました |
重大 |
このイベントは、ストレージ フェイルオーバー (SFO) ギブバックの一環としてアグリゲートを移行しているときに、宛先ノードがオブジェクト ストアに到達できない場合に発生します。 |
次の修正アクションを実行します。「network interface show」コマンドを使用して、クラスタ間 LIF がオンラインで機能していることを確認します。宛先ノードのクラスタ間 LIF 経由で「ping」コマンドを使用して、オブジェクト ストア サーバーへのネットワーク接続を確認します。 「aggregate object-store config show」コマンドを使用して、オブジェクト ストアの構成が変更されておらず、ログインおよび接続情報がまだ正確であることを確認します。あるいは、giveback コマンドの「require-partner-waiting」パラメータに false を指定してエラーを無効にすることもできます。詳細情報やサポートについては、 NetAppテクニカル サポートにお問い合わせください。 |
CVO HA相互接続ダウン |
警告 |
高可用性 (HA) 相互接続がダウンしています。フェイルオーバーが利用できない場合、サービス停止のリスクがあります。 |
修正アクションは、プラットフォームでサポートされている HA 相互接続リンクの数とタイプ、および相互接続がダウンしている理由によって異なります。リンクがダウンしている場合: HA ペアの両方のコントローラが動作していることを確認します。外部接続リンクの場合は、相互接続ケーブルが正しく接続されていること、および該当する場合は Small Form-Factor Pluggable (SFP) が両方のコントローラに正しく装着されていることを確認します。内部的に接続されたリンクの場合は、「ic link off」コマンドと「ic link on」コマンドを使用して、リンクを順番に無効にしてから再度有効にします。リンクが無効になっている場合は、「ic link on」コマンドを使用してリンクを有効にします。ピアが接続されていない場合は、「ic link off」コマンドと「ic link on」コマンドを使用して、リンクを順番に無効にしてから再度有効にします。問題が解決しない場合は、 NetAppテクニカル サポートにお問い合わせください。 |
ユーザーあたりの CVO 最大セッション数を超えました |
警告 |
TCP 接続でユーザーごとに許可されるセッションの最大数を超えました。いくつかのセッションが解放されるまで、セッションを確立する要求はすべて拒否されます。 |
次の修正アクションを実行します。クライアントで実行されるすべてのアプリケーションを検査し、正常に動作していないアプリケーションを終了します。クライアントをリブートします。問題の原因が新しいアプリケーションか既存のアプリケーションかを確認します。アプリケーションが新しい場合は、「cifs option modify -max-opens-same-file-per-tree」コマンドを使用して、クライアントのしきい値を高く設定します。場合によっては、クライアントは期待どおりに動作しますが、より高いしきい値が必要になります。クライアントに対してより高いしきい値を設定するには、高度な権限が必要です。問題が既存のアプリケーションによって発生している場合は、クライアントに問題がある可能性があります。詳細情報やサポートについては、 NetAppテクニカル サポートにお問い合わせください。 |
CVO NetBIOS 名が競合 |
重大 |
NetBIOS ネーム サービスは、リモート マシンからの名前登録要求に対する否定応答を受信しました。これは通常、NetBIOS 名またはエイリアスの競合によって発生します。その結果、クライアントはデータにアクセスできないか、クラスター内の適切なデータ提供ノードに接続できない可能性があります。 |
次のいずれかの修正アクションを実行します。NetBIOS 名またはエイリアスに競合がある場合は、次のいずれかを実行します。「vserver cifs delete -aliases alias -vserver vserver」コマンドを使用して、重複した NetBIOS エイリアスを削除します。重複した名前を削除し、「vserver cifs create -aliases alias -vserver vserver」コマンドを使用して新しい名前のエイリアスを追加することで、NetBIOS エイリアスの名前を変更します。エイリアスが設定されておらず、NetBIOS 名が競合している場合は、「vserver cifs delete -vserver vserver」および「vserver cifs create -cifs-server netbiosname」コマンドを使用して CIFS サーバの名前を変更します。注意: CIFS サーバーを削除すると、データにアクセスできなくなる可能性があります。 NetBIOS 名を削除するか、リモート マシン上の NetBIOS の名前を変更します。 |
CVO NFSv4 ストア プールが枯渇しました |
重大 |
NFSv4 ストア プールが使い果たされました。 |
このイベント後、NFS サーバーが 10 分以上応答しない場合は、 NetAppテクニカル サポートにお問い合わせください。 |
CVOノードパニック |
警告 |
このイベントはパニックが発生したときに発行されます |
NetAppカスタマー サポートにお問い合わせください。 |
CVOノードルートボリュームスペース不足 |
重大 |
システムはルート ボリュームの空き容量が危険なほど少ないことを検出しました。ノードは完全には動作していません。データ LIF がクラスター内でフェイルオーバーした可能性があります。そのため、ノード上の NFS および CIFS アクセスが制限されています。管理機能は、ルート ボリューム上のスペースをクリアするためのノードのローカル回復手順に制限されます。 |
次の修正アクションを実行します。古いスナップショット コピーを削除するか、/mroot ディレクトリから不要になったファイルを削除するか、ルート ボリュームの容量を拡張して、ルート ボリュームのスペースを解放します。コントローラーを再起動します。詳細情報やサポートについては、 NetAppテクニカル サポートにお問い合わせください。 |
CVO 存在しない管理者共有 |
重大 |
Vscan の問題: クライアントが存在しない ONTAP_ADMIN$ 共有に接続しようとしました。 |
指定された SVM ID に対して Vscan が有効になっていることを確認します。 SVM で Vscan を有効にすると、SVM に対して ONTAP_ADMIN$ 共有が自動的に作成されます。 |
CVO オブジェクト ストア ホストが解決できません |
重大 |
オブジェクト ストア サーバーのホスト名を IP アドレスに解決できません。オブジェクト ストア クライアントは、IP アドレスを解決しないとオブジェクト ストア サーバーと通信できません。その結果、データにアクセスできなくなる可能性があります。 |
DNS 構成をチェックして、ホスト名が IP アドレスで正しく設定されていることを確認します。 |
CVO オブジェクト ストア インタークラスタ LIF ダウン |
重大 |
オブジェクト ストア クライアントは、オブジェクト ストア サーバーと通信するための動作可能な LIF を見つけることができません。インタークラスタ LIF が動作可能になるまで、ノードはオブジェクト ストア クライアント トラフィックを許可しません。その結果、データにアクセスできなくなる可能性があります。 |
次の修正アクションを実行します。「network interface show -role intercluster」コマンドを使用して、クラスタ間 LIF のステータスを確認します。クラスタ間 LIF が正しく設定され、動作していることを確認します。クラスタ間 LIF が設定されていない場合は、「network interface create -role intercluster」コマンドを使用して追加します。 |
CVO オブジェクト ストア署名の不一致 |
重大 |
オブジェクト ストア サーバーに送信された要求署名が、クライアントによって計算された署名と一致しません。その結果、データにアクセスできなくなる可能性があります。 |
シークレット アクセス キーが正しく設定されていることを確認します。正しく設定されている場合は、 NetAppテクニカル サポートにお問い合わせください。 |
CVO QoS モニターのメモリが上限に達しました |
重大 |
QoS サブシステムの動的メモリが、現在のプラットフォーム ハードウェアの限界に達しました。一部の QoS 機能は制限された容量で動作する場合があります。 |
アクティブなワークロードまたはストリームをいくつか削除して、メモリを解放します。 「statistics show -object workload -counter ops」コマンドを使用して、どのワークロードがアクティブであるかを確認します。アクティブなワークロードにはゼロ以外の操作が表示されます。次に、「workload delete <workload_name>」コマンドを複数回使用して、特定のワークロードを削除します。または、「stream delete -workload <workload name> *」コマンドを使用して、アクティブなワークロードから関連付けられているストリームを削除します。 |
CVO READDIR タイムアウト |
重大 |
READDIR ファイル操作が、 WAFLで実行できるタイムアウトを超えました。これは、ディレクトリが非常に大きいか、またはディレクトリがまばらであるために発生する可能性があります。是正措置をお勧めします。 |
次の修正アクションを実行します。次の「diag」権限ノードシェル CLI コマンドを使用して、READDIR ファイル操作の有効期限が切れた最近のディレクトリに固有の情報を検索します: wafl readdir notification show。ディレクトリがスパースとして示されているかどうかを確認します。ディレクトリがスパースとして示されている場合は、ディレクトリの内容を新しいディレクトリにコピーして、ディレクトリ ファイルのスパース性を解除することをお勧めします。ディレクトリがスパースとして示されておらず、ディレクトリが大きい場合は、ディレクトリ内のファイル エントリの数を減らして、ディレクトリ ファイルのサイズを小さくすることをお勧めします。 |
CVO ストレージ プールの再配置に失敗しました |
重大 |
このイベントは、集約の再配置中に、宛先ノードがオブジェクト ストアに到達できない場合に発生します。 |
次の修正アクションを実行します。「network interface show」コマンドを使用して、クラスタ間 LIF がオンラインで機能していることを確認します。宛先ノードのクラスタ間 LIF 経由で「ping」コマンドを使用して、オブジェクト ストア サーバーへのネットワーク接続を確認します。 「aggregate object-store config show」コマンドを使用して、オブジェクト ストアの構成が変更されておらず、ログインおよび接続情報がまだ正確であることを確認します。あるいは、再配置コマンドの「override-destination-checks」パラメータを使用してエラーを無効にすることもできます。詳細情報やサポートについては、 NetAppテクニカル サポートにお問い合わせください。 |
CVO シャドウコピーに失敗しました |
重大 |
Microsoft Server のバックアップおよび復元サービス操作であるボリューム シャドウ コピー サービス (VSS) が失敗しました。 |
イベント メッセージに提供される情報を使用して、次の点を確認します。シャドウ コピー構成は有効になっていますか? 適切なライセンスがインストールされていますか? シャドウ コピー操作はどの共有で実行されますか? 共有名は正しいですか? 共有パスは存在しますか? シャドウ コピー セットとそのシャドウ コピーの状態はどうなっていますか? |
CVO ストレージ VM の停止に成功しました |
情報 |
このメッセージは、「vserver stop」操作が成功したときに表示されます。 |
'vserver start' コマンドを使用して、ストレージ VM 上のデータ アクセスを開始します。 |
CVO CIFS 認証が多すぎる |
警告 |
多くの認証ネゴシエーションが同時に発生しました。このクライアントからの不完全な新規セッション要求が 256 件あります。 |
クライアントが 256 個以上の新しい接続要求を作成した理由を調査します。エラーが発生した原因を特定するには、クライアントまたはアプリケーションのベンダーに問い合わせる必要がある場合があります。 |
CVO 未割り当てディスク |
情報 |
システムには未割り当てのディスクがあり、容量が無駄になっており、システムに誤った構成や部分的な構成変更が適用されている可能性があります。 |
次の修正アクションを実行します。「disk show -n」コマンドを使用して、割り当てられていないディスクを特定します。 「disk assign」コマンドを使用してディスクをシステムに割り当てます。 |
CVO 管理者共有への不正ユーザーアクセス |
警告 |
ログインしているユーザーが許可されたユーザーではないにもかかわらず、クライアントは特権のある ONTAP_ADMIN$ 共有に接続しようとしました。 |
次の修正アクションを実行します。指定されたユーザー名と IP アドレスがアクティブな Vscan スキャナー プールの 1 つに設定されていることを確認します。 「vserver vscan scanner pool show-active」コマンドを使用して、現在アクティブなスキャナ プールの構成を確認します。 |
CVOウイルスが検出されました |
警告 |
Vscan サーバーがストレージ システムにエラーを報告しました。これは通常、ウイルスが見つかったことを示します。ただし、Vscan サーバー上の他のエラーによってこのイベントが発生する場合があります。ファイルへのクライアント アクセスが拒否されました。 Vscan サーバーは、設定と構成に応じて、ファイルを消去したり、隔離したり、削除したりする場合があります。 |
「syslog」イベントで報告された Vscan サーバーのログをチェックして、感染したファイルを正常にクリーンアップ、隔離、または削除できたかどうかを確認します。それができなかった場合、システム管理者が手動でファイルを削除しなければならない可能性があります。 |
CVOボリュームオフライン |
情報 |
このメッセージは、ボリュームがオフラインになっていることを示します。 |
ボリュームをオンラインに戻します。 |
CVO ボリューム制限 |
情報 |
このイベントは、フレキシブル ボリュームが制限されたことを示します。 |
ボリュームをオンラインに戻します。 |
SnapMirror for Business Continuity (SMBC) メディエーター ログ モニター
モニター名 |
重大度 |
モニターの説明 |
対処方法 |
ONTAPメディエーターが追加されました |
情報 |
このメッセージは、 ONTAP Mediator がクラスタに正常に追加されたときに表示されます。 |
なし |
ONTAPメディエーターにアクセスできません |
重大 |
このメッセージは、 ONTAP Mediator が再利用されたか、Mediator パッケージが Mediator サーバーにインストールされなくなった場合に表示されます。その結果、 SnapMirrorフェイルオーバーは不可能になります。 |
「snapmirror mediator remove」コマンドを使用して、現在のONTAP Mediator の設定を削除します。 「snapmirror mediator add」コマンドを使用して、 ONTAP Mediator へのアクセスを再設定します。 |
ONTAPメディエーターが削除されました |
情報 |
このメッセージは、 ONTAP Mediator がクラスタから正常に削除されたときに表示されます。 |
なし |
ONTAPメディエーターにアクセスできません |
警告 |
このメッセージは、クラスタ上でONTAP Mediator にアクセスできない場合に表示されます。その結果、 SnapMirrorフェイルオーバーは不可能になります。 |
「network ping」および「network traceroute」コマンドを使用して、 ONTAP Mediator へのネットワーク接続を確認します。問題が解決しない場合は、「snapmirror mediator remove」コマンドを使用して、現在のONTAP Mediator の設定を削除します。 「snapmirror mediator add」コマンドを使用して、 ONTAP Mediator へのアクセスを再設定します。 |
SMBC CA証明書の有効期限が切れました |
重大 |
このメッセージは、 ONTAP Mediator 証明機関 (CA) 証明書の有効期限が切れたときに表示されます。その結果、 ONTAP Mediator への以降の通信はすべてできなくなります。 |
「snapmirror mediator remove」コマンドを使用して、現在のONTAP Mediator の設定を削除します。 ONTAP Mediator サーバー上の新しい CA 証明書を更新します。 「snapmirror mediator add」コマンドを使用して、 ONTAP Mediator へのアクセスを再設定します。 |
SMBC CA証明書の有効期限切れ |
警告 |
このメッセージは、 ONTAP Mediator の証明機関 (CA) 証明書の有効期限が 30 日以内に切れる場合に表示されます。 |
この証明書の有効期限が切れる前に、「snapmirror mediator remove」コマンドを使用して、現在のONTAP Mediator の設定を削除します。 ONTAP Mediator サーバー上の新しい CA 証明書を更新します。 「snapmirror mediator add」コマンドを使用して、 ONTAP Mediator へのアクセスを再設定します。 |
SMBCクライアント証明書の有効期限が切れました |
重大 |
このメッセージは、 ONTAP Mediator クライアント証明書の有効期限が切れたときに表示されます。その結果、 ONTAP Mediator への以降の通信はすべてできなくなります。 |
「snapmirror mediator remove」コマンドを使用して、現在のONTAP Mediator の設定を削除します。 「snapmirror mediator add」コマンドを使用して、 ONTAP Mediator へのアクセスを再設定します。 |
SMBCクライアント証明書の有効期限切れ |
警告 |
このメッセージは、 ONTAP Mediator クライアント証明書の有効期限が 30 日以内に切れる場合に表示されます。 |
この証明書の有効期限が切れる前に、「snapmirror mediator remove」コマンドを使用して、現在のONTAP Mediator の設定を削除します。 「snapmirror mediator add」コマンドを使用して、 ONTAP Mediator へのアクセスを再設定します。 |
SMBC関係の同期が取れていない注:UMにはこれがありません |
重大 |
このメッセージは、 SnapMirror for Business Continuity (SMBC) 関係のステータスが「同期中」から「非同期」に変更されたときに表示されます。このため、RPO=0 のデータ保護は中断されます。 |
ソースボリュームと宛先ボリューム間のネットワーク接続を確認します。宛先では「snapmirror show」コマンドを使用し、ソースでは「snapmirror list-destinations」コマンドを使用して、SMBC 関係のステータスを監視します。自動再同期は、関係を「同期中」の状態に戻そうとします。再同期が失敗した場合は、クラスター内のすべてのノードがクォーラム状態にあり、正常であることを確認します。 |
SMBC サーバー証明書の有効期限が切れました |
重大 |
このメッセージは、 ONTAP Mediator サーバ証明書の有効期限が切れたときに表示されます。その結果、 ONTAP Mediator への以降の通信はすべてできなくなります。 |
「snapmirror mediator remove」コマンドを使用して、現在のONTAP Mediator の設定を削除します。 ONTAP Mediator サーバー上の新しいサーバー証明書を更新します。 「snapmirror mediator add」コマンドを使用して、 ONTAP Mediator へのアクセスを再設定します。 |
SMBCサーバー証明書の有効期限切れ |
警告 |
このメッセージは、 ONTAP Mediator サーバ証明書の有効期限が 30 日以内に切れる場合に表示されます。 |
この証明書の有効期限が切れる前に、「snapmirror mediator remove」コマンドを使用して、現在のONTAP Mediator の設定を削除します。 ONTAP Mediator サーバー上の新しいサーバー証明書を更新します。 「snapmirror mediator add」コマンドを使用して、 ONTAP Mediator へのアクセスを再設定します。 |
追加の電源、ハートビート、およびその他のシステムモニター
モニター名 | 重大度 | モニターの説明 | 対処方法 |
---|---|---|---|
ディスクシェルフ電源装置を検出しました |
情報 |
このメッセージは、ディスク シェルフに電源ユニットが追加されたときに発生します。 |
NONE |
ディスクシェルフ電源を取り外しました |
情報 |
このメッセージは、電源ユニットがディスク シェルフから取り外されたときに表示されます。 |
NONE |
MetroCluster の自動計画外スイッチオーバーが無効 |
重大 |
このメッセージは、計画外の自動切り替え機能が無効になっている場合に表示されます。 |
自動スイッチオーバーを有効にするには、クラスター内の各ノードに対して「metrocluster modify -node-name <nodename> -automatic-switchover-onfailure true」コマンドを実行します。 |
MetroClusterストレージ ブリッジに到達できません |
重大 |
ストレージブリッジは管理ネットワーク経由でアクセスできません |
1) ブリッジが SNMP によって監視されている場合は、「network interface show」コマンドを使用して、ノード管理 LIF が起動していることを確認します。 「network ping」コマンドを使用して、ブリッジが動作していることを確認します。 2) ブリッジがインバンドで監視されている場合は、ブリッジへのファブリック ケーブルを確認し、ブリッジの電源がオンになっていることを確認します。 |
MetroClusterブリッジ温度異常 - 危険未満 |
重大 |
ファイバー チャネル ブリッジのセンサーは、重大なしきい値を下回る温度を報告しています。 |
1) ストレージブリッジ上のファンの動作状態を確認します。 2) ブリッジが推奨温度条件下で動作していることを確認します。 |
MetroClusterブリッジ温度異常 - 危険域以上 |
重大 |
ファイバー チャネル ブリッジのセンサーが、重大なしきい値を超える温度を報告しています。 |
1) コマンド「storage bridge show -cooling」を使用して、ストレージ ブリッジ上のシャーシ温度センサーの動作状態を確認します。 2) ストレージ ブリッジが推奨温度条件下で動作していることを確認します。 |
MetroCluster で残ったアグリゲートあり |
警告 |
骨材はスイッチバック中に取り残されました。 |
1) コマンド「aggr show」を使用してアグリゲートの状態を確認します。 2) アグリゲートがオンラインの場合は、「metrocluster switchback」コマンドを使用して、アグリゲートを元の所有者に戻します。 |
メトロクラスターパートナー間のすべてのリンクがダウン |
重大 |
RDMA 相互接続アダプタおよびクラスタ間 LIF とピア クラスタとの接続が切断されているか、ピア クラスタがダウンしています。 |
1) クラスタ間 LIF が稼働していることを確認します。クラスタ間 LIF がダウンしている場合は修復します。 2) 「cluster peer ping」コマンドを使用して、ピア クラスターが起動して実行されていることを確認します。ピア クラスタがダウンしている場合は、『 MetroClusterディザスタ リカバリ ガイド』を参照してください。 3) ファブリックMetroClusterの場合、バックエンド ファブリック ISL が稼働していることを確認します。バックエンド ファブリック ISL がダウンしている場合は修復します。 4) 非ファブリックMetroCluster構成の場合、RDMA 相互接続アダプタ間のケーブル接続が正しいことを確認します。リンクがダウンしている場合は、ケーブルを再構成してください。 |
MetroClusterパートナーがピアリング ネットワーク経由でアクセスできない |
重大 |
ピア クラスターへの接続が切断されました。 |
1) ポートが正しいネットワーク/スイッチに接続されていることを確認します。 2) クラスタ間 LIF がピア クラスタに接続されていることを確認します。 3) コマンド「cluster peer ping」を使用して、ピア クラスターが起動して実行されていることを確認します。ピア クラスタがダウンしている場合は、『 MetroClusterディザスタ リカバリ ガイド』を参照してください。 |
MetroClusterスイッチ間全リンクダウン |
重大 |
ストレージ スイッチ上のすべてのスイッチ間リンク (ISL) がダウンしています。 |
1) ストレージ スイッチ上のバックエンド ファブリック ISL を修復します。 2) パートナー スイッチが起動しており、その ISL が動作していることを確認します。 3) xWDM デバイスなどの中間機器が動作していることを確認します。 |
MetroClusterノードからストレージスタックへのSASリンクがダウンしています |
警告 |
SAS アダプタまたはそれに接続されたケーブルに障害がある可能性があります。 |
1.SAS アダプターがオンラインで実行されていることを確認します。2.物理的なケーブル接続が安全で動作していることを確認し、必要に応じてケーブルを交換します。3. SAS アダプタがディスク シェルフに接続されている場合は、IOM とディスクが正しく取り付けられていることを確認します。 |
MetroClusterFCイニシエータリンクダウン |
重大 |
FC イニシエーター アダプターに障害があります。 |
1.FC イニシエーター リンクが改ざんされていないことを確認します。2. 「system node run -node local -command storage show adapter」コマンドを使用して、FC イニシエーター アダプターの動作ステータスを確認します。 |
FC-VIインターコネクトリンクダウン |
重大 |
FC-VI ポート上の物理リンクがオフラインです。 |
1.FC-VI リンクが改ざんされていないことを確認します。2. 「metrocluster interconnect adapter show」コマンドを使用して、FC-VI アダプタの物理ステータスが「Up」であることを確認します。3.構成にファブリック スイッチが含まれている場合は、それらが正しくケーブル接続され、構成されていることを確認します。 |
MetroCluster で残ったスペア ディスクあり |
警告 |
スイッチバック中にスペア ディスクが残されました。 |
ディスクに障害が発生していない場合は、「metrocluster switchback」コマンドを使用して、ディスクを元の所有者に戻します。 |
MetroClusterストレージ ブリッジ ポートがダウンしています |
重大 |
ストレージ ブリッジのポートがオフラインです。 |
1) コマンド「storage bridge show -ports」を使用して、ストレージ ブリッジ上のポートの動作状態を確認します。 2) ポートへの論理的および物理的な接続を確認します。 |
MetroClusterストレージ スイッチ ファンの故障 |
重大 |
ストレージ スイッチのファンが故障しました。 |
1) コマンド「storage switch show -cooling」を使用して、スイッチ内のファンが正しく動作していることを確認します。 2) ファン FRU が正しく挿入され、動作していることを確認します。 |
MetroClusterストレージ スイッチにアクセスできません |
重大 |
ストレージ スイッチは管理ネットワーク経由ではアクセスできません。 |
1) コマンド「network interface show」を使用して、ノード管理 LIF が起動していることを確認します。 2) 「network ping」コマンドを使用して、スイッチが動作していることを確認します。 3) スイッチにログインした後、SNMP 設定をチェックして、スイッチが SNMP 経由で到達可能であることを確認します。 |
MetroClusterスイッチの電源装置に障害が発生しました |
重大 |
ストレージ スイッチの電源ユニットが動作していません。 |
1) コマンド「storage switch show -error -switch-name <スイッチ名>」を使用してエラーの詳細を確認します。 2) コマンド「storage switch show -power -switch-name <switch name>」を使用して、障害のある電源ユニットを特定します。 3) 電源ユニットがストレージ スイッチのシャーシに正しく挿入され、完全に動作していることを確認します。 |
MetroClusterスイッチの温度センサーが故障しました |
重大 |
ファイバー チャネル スイッチのセンサーに障害が発生しました。 |
1) コマンド「storage switch show -cooling」を使用して、ストレージ スイッチの温度センサーの動作状態を確認します。 2) スイッチが推奨温度条件下で動作していることを確認します。 |
MetroClusterスイッチの温度異常 |
重大 |
ファイバー チャネル スイッチの温度センサーが異常な温度を報告しました。 |
1) コマンド「storage switch show -cooling」を使用して、ストレージ スイッチの温度センサーの動作状態を確認します。 2) スイッチが推奨温度条件下で動作していることを確認します。 |
サービス プロセッサのハートビートが失われました |
情報 |
このメッセージは、 ONTAP がサービス プロセッサ (SP) から予期される「ハートビート」信号を受信しなかった場合に表示されます。このメッセージとともに、 SPからのログ ファイルがデバッグ用に送信されます。 ONTAP はSPをリセットして通信を復元しようとします。 SPは再起動中、最大 2 分間使用できなくなります。 |
NetAppテクニカル サポートにお問い合わせください。 |
サービス プロセッサのハートビートが停止しました |
警告 |
このメッセージは、 ONTAP がサービス プロセッサ (SP) からハートビートを受信しなくなったときに表示されます。ハードウェアの設計に応じて、システムはデータの提供を継続するか、データの損失やハードウェアの損傷を防ぐためにシャットダウンすることを決定する場合があります。システムは引き続きデータを提供しますが、 SPが動作していない可能性があるため、ダウンしたアプライアンス、ブート エラー、または Open Firmware (OFW) 電源投入時セルフテスト (POST) エラーに関する通知を送信できません。システムがそのように構成されている場合、 AutoSupport (または「コール ホーム」) メッセージが生成され、 NetAppテクニカル サポートと構成された送信先に送信されます。 AutoSupportメッセージが正常に配信されると、問題の特定と解決が大幅に改善されます。 |
システムがシャットダウンした場合は、ハードパワーサイクルを試してください。コントローラをシャーシから引き出し、押し戻して、システムの電源を入れます。電源を入れ直しても問題が解決しない場合、または他に注意が必要な状況がある場合は、 NetAppテクニカル サポートにお問い合わせください。 |