StorageGRID Webscaleシステムの事前に設定されているすべてのアラームを以下の表に示します。応答はアラームの重大度に基づいて割り当てられるため、アラームの設定をシステムの管理方法に合わせてカスタマイズしている場合は異なることがあります。
コード | 名前 | サービス | 推奨される対処方法 |
---|---|---|---|
ABRL | Available Attribute Relays | BADC、BAMS、BARC、BCLB、BCMN、BCMS、BLDR、BNMS、BSSM、BDDS | Attribute Relay Serviceを実行しているサービス(ADCサービス)への接続をできるだけ速やかにリストアします。属性リレーが接続されていないと、グリッド ノードからNMSサービスに属性の値をレポートできません。そのため、NMSサービスでサービスのステータスの監視やサービスの属性の更新を行えなくなります。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
ACMS | Available Metadata Services | BARC、BLDR、BCMN | LDRサービスまたはARCサービスからのDDSサービスへの接続が失われた場合にアラームがトリガーされます。この場合、取り込みや読み出しのトランザクションを処理できません。DDSサービスを利用できない状態が長くは続かず、一時的な問題である場合は、トランザクションが遅れて処理されることがあります。 このアラームを解除し、サービスのすべての機能を復旧するには、DDSサービスへの接続を確認してリストアします。 |
ACTS | Cloud Tiering Service Status | ARC | ターゲット タイプが「Cloud Tiering - Simple Storage Service (S3)」のアーカイブ ノードにのみ適用されます。 アーカイブ ノードのACTS属性が「Read-Only Enabled」または「Read-Write Disabled」に設定されている場合、「Read-Write Enabled」に設定する必要があります。 認証エラーによってMajorアラームがトリガーされた場合は、デスティネーション バケットに関連付けられているクレデンシャルを確認し、必要に応じて値を更新します。 それ以外の理由でMajorアラームがトリガーされた場合は、テクニカル サポートに連絡してください。 |
ADCA | ADC Status | ADC | アラームがトリガーされた場合は、 および を確認してアラームの原因を特定します。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
ADCE | ADC State | ADC | 「ADC State」の値が「Standby」の場合は、しばらくサービスを監視し、問題が解決しなければテクニカル サポートに連絡します。 「ADC State」の値が「Offline」の場合は、サービスを再起動します。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
AITE | Retrieve State | BARC | ターゲット タイプが「Tivoli Storage Manager (TSM)」のアーカイブ ノードにのみ適用されます。 「Retrieve State」の値が「Waiting for Target」の場合は、TSMミドルウェア サーバを調べ、正常に動作していることを確認します。アーカイブ ノードをStorageGRID Webscaleシステムに追加したばかりの場合は、アーカイブ ノードから対象の外部アーカイブ ストレージ システムへの接続が正しく設定されていることを確認します。 「Archive Retrieve State」の値が「Offline」の場合は、状態を「Online」に更新できるか試します。[Apply Changes]をクリックします。 に移動し、 を選択して、問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
AITU | Retrieve Status | BARC | 「Retrieve Status」の値が「Target Error」の場合は、対象の外部アーカイブ ストレージ システムにエラーがないかを確認します。 「Archive Retrieve Status」の値が「Session Lost」の場合は、対象の外部アーカイブ ストレージ システムがオンラインで正常に動作していることを確認します。ターゲットとのネットワーク接続を確認します。 「Archive Retrieve Status」の値が「Unknown Error」の場合は、テクニカル サポートに連絡してください。 |
ALIS | Inbound Attribute Sessions | ADC | 属性リレーのインバウンド属性セッション数が大幅に増加している場合、StorageGRID Webscaleシステムのバランスが悪くなっている可能性があります。通常の状態であれば、属性セッションはADCサービスに均等に分散されます。バランスが悪い状態が続くと、パフォーマンスの問題につながる可能性があります。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
ALOS | Outbound Attribute Sessions | ADC | ADCサービスの属性セッションが多く、過負荷状態になっています。このアラームがトリガーされた場合は、テクニカル サポートに連絡してください。 |
ALUR | Unreachable Attribute Repositories | ADC | NMSサービスとのネットワーク接続を調べ、属性リポジトリに接続できることを確認します。 このアラームがトリガーされ、ネットワーク接続に問題がない場合は、テクニカル サポートに連絡してください。 |
AMQS | Audit Messages Queued | BADC、BAMS、BARC、BCLB、BCMN、BCMS、BLDR、BNMS、BDDS | 監査メッセージは、監査リレーまたは監査リポジトリにすぐに転送できない場合、ディスクのキューに格納されます。負荷が高い状態のときは、このキューに100,000件を超えるメッセージが格納されることがあります。このような場合は、キューを監視して、メッセージの転送が機能しているかどうかを確認します。 このアラームがトリガーされた場合は、システムに対する負荷を確認します。多数のトランザクションが処理されていれば正常な状態と考えられ、時間が経つと自然に解消されます。この場合、アラームは自動的に解除されるため無視してかまいません。 アラームが解除されない場合は、キュー サイズのグラフを確認します。減少することなく増え続けている場合は、テクニカル サポートに連絡してください。 まれに、ディスクのキューが大きくなりすぎて、AMSサービスの起動時にスレッドのデッドロックが発生することがあります。スレッドのデッドロックが発生した場合は、テクニカル サポートに連絡してください。 |
AOTE | Store State | BARC | ターゲット タイプが「Tivoli Storage Manager (TSM)」のアーカイブ ノードにのみ適用されます。 「Store State」の値が「Waiting for Target」の場合は、外部アーカイブ ストレージ システムを調べ、正常に動作していることを確認します。アーカイブ ノードをStorageGRID Webscaleシステムに追加したばかりの場合は、アーカイブ ノードから対象の外部アーカイブ ストレージ システムへの接続が正しく設定されていることを確認します。 「Store State」の値が「Offline」の場合は、「Store Status」の値を確認します。問題がある場合は解決してから、「Store State」を「Online」に戻します。 |
AOTU | Store Status | BARC | 「Store Status」の値が「Session Lost」の場合は、外部アーカイブ ストレージ システムが接続されてオンラインになっていることを確認します。 値が「Target Error」の場合は、外部アーカイブ ストレージ システムにエラーがないかを確認します。 「Store Status」の値が「Unknown Error」の場合は、テクニカル サポートに連絡してください。 |
APMS | Multipath State | SSM |
|
ページでマルチパス状態アラームが「Simplex」と表示されている場合は、次の手順を実行します。
ARCE | ARC State | ARC | ARCサービスの状態は、ARCのすべてのコンポーネント(Replication、Store、Retrieve、Target)が起動されるまでは「Standby」となり、そのあとに「Online」に切り替わります。 「ARC State」の値が「Standby」から「Online」に切り替わらない場合は、ARCのコンポーネントのステータスを確認します。 「ARC State」の値が「Offline」の場合は、サービスを再起動します。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
AROQ | Objects Queued | ARC | このアラームは、対象の外部アーカイブ ストレージ システムの問題が原因でリムーバブル ストレージ デバイスが低速になっている場合や、複数の読み取りエラーが発生している場合にトリガーされることがあります。外部アーカイブ ストレージ システムにエラーがないか調べ、正常に動作していることを確認します。 このエラーは、データの要求速度に処理が追いつかない場合にも発生することがあります。この場合は、システム アクティビティが少なくなると、キューに登録されたオブジェクトの数も減っていきます。 |
ARRF | Request Failures | ARC | 対象の外部アーカイブ ストレージ システムからの読み出しに失敗した場合、一時的な問題が原因である可能性もあるため、アーカイブ ノードで読み出しが再試行されます。ただし、オブジェクト データが破損していたり、完全に使用できないものとしてマークされている場合、読み出しは失敗として処理されません。この場合、アーカイブ ノードで読み出しの再試行が繰り返され、「Request Failures」の値が増え続けることになります。 このアラームは、要求されたデータの格納先のストレージ メディアが破損していることを示している可能性があります。外部アーカイブ ストレージ システムを調べて問題を詳しく診断します。 オブジェクト データがアーカイブにないことが判明した場合は、オブジェクトをStorageGRID Webscaleシステムから削除する必要があります。詳細については、テクニカル サポートにお問い合わせください。 このアラームをトリガーした問題が解消されたら、障害数をリセットします。[Reset Request Failure Count]を選択して、[Apply Changes]をクリックします。 に移動し、 |
ARRS | Repository Status | NMS | NMSサービスによるStorageGRID Webscaleシステムからの属性情報の収集が予期せずに停止しています。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
ARRV | Verification Failures | ARC | この問題の診断と修正については、テクニカル サポートにお問い合わせください。 このアラームをトリガーした問題が解消されたら、障害数をリセットします。[Reset Verification Failure Count]を選択して、[Apply Changes]をクリックします。 に移動し、 |
ARVF | Store Failures | ARC | このアラームは、対象の外部アーカイブ ストレージ システムのエラーが原因で発生することがあります。外部アーカイブ ストレージ システムにエラーがないか調べ、正常に動作していることを確認します。 このアラームをトリガーした問題が解消されたら、障害数をリセットします。[Reset Store Failure Count]を選択して、[Apply Changes]をクリックします。 に移動し、 |
ASXP | Audit Shares | AMS | 「Audit Shares」の値が「Unknown」の場合にアラームがトリガーされます。このアラームは、管理ノードのインストールまたは設定に問題があることを示している可能性があります。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
AUMA | AMS Status | AMS | 「AMS Status」の値が「DB Connectivity Error」の場合は、グリッド ノードを再起動します。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
AUME | AMS State | AMS | 「AMS State」の値が「Standby」の場合は、しばらくStorageGRID Webscaleシステムを監視し、問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 「AMS State」の値が「Offline」の場合は、サービスを再起動します。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
AUXS | Audit Export Status | AMS | アラームがトリガーされた場合は、原因となっている問題を修正し、AMSサービスを再起動します。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
BASF | Available Object Identifiers | CMN | StorageGRID Webscaleシステムのプロビジョニング時、CMNサービスに決まった数のオブジェクトIDが割り当てられます。このアラームは、StorageGRID WebscaleシステムでオブジェクトIDが不足し始めるとトリガーされます。 IDの割り当てを増やすには、テクニカル サポートに連絡してください。 |
BASS | Identifier Block Allocation Status | CMN | デフォルトでは、ADCのクォーラムに達しないためにオブジェクトIDを割り当てることができない場合にアラームがトリガーされます。 CMNサービスでのIDブロックの割り当てには、オンラインで接続されているADCサービスがクォーラム(過半数)に達している必要があります。クォーラムに満たない場合、ADCのクォーラムが再確立されるまでCMNサービスは新しいIDブロックを割り当てることができません。ADCのクォーラムが失われても、グリッドのどこかに約1カ月分のIDがキャッシュされているため、通常はStorageGRID Webscaleシステムにすぐに影響が及ぶことはありません(クライアントによるコンテンツの取り込みや読み出しが引き続き可能です)。ただし、この状態が続くと、StorageGRID Webscaleシステムは新しいコンテンツを取り込めなくなります。 アラームがトリガーされた場合は、ADCのクォーラムが失われた原因(ネットワークやストレージ ノードの障害など)を調べて適切に対処します。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
BRDT | Module temperature | SSM | StorageGRID WebscaleアプライアンスのE5600SGコントローラの温度が公称のしきい値を超えるとアラームがトリガーされます。 StorageGRID Webscaleアプライアンスがストレージ ノードであれば、StorageGRID Webscaleのストレージ コントローラを調査する必要があります。 過熱の原因となっているハードウェア コンポーネントや環境の問題を確認します。必要に応じて、コンポーネントを交換します。 |
BTOF | Offset | BADC、BLDR、BNMS、BAMS、BCLB、BCMN、BARC、BCMS | サービスの時間(秒数)とオペレーティング システムの時間が大きく異なる場合にアラームがトリガーされます。通常の状態であれば、サービスは自動的に再同期されます。サービスの時間とオペレーティング システムの時間のずれが大きくなると、システムの運用に影響を及ぼすことがあります。StorageGRID Webscaleシステムの時間ソースが正しいことを確認します。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
BTSE | Clock State | BADC、BLDR、BNMS、BAMS、BCLB、BCMN、BARC、BCMS | サービスの時間がオペレーティング システムで追跡された時間と同期されていない場合にアラームがトリガーされます。通常の状態であれば、サービスは自動的に再同期されます。オペレーティング システムの時間とのずれが大きくなると、システムの運用に影響を及ぼすことがあります。StorageGRID Webscaleシステムの時間ソースが正しいことを確認します。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
CAHP | Java Heap Usage Percent | DDS | Javaのガベージ コレクションが追いつかず、システムの正常な動作に必要なヒープ スペースを確保できなくなった場合にアラームがトリガーされます。DDSのキー バリュー型データストアに対するユーザのワークロードがシステム全体で利用できるリソースを超えていることを示している可能性があります。ダッシュボードまたは で、ILMのアクティビティを確認します。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
CAIH | Number Available Ingest Destinations | CLB | このアラームは、使用可能なLDRサービスの根本的な問題が修正されると解除されます。LDRサービスのHTTPコンポーネントがオンラインで正常に実行されていることを確認します。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
CAQH | Number Available Q/R Destinations | CLB | このアラームは、使用可能なLDRサービスの根本的な問題が修正されると解除されます。LDRサービスのHTTPコンポーネントがオンラインで正常に実行されていることを確認します。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
CASA | Data Store Status | DDS | Cassandraのデータストアが使用できなくなるとアラームが生成されます。 Cassandraのステータスを確認します。
このアラームは、ストレージ ノードに対するDDSサービスの分散キー バリュー型データストア(Cassandraデータベース)のリビルドが必要なことを示している可能性もあります。詳細については、SVST(Services: Status - Cassandra)アラームのトラブルシューティングを参照してください。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
CDLP | Data Load (Percent) | DDS | このアラームは、オブジェクト ストア0でオブジェクト メタデータ用にリザーブされている空きスペース(Metadata Reserved Free Space [CAWM])が所定の容量になった場合に、ストレージ ノードに対してトリガーされます。 Cassandraデータベースは、コンパクションや修復などの不可欠な処理を実行するために一定量の空きストレージ スペースを必要とします。メタデータの負荷が増え続けるとこれらのCassandra処理が影響を受けます。 アラームがトリガーされた場合は、ストレージ ノードを追加してStorageGRID Webscaleシステムを拡張してください。ストレージが追加されると、すべてのストレージ ノード間でオブジェクト メタデータが自動的にリバランシングされ、アラームが解除されます。 |
CLBA | CLB Status | CLB | アラームがトリガーされた場合は、 および を確認してアラームの原因を特定し、問題のトラブルシューティングを行います。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
CLBE | CLB State | CLB | 「CLB State」の値が「Standby」の場合は、しばらく状況を監視し、問題が解決しなければテクニカル サポートに連絡します。 「Offline」の場合は、サーバ ハードウェアの既知の問題(サーバが接続されていないなど)や計画的停止がないことを確認し、サービスを再起動します。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
CMNA | CMN Status | CMN | 「CMN Status」の値が「Error」の場合は、 および に移動してエラーの原因を特定し、問題のトラブルシューティングを行います。プライマリ管理ノードのハードウェアの更新時にCMNの状態が切り替わると(「CMN State」の値が「Standby」から「Online」に変わると)、アラームがトリガーされ、「CMN Status」の値が「No Online CMN」になります。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
CMSS | CMS State | アラームがトリガーされた場合は、テクニカル サポートに連絡してください。 |
|
CMST | CMS Status | CMS | アラームがトリガーされた場合は、テクニカル サポートに連絡してください。 |
CPRC | Remaining Capacity | NMS | 残り容量(NMSデータベースに対して確立できる接続の数)が設定されたアラームの重大度を下回るとアラームがトリガーされます。 アラームがトリガーされた場合は、テクニカル サポートに連絡してください。 |
CPUT | CPU Temperature | SSM | StorageGRID WebscaleアプライアンスのE5600SGコントローラのCPU温度が公称のしきい値を超えるとアラームがトリガーされます。 StorageGRID Webscaleアプライアンスがストレージ ノードであれば、StorageGRID Webscaleシステムのストレージ コントローラを調査する必要があります。 過熱の原因となっているハードウェア コンポーネントや環境の問題を確認します。必要に応じて、コンポーネントを交換します。 |
CQST | Average Query Latency | LDR、DDS | このアラームは、サービスによる分散キー バリュー型データストアに対するクエリの平均実行時間がグリッド管理インターフェイスで設定された値を超えるとトリガーされます。 このアラームを解決するには、クエリのレイテンシが大きくなった時間帯のハードウェアやワークロードの変化を確認します。たとえば、複数のディスクに障害が発生したり、取り込みが急増したりした場合、それらのハードウェアの問題やワークロードの変化によってクエリのレイテンシが増大する可能性があります。 |
DNST | DNS Status | SSM | インストールが完了すると、SSMサービスでDNSTアラームがトリガーされます。DNSの設定が完了し、新しいサーバの情報がすべてのグリッド ノードに送られると、アラームはキャンセルされます。 |
ECCD | Corrupt Fragments Detected | LDR | バックグラウンド検証プロセスでイレイジャー コーディングされたフラグメントの破損が検出されるとアラームがトリガーされます。破損したフラグメントが検出された場合、フラグメントのリビルドが試行されます。 「Corrupt Fragments Detected」属性と「Copies Lost」属性を0にリセットし、それらのカウントが再び増えるかどうかを確認します。カウントが増える場合は、ストレージ ノードの基盤となるストレージに問題がある可能性があります。イレイジャー コーディングされたオブジェクト データのコピーは、損失または破損したフラグメントの数がイレイジャー コーディングのフォールト トレランスを超えないかぎり欠落とはみなされません。したがって、破損したフラグメントがあっても、オブジェクトの読み出しは引き続き可能な場合もあります。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
ECST | Verification Status | LDR | |
FOPN | Open File Descriptors | BADC、BAMS、BARC、BCLB、BCMN、BLDR、BNMS、BSSM、BDDS | アクティビティのピーク時は、FOPNが大きくなることがあります。アクティビティが少ない時間帯も低下しない場合は、テクニカル サポートに連絡してください。 |
HSTE | HTTP State | BLDR | HTTPプロトコルがオンラインの状態で、エラーなしで稼働していることが重要です。 LDRサービスおよび関連するStorageコンポーネントの状態を調べ、すべてがオンラインになっていることを確認します。 サービスの再起動時にHTTPコンポーネントを自動で起動するように設定されていることを確認します。 |
HSTU | HTTP Status | ||
HTAS | Auto-Start HTTP | LDR | 起動時にHTTPサービスが自動で起動されるかどうかを示します。これはユーザ指定の設定オプションです。 |
IQSZ | Number of Objects | オブジェクトの取り込み速度にILMポリシーによる評価が追いついていないか、ILMルールによる再評価が必要なオブジェクトを大量に処理しています。 1日または1週間のIQSZの値をプロットし、システム アクティビティの少ない時間帯にオブジェクト数が減少する傾向にあることを確認します。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
|
IRSU | Inbound Replication Status | BLDR、BARC | インバウンド レプリケーションが無効になっていることを示します。 で設定を確認します。 |
LATA | Average Latency | NMS | 接続に問題がないかを確認します。 システム アクティビティを調べ、システム アクティビティが増えていることを確認します。システム アクティビティが増えれば、それだけ属性データのアクティビティも増え、属性データの処理に遅れが生じます。これは正常なシステム アクティビティであり、自然に解消されます。 複数のアラームがないかを確認します。トリガーされたアラームの数が多すぎる場合、平均レイテンシが高くなることがあります。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
LATW | Worst-Case Latency | NMS | 接続に問題がないかを確認します。 システム アクティビティを調べ、アクティビティが増えていることを確認します。システム アクティビティが増えれば、それだけ属性データのアクティビティも増え、属性データの処理に遅れが生じます。これは正常なシステム アクティビティであり、自然に解消されます。 複数のアラームがないかを確認します。トリガーされたアラームの数が多すぎる場合、平均レイテンシが高くなることがあります。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
LDRE | LDR State | LDR | 「LDR State」の値が「Standby」の場合は、しばらく状況を監視し、問題が解決しなければテクニカル サポートに連絡します。 「LDR State」の値が「Offline」の場合は、サービスを再起動します。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
LOST | Lost Objects | CMS | 要求されたオブジェクトのコピーをStorageGRID Webscaleシステム内のいずれの場所からも読み出せない場合にトリガーされます。LOST(Lost Objects)アラームがトリガーされる前に、欠落オブジェクトをシステム内の他の場所から読み出して置き換えることができないかが試行されます。 損失オブジェクトとは、データが失われたことを表します。ILMポリシーを満たすためにDDSサービスが意図的にコンテンツをパージしている場合を除き、「Lost Objects」属性の値はオブジェクトの場所が0になるたびに1つ増えます。 LOST(LOST Object)アラームはすぐに調査する必要があります。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
MINQ | E-mail Notifications Queued | NMS | NMSサービスをホストするサーバと外部のメール サーバのネットワーク接続を確認します。また、NMS Eメール サーバの設定が正しいことを確認します。 |
MINS | E-mail Notifications Status | BNMS | NMSサービスでメール サーバに接続できない場合にMinorアラームがトリガーされます。NMSサービスをホストするサーバと外部のメール サーバのネットワーク接続を確認します。また、NMS Eメール サーバの設定が正しいことを確認します。 |
MISS | NMS Interface Engine Status | BNMS | インターフェイス コンテンツを収集および生成する管理ノードのNMSインターフェイス エンジンがシステムから切断されている場合にアラームがトリガーされます。サーバ マネージャで、サーバの個々のアプリケーションが停止しているかどうかを確認します。 |
MMQS | Peak Message Queue Size | BADC、BAMS、BARC、BCLB、BCMN、BLDR、BNMS、BSSM、BDDS | グリッド ノードが過負荷状態のため、処理速度が低下し、通常のシステム運用に十分に対応できなくなっていることを示します。ノードがこの状態のときは、クライアント要求がタイムアウトすることがあります。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
NANG | Network Auto Negotiate Setting | SSM | ネットワーク アダプタの設定を確認します。ネットワークのルータおよびスイッチと対応した設定になっている必要があります。 設定に誤りがあると、システムのパフォーマンスに重大な影響を及ぼすことがあります。 |
NDUP | Network Duplex Setting | SSM | ネットワーク アダプタの設定を確認します。ネットワークのルータおよびスイッチと対応した設定になっている必要があります。 設定に誤りがあると、システムのパフォーマンスに重大な影響を及ぼすことがあります。 |
NLNK | Network Link Detect | SSM | ポートおよびスイッチのネットワーク ケーブルの接続を確認します。 ネットワークのルータ、スイッチ、およびアダプタの設定を確認します。 サーバを再起動します。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
NRER | Receive Errors | SSM | これらのエラーは、手動でリセットしなくても解消されることがあります。エラーが解消されない場合は、ネットワークのハードウェアを確認します。 アダプタのハードウェアとドライバが正しくインストールされ、ネットワークのルータおよびスイッチと連携するように設定されていることを確認します。 原因となっている問題を解決したら、カウンタをリセットします。[Reset Receive Error Count]を選択して、[Apply Changes]をクリックします。 に移動し、 |
NRLY | Available Audit Relays | BADC、BARC、BCLB、BCMN、BCMS、BLDR、BNMS、BDDS | ADCサービスに監査リレーが接続されていないと、監査イベントを報告できません。接続がリストアされるまではキューに登録され、ユーザには報告されません。 できるだけ速やかにADCサービスへの接続をリストアします。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
NSCA | NMS Status | NMS | 「NMS Status」の値が「DB Connectivity Error」の場合は、サービスを再起動します。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
NSCE | NMS State | NMS | 「NMS State」の値が「Standby」の場合は、しばらく状況を監視し、問題が解決しなければテクニカル サポートに連絡します。 「NMS State」の値が「Offline」の場合は、サービスを再起動します。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
NSPD | Speed | SSM | ネットワーク接続またはドライバの互換性の問題が原因となっている可能性があります。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
NTBR | Free Tablespace | NMS | アラームがトリガーされた場合は、データベースの使用量がどのくらいのペースで変化しているかを確認します。時間とともに徐々に変化するのではなく、急激に低下している場合は、エラー状況を示しています。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 アラームのしきい値を調整することで、追加ストレージの割り当てを必要に応じてプロアクティブに管理できます。 使用可能なスペースがしきい値の下限(アラームのしきい値を参照)に達した場合は、テクニカル サポートに連絡してデータベースの割り当てを変更します。 |
NTER | Transmit Errors | SSM | これらのエラーは、手動でリセットしなくても解消されることがあります。解消されない場合は、ネットワークのハードウェアを確認します。アダプタのハードウェアとドライバが正しくインストールされ、ネットワークのルータおよびスイッチと連携するように設定されていることを確認します。 原因となっている問題を解決したら、カウンタをリセットします。[Reset Transmit Error Count]を選択して、[Apply Changes]をクリックします。 に移動し、 |
NTFQ | NTP Frequency Offset | SSM | 周波数オフセットが設定されたしきい値を超えている場合は、ハードウェアのローカル クロックに問題がある可能性があります。問題が引き続き発生する場合は、テクニカル サポートに連絡して交換を手配してください。 |
NTLK | NTP Lock | SSM | NTPデーモンが特定の外部時間ソースに固定されていない場合は、目的の外部時間ソースへのネットワーク接続とそれらの可用性および安定性を確認します。 |
NTLR | Repair Completion Status | DDS | Cassandraに対するnodetool repairタスクが停止すると、潜在的なデータベースの不整合を確認および修復する正常なバックグラウンド プロセスが完了できず、1時間おきに再試行されます。 Cassandraのログ(/var/local/log/cassandra/system.log)でエラーを確認し、見つかった問題を修正します。たとえば、ネットワークの問題が原因でストレージ ノードが隔離されている可能性があります。 nodetool repairの完了を妨げる問題を特定または解決できない場合は、テクニカル サポートにお問い合わせください。 |
NTOF | NTP Time Offset | SSM | 時間オフセットが設定されたしきい値を超えている場合は、ハードウェアのローカル クロックのオシレーターに問題がある可能性があります。問題が引き続き発生する場合は、テクニカル サポートに連絡して交換を手配してください。 |
NTSA | NTP Sources Available | SSM | StorageGRID WebscaleシステムのプライマリNTPサーバとして動作するように設定されたサーバの場合、この属性で使用可能な外部NTP時間ソースの数が追跡されます。使用可能な外部時間ソースが多数存在する場合は数値が変動しますが、これは通常の動作であり問題ありません。 セカンダリNTPタイム サーバまたはNTPクライアントとして動作するように設定されたサーバの場合は、別のサーバをNTP時間ソースとして使用します。StorageGRID WebscaleシステムのNTP設定の詳細については、環境に応じたソリューション設計ドキュメントを参照してください。 使用可能なNTP時間ソースの数が設定された最小数を下回ると、サーバのローカル時間の正確性や一貫性が低下する可能性があります。NTP時間ソースの数が0になると、ローカル サーバ時間が他のサービスで記録される時間と同期されなくなります。最悪の場合、これによってシステムの運用が停止することもあります。この問題はできるだけ早く修正してください。 |
NTSD | Chosen Time Source Delay | SSM | これらの値は、ローカル サーバのNTPが参照している時間ソースの信頼性と安定性を示します。 アラームがトリガーされた場合は、時間ソースのオシレーターが故障しているか、時間ソースへのWANリンクに問題がある可能性があります。 |
NTSJ | Chosen Time Source Jitter | ||
NTSO | Chosen Time Source Offset | ||
NTSU | NTP Status | SSM | 「NTP Status」の値が「Not Running」の場合は、テクニカル サポートに連絡してください。 |
OCOR | Corrupt Objects Detected | LDR | 最後に実行されたバックグラウンド検証プロセスでストレージ ノードから検出された、レプリケートされたオブジェクトの破損の総数です。破損オブジェクトがある場合は調査する必要があります。この数が10個を超える場合、大きな問題が発生している可能性があります。 この値は永続的であり、破損したオブジェクトがリストアされても更新されないことに注意してください。 破損したオブジェクトが検出された場合は、「Verification Priority」を「High」に変更します。これにより、検証を迅速に実行して問題の重大度を特定できます。[Apply Changes]をクリックします。 に移動し、 を選択して、原因となっている問題を解決したら、カウンタをリセットしてアラームを解除します。[Reset Corrupt Objects Count]を選択して、[Apply Changes]をクリックします。 に移動し、 |
OPST | Overall Power Status | SSM | StorageGRID Webscaleアプライアンスのエンクロージャの電源が推奨される動作電圧と大きく異なる場合にアラームがトリガーされます。 電源装置AとBのステータスを調べ、どちらの電源装置に異常があるかを確認します。 必要に応じて、電源装置を交換します。 |
OQRT | Objects Quarantined | LDR | StorageGRID Webscaleシステムでオブジェクトが自動的にリストアされたあと、隔離されたオブジェクトを隔離ディレクトリから手動で削除する必要があります。テクニカル サポートにお問い合わせください。 隔離されたオブジェクトを削除すると、OQRTの値が更新されてアラームが解除されます。 |
ORSU | Outbound Replication Status | BLDR、BARC | アウトバウンド レプリケーションを実行できず、ストレージからオブジェクトを読み出せない状態になっていることを示します。アウトバウンド レプリケーションが手動で無効にされた場合にアラームがトリガーされます。 を確認します。LDRサービスでレプリケーションを実行できない場合にもアラームがトリガーされます。この場合は、 を確認します。 |
PMEM | Service Memory Usage (Percent) | BADC、BAMS、BARC、BCLB、BCMN、BCMS、BLDR、BNMS、BSSM、BDDS | 「Over Y% RAM」の形式で、サーバで使用されているメモリの割合が示されます。 80%未満であれば問題ありません。90%を超える場合は問題がある可能性があります。 1つのサービスのメモリ使用率が高い場合は、状況を監視して調査します。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
PSAS | Power Supply A Status | SSM | StorageGRID Webscaleアプライアンスの電源装置Aが推奨される動作電圧と大きく異なる場合にアラームがトリガーされます。 必要に応じて、電源装置Aを交換します。 |
PSBS | Power Supply B Status | SSM | StorageGRID Webscaleアプライアンスの電源装置Bが推奨される動作電圧と大きく異なる場合にアラームがトリガーされます。 必要に応じて、電源装置Bを交換します。 |
RDTE | Tivoli Storage Manager State | BARC | ターゲット タイプが「Tivoli Storage Manager (TSM)」のアーカイブ ノードにのみ適用されます。 「Tivoli Storage Manager State」の値が「Offline」の場合は、「Tivoli Storage Manager Status」を確認して問題を解決します。 コンポーネントをオンラインに戻します。[Apply Changes]をクリックします。 に移動し、 を選択して、 |
RDTU | Tivoli Storage Manager Status | BARC | ターゲット タイプが「Tivoli Storage Manager (TSM)」のアーカイブ ノードにのみ適用されます。 「Tivoli Storage Manager Status」の値が「Configuration Error」で、アーカイブ ノードをStorageGRID Webscaleシステムに追加したばかりの場合は、TSMミドルウェア サーバが正しく設定されていることを確認します。 「Tivoli Storage Manager Status」の値が「Connection Failure」または「Connection Failure, Retrying」の場合は、TSMミドルウェア サーバのネットワーク設定、およびTSMミドルウェア サーバとStorageGRID Webscaleシステムの間のネットワーク接続を確認します。 「Tivoli Storage Manager Status」の値が「Authentication Failure」または「Authentication Failure, Reconnecting」の場合は、StorageGRID WebscaleシステムからTSMミドルウェア サーバに接続は可能ですが、接続を認証できません。TSMミドルウェア サーバでユーザ、パスワード、および権限が正しく設定されていることを確認し、サービスを再起動します。 「Tivoli Storage Manager Status」の値が「Session Failure」の場合は、確立されたセッションが予期せずに切断されています。TSMミドルウェア サーバとStorageGRID Webscaleシステムの間のネットワーク接続を確認します。ミドルウェア サーバにエラーがないかを確認します。 「Tivoli Storage Manager Status」の値が「Unknown Error」の場合は、テクニカル サポートに連絡してください。 |
RIRF | Inbound Replications – Failed | BLDR、BARC | レプリケーションのアラーム(Inbound Replications – Failed RIRFおよびOutbound Replications – Failed RORF)は、負荷が高いときやネットワークが一時的に停止しているときに発生することがあります。これらのアラームは、システム アクティビティが減ると解除されます。レプリケーションの失敗回数が増え続ける場合は、ネットワークに問題がないかを調べ、ソースとデスティネーションのLDRサービスおよびARCサービスがオンラインで使用可能な状態になっていることを確認します。 カウントをリセットするには、[ARC]または に移動し、[Reset Inbound Replication Failure Count]を選択して、[Apply Changes]をクリックします。 |
RIRQ | Inbound Replications – Queued | BLDR、BARC | 負荷が高いときやネットワークが一時的に停止しているときにアラームが発生することがあります。このアラームは、システム アクティビティが減ると解除されます。レプリケーションのキューが増え続ける場合は、ネットワークに問題がないかを調べ、ソースとデスティネーションのLDRサービスおよびARCサービスがオンラインで使用可能な状態になっていることを確認します。 |
RORF | Outbound Replications – Failed | BLDR、BARC | Noticeアラームのしきい値は10オブジェクトで、オブジェクト数が50を超えるとMinorアラームがトリガーされます。 レプリケーションのアラーム(Inbound Replications – Failed(RIRF)およびOutbound Replications – Failed(RORF))は、負荷が高いときやネットワークが一時的に停止しているときに発生することがあります。これらのアラームは、システム アクティビティが減ると解除されます。レプリケーションの失敗回数が増え続ける場合は、ネットワークに問題がないかを調べ、ソースとデスティネーションのLDRサービスおよびARCサービスがオンラインで使用可能な状態になっていることを確認します。 カウントをリセットするには、[ARC]または に移動し、[Reset Outbound Replication Failure Count]を選択して、[Apply Changes]をクリックします。 |
RORQ | Outbound Replications – Queued | BLDR、BARC | アウトバウンド レプリケーションのキューには、ILMルールを満たすためにコピーされるオブジェクト データと、クライアントから要求されたオブジェクトが含まれます。 システムが過負荷状態になるとアラームが発生することがあります。このアラームはシステム アクティビティが減ると解除されるため、しばらく状況を監視します。アラームが繰り返し発生する場合は、ストレージ ノードを追加して容量を増やします。 |
SAVP | Total Usable Space (Percent) | LDR | 使用可能なスペースがしきい値の下限に達した場合は、StorageGRID Webscaleシステムを拡張するか、オブジェクト データをアーカイブ ノード経由でアーカイブに移動します。 |
SCAS | Status | CMN | アクティブなグリッド タスクの「Status」の値が「Error」の場合は、 でグリッド タスクのメッセージを検索します。グリッド タスクのメッセージに、エラーに関する情報が表示されます(例:「check failed on node 12130011」)。問題の調査と修正が完了したら、グリッド タスクを再起動します。 に移動し、 を選択します。中止しているグリッド タスクの「Status」値が「Error」の場合は、グリッド タスクの中止を再試行します。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
SCHR | Status | CMN | 過去のグリッド タスクの「Status」の値が「Aborted」の場合は、原因を調べ、必要に応じてもう一度タスクを実行します。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
SHLH | Health | LDR | オブジェクト ストアの「Health」の値が「Error」の場合は、以下を確認して修正します。
|
SLSA | CPU Load Average | SSM | この値は、システムがビジーなときほど高くなります。 「CPU Load Average」の値が高いまま推移している場合は、システムのトランザクション数を調べ、一時的な負荷の増加によるものかどうかを確認する必要があります。平均CPU負荷のグラフを確認します( )。システムの負荷が高くない状況でも問題が解決しない場合は、テクニカル サポートに連絡してください。 注:RHELを使用し、単一のホストで複数のコンテナを実行している場合は、ホストの使用状況がより正確に反映されるようにCPU Load Averageアラームのトリガー値を変更することもできます。CPU Load Averageのトリガー値の変更を参照してください。
|
SMST | Log Monitor State | SSM | 「Log Monitor State」の値が「Connected」にならない状態が続く場合は、テクニカル サポートに連絡してください。 |
SMTT | Total Events | SSM | 「Total Events」の値が0より大きい場合は、原因となる既知のイベント(ネットワーク障害など)がないかを確認します。それらのエラーが解消されていない(カウントが0にリセットされていない)と、Total Eventsアラームがトリガーされることがあります。 問題を解決したら、カウンタをリセットしてアラームを解除します。[Apply Changes]をクリックします。 に移動し、イベントを選択して、「Total Events」の値が0の場合や数が増えて問題が解決しない場合は、テクニカル サポートに連絡してください。 |
SNST | Status | CMN | グリッド タスク バンドルの格納に問題があることを示します。「Status」の値が「Checkpoint Error」または「Quorum Not Reached」の場合は、半数を超えるADCサービスがStorageGRID Webscaleシステムに接続されていることを確認し、そのまま数分待ちます。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
SOSS | Storage Operating System Status | SSM | StorageGRID WebscaleアプライアンスのコンポーネントであるE2700コントローラについて、SANtricityソフトウェアから「Needs attention」の問題が報告された場合にアラームがトリガーされます。 ページに移動し、電源装置のステータスを確認します。SANtricityソフトウェアで、アプライアンスの他のコンポーネントを調べて問題を特定します。 |
SSMA | SSM Status | SSM | 「SSM Status」の値が「Error」の場合は、 ページおよび ページを確認してアラームの原因を特定します。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
SSME | SSM State | SSM | 「SSM State」の値が「Standby」の場合は、しばらく状況を監視し、問題が解決しなければテクニカル サポートに連絡します。 「SSM State」の値が「Offline」の場合は、サービスを再起動します。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
SSTS | Storage Status | BLDR | 「Storage Status」の値が「Insufficient Usable Space」の場合は、ストレージ ノードの使用可能なストレージがなくなり、データの取り込みが他の使用可能なストレージ ノードにリダイレクトされています。このグリッド ノードからの読み出し要求は引き続き可能です。 ストレージを追加する必要があります。エンド ユーザの作業には影響しませんが、ストレージを追加しないかぎりアラームは解除されません。 「Storage Status」の値が「Volume(s) Unavailable」の場合は、ストレージの一部が使用できない状態になっています。それらのボリュームでは格納も読み出しも実行できません。詳細については、ボリュームの「Health」を確認してください( の「Object Stores」を参照)。「Storage Status」の値が「Error」の場合は、テクニカル サポートに連絡してください。 |
SVST | Status | SSM | このアラームは、サービスの実行の問題に関する他のアラームが解決されると解除されます。ソース側のサービスのアラームを追跡してリストアします。
サービスが「Not Running」と表示される場合は、サービスを再起動します(/etc/init.d/<service> restart)。 このアラームは、ストレージ ノードに対するDDSサービスの分散キー バリュー型データストア(Cassandraデータベース)のリビルドが必要なことを示している可能性もあります。詳細については、SVST(Services: Status - Cassandra)アラームのトラブルシューティングを参照してください。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
TMEM | Installed Memory | SSM | ノードの搭載メモリが24GiB未満の場合、パフォーマンスの問題が発生し、システムが不安定になることがあります。システムの搭載メモリを24GiB以上に増やす必要があります。 |
TPOP | Pending Operations | ADC | メッセージのキューが形成されている場合、ADCサービスが過負荷状態であることを示している可能性があります。StorageGRID Webscaleシステムに接続されているADCサービスの数が少なすぎることが考えられます。大規模な環境では、ADCサービスのコンピューティング リソースを増やすか、システムにADCサービスを追加することが必要になる可能性があります。 |
UMEM | Available Memory | SSM | 使用可能なRAMが少なくなった場合は、ハードウェアやソフトウェアの問題でないかを確認します。ハードウェアの問題でない場合や使用可能なメモリが50MB(デフォルトのアラームのしきい値)を下回った場合は、テクニカル サポートに連絡してください。 |
VMFI | Entries Available | SSM | 追加のストレージが必要なことを示しています。テクニカル サポートにお問い合わせください。 |
VMFR | Space Available | SSM | 「Space Available」の値が低すぎる(アラームのしきい値を参照)場合は、大きくなりすぎたログ ファイルや大量のディスク スペースを消費しているオブジェクト(アラームのしきい値を参照)がないかどうかを調べ、必要に応じてそれらを減らすか削除します。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |
VMST | Status | SSM | マウントされたボリュームの「Status」の値が「Unknown」の場合にアラームがトリガーされます。値が「Unknown」または「Offline」の場合、ボリュームの基盤となるストレージ デバイスの問題が原因でマウントまたはアクセスできないことを示している可能性があります。 |
VPRI | Verification Priority | BLDR、BARC | 「Verification Priority」のデフォルトの値は「Adaptive」です。「Verification Priority」が「High」に設定されている場合、ストレージの検証が優先されてサービスの通常の運用に影響する可能性があるため、アラームがトリガーされます。 |
VSTU | Object Verification Status | BLDR、BARC | で、他の問題がないかを調べます。 「Object Verification Status」の値が「Verify Location Synchronize Failed」の場合は、LDRサービスが少なくとも1つのCMSサービスに接続されていることを確認します。 また、オペレーティング システムで、ブロック デバイスやファイルシステムのエラーの兆候がないかどうかを確認します。 「Object Verification Status」の値が「Maximum Number of Failures Reached」の場合は、通常、下位レベルのファイルシステムやハードウェアの問題(I/Oエラー)が原因で、ストレージ検証タスクが格納されているコンテンツにアクセスできないことを示しています。このアラームは、データが無効であることを示すコンテンツ エラーの数が多い場合にも発生する可能性があります。 「Object Verification Status」の値が「Unknown Error」の場合は、テクニカル サポートに連絡してください。 |
XAMS | Unreachable Audit Repositories | BADC、BARC、BCLB、BCMN、BCMS、BLDR、BNMS | 管理ノードをホストするサーバへのネットワーク接続を確認します。 問題が引き続き発生する場合は、テクニカル サポートに連絡してください。 |