アラーム一覧

StorageGRID Webscaleシステムの事前に設定されているすべてのアラームを以下の表に示します。応答はアラームの重大度に基づいて割り当てられるため、アラームの設定をシステムの管理方法に合わせてカスタマイズしている場合は異なることがあります。

コード 名前 サービス 推奨される対処方法
ABRL Available Attribute Relays BADC、BAMS、BARC、BCLB、BCMN、BCMS、BLDR、BNMS、BSSM、BDDS

Attribute Relay Serviceを実行しているサービス(ADCサービス)への接続をできるだけ速やかにリストアします。属性リレーが接続されていないと、グリッド ノードからNMSサービスに属性の値をレポートできません。そのため、NMSサービスでサービスのステータスの監視やサービスの属性の更新を行えなくなります。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

ACMS Available Metadata Services BARC、BLDR、BCMN

LDRサービスまたはARCサービスからのDDSサービスへの接続が失われた場合にアラームがトリガーされます。この場合、取り込みや読み出しのトランザクションを処理できません。DDSサービスを利用できない状態が長くは続かず、一時的な問題である場合は、トランザクションが遅れて処理されることがあります。

このアラームを解除し、サービスのすべての機能を復旧するには、DDSサービスへの接続を確認してリストアします。

ACTS Cloud Tiering Service Status ARC

ターゲット タイプが「Cloud Tiering - Simple Storage Service (S3)」のアーカイブ ノードにのみ適用されます。

アーカイブ ノードのACTS属性が「Read-Only Enabled」または「Read-Write Disabled」に設定されている場合、「Read-Write Enabled」に設定する必要があります。

認証エラーによってMajorアラームがトリガーされた場合は、デスティネーション バケットに関連付けられているクレデンシャルを確認し、必要に応じて値を更新します。

それ以外の理由でMajorアラームがトリガーされた場合は、テクニカル サポートに連絡してください。

ADCA ADC Status ADC

アラームがトリガーされた場合は、[Grid] > [site] > [grid node] > [ADC] > [Overview] > [Main]および[ADC] > [Alarms] > [Main]を確認してアラームの原因を特定します。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

ADCE ADC State ADC

「ADC State」の値が「Standby」の場合は、しばらくサービスを監視し、問題が解決しなければテクニカル サポートに連絡します。

「ADC State」の値が「Offline」の場合は、サービスを再起動します。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

AITE Retrieve State BARC

ターゲット タイプが「Tivoli Storage Manager (TSM)」のアーカイブ ノードにのみ適用されます。

「Retrieve State」の値が「Waiting for Target」の場合は、TSMミドルウェア サーバを調べ、正常に動作していることを確認します。アーカイブ ノードをStorageGRID Webscaleシステムに追加したばかりの場合は、アーカイブ ノードから対象の外部アーカイブ ストレージ システムへの接続が正しく設定されていることを確認します。

「Archive Retrieve State」の値が「Offline」の場合は、状態を「Online」に更新できるか試します。[Grid] > [site] > [grid node] > [ARC] > [Retrieve] > [Configuration] > [Main]に移動し、[Archive Retrieve State] > [Online]を選択して、[Apply Changes]をクリックします。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

AITU Retrieve Status BARC

「Retrieve Status」の値が「Target Error」の場合は、対象の外部アーカイブ ストレージ システムにエラーがないかを確認します。

「Archive Retrieve Status」の値が「Session Lost」の場合は、対象の外部アーカイブ ストレージ システムがオンラインで正常に動作していることを確認します。ターゲットとのネットワーク接続を確認します。

「Archive Retrieve Status」の値が「Unknown Error」の場合は、テクニカル サポートに連絡してください。

ALIS Inbound Attribute Sessions ADC

属性リレーのインバウンド属性セッション数が大幅に増加している場合、StorageGRID Webscaleシステムのバランスが悪くなっている可能性があります。通常の状態であれば、属性セッションはADCサービスに均等に分散されます。バランスが悪い状態が続くと、パフォーマンスの問題につながる可能性があります。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

ALOS Outbound Attribute Sessions ADC

ADCサービスの属性セッションが多く、過負荷状態になっています。このアラームがトリガーされた場合は、テクニカル サポートに連絡してください。

ALUR Unreachable Attribute Repositories ADC

NMSサービスとのネットワーク接続を調べ、属性リポジトリに接続できることを確認します。

このアラームがトリガーされ、ネットワーク接続に問題がない場合は、テクニカル サポートに連絡してください。

AMQS Audit Messages Queued BADC、BAMS、BARC、BCLB、BCMN、BCMS、BLDR、BNMS、BDDS

監査メッセージは、監査リレーまたは監査リポジトリにすぐに転送できない場合、ディスクのキューに格納されます。負荷が高い状態のときは、このキューに100,000件を超えるメッセージが格納されることがあります。このような場合は、キューを監視して、メッセージの転送が機能しているかどうかを確認します。

このアラームがトリガーされた場合は、システムに対する負荷を確認します。多数のトランザクションが処理されていれば正常な状態と考えられ、時間が経つと自然に解消されます。この場合、アラームは自動的に解除されるため無視してかまいません。

アラームが解除されない場合は、キュー サイズのグラフを確認します。減少することなく増え続けている場合は、テクニカル サポートに連絡してください。

まれに、ディスクのキューが大きくなりすぎて、AMSサービスの起動時にスレッドのデッドロックが発生することがあります。スレッドのデッドロックが発生した場合は、テクニカル サポートに連絡してください。

AOTE Store State BARC

ターゲット タイプが「Tivoli Storage Manager (TSM)」のアーカイブ ノードにのみ適用されます。

「Store State」の値が「Waiting for Target」の場合は、外部アーカイブ ストレージ システムを調べ、正常に動作していることを確認します。アーカイブ ノードをStorageGRID Webscaleシステムに追加したばかりの場合は、アーカイブ ノードから対象の外部アーカイブ ストレージ システムへの接続が正しく設定されていることを確認します。

「Store State」の値が「Offline」の場合は、「Store Status」の値を確認します。問題がある場合は解決してから、「Store State」を「Online」に戻します。

AOTU Store Status BARC

「Store Status」の値が「Session Lost」の場合は、外部アーカイブ ストレージ システムが接続されてオンラインになっていることを確認します。

値が「Target Error」の場合は、外部アーカイブ ストレージ システムにエラーがないかを確認します。

「Store Status」の値が「Unknown Error」の場合は、テクニカル サポートに連絡してください。

APMS Multipath State SSM [Grid] > [site] > [grid node][SSM] > [Events]ページでマルチパス状態アラームが「Simplex」と表示されている場合は、次の手順を実行します。
  1. インジケータ ライトが表示されていないケーブルを接続するか交換します。
  2. 1~5分ほど待ちます。

    最初のケーブルを接続してから少なくとも5分間は、他のケーブルを取り外さないでください。それよりも早くケーブルを取り外すと、ルート ボリュームが読み取り専用になり、ハードウェアの再起動が必要になることがあります。

  3. [Grid] > [site] > [grid node] > [SSM] > [Resources]ページに戻り、[Storage Hardware]セクションで、「Simplex」マルチパスのステータスが「Nominal」に変わったことを確認します。
ARCE ARC State ARC

ARCサービスの状態は、ARCのすべてのコンポーネント(Replication、Store、Retrieve、Target)が起動されるまでは「Standby」となり、そのあとに「Online」に切り替わります。

「ARC State」の値が「Standby」から「Online」に切り替わらない場合は、ARCのコンポーネントのステータスを確認します。

「ARC State」の値が「Offline」の場合は、サービスを再起動します。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

AROQ Objects Queued ARC

このアラームは、対象の外部アーカイブ ストレージ システムの問題が原因でリムーバブル ストレージ デバイスが低速になっている場合や、複数の読み取りエラーが発生している場合にトリガーされることがあります。外部アーカイブ ストレージ システムにエラーがないか調べ、正常に動作していることを確認します。

このエラーは、データの要求速度に処理が追いつかない場合にも発生することがあります。この場合は、システム アクティビティが少なくなると、キューに登録されたオブジェクトの数も減っていきます。

ARRF Request Failures ARC

対象の外部アーカイブ ストレージ システムからの読み出しに失敗した場合、一時的な問題が原因である可能性もあるため、アーカイブ ノードで読み出しが再試行されます。ただし、オブジェクト データが破損していたり、完全に使用できないものとしてマークされている場合、読み出しは失敗として処理されません。この場合、アーカイブ ノードで読み出しの再試行が繰り返され、「Request Failures」の値が増え続けることになります。

このアラームは、要求されたデータの格納先のストレージ メディアが破損していることを示している可能性があります。外部アーカイブ ストレージ システムを調べて問題を詳しく診断します。

オブジェクト データがアーカイブにないことが判明した場合は、オブジェクトをStorageGRID Webscaleシステムから削除する必要があります。詳細については、テクニカル サポートにお問い合わせください。

このアラームをトリガーした問題が解消されたら、障害数をリセットします。[Grid] > [site] > [grid node] > [ARC] > [Retrieve] > [Configuration] > [Main]に移動し、[Reset Request Failure Count]を選択して、[Apply Changes]をクリックします。

ARRS Repository Status NMS

NMSサービスによるStorageGRID Webscaleシステムからの属性情報の収集が予期せずに停止しています。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

ARRV Verification Failures ARC

この問題の診断と修正については、テクニカル サポートにお問い合わせください。

このアラームをトリガーした問題が解消されたら、障害数をリセットします。[Grid] > [site] > [grid node] > [ARC] > [Retrieve] > [Configuration] > [Main]に移動し、[Reset Verification Failure Count]を選択して、[Apply Changes]をクリックします。

ARVF Store Failures ARC

このアラームは、対象の外部アーカイブ ストレージ システムのエラーが原因で発生することがあります。外部アーカイブ ストレージ システムにエラーがないか調べ、正常に動作していることを確認します。

このアラームをトリガーした問題が解消されたら、障害数をリセットします。[Grid] > [site] > [grid node] > [ARC] > [Retrieve] > [Configuration] > [Main]に移動し、[Reset Store Failure Count]を選択して、[Apply Changes]をクリックします。

ASXP Audit Shares AMS

「Audit Shares」の値が「Unknown」の場合にアラームがトリガーされます。このアラームは、管理ノードのインストールまたは設定に問題があることを示している可能性があります。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

AUMA AMS Status AMS

「AMS Status」の値が「DB Connectivity Error」の場合は、グリッド ノードを再起動します。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

AUME AMS State AMS

「AMS State」の値が「Standby」の場合は、しばらくStorageGRID Webscaleシステムを監視し、問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

「AMS State」の値が「Offline」の場合は、サービスを再起動します。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

AUXS Audit Export Status AMS

アラームがトリガーされた場合は、原因となっている問題を修正し、AMSサービスを再起動します。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

BASF Available Object Identifiers CMN

StorageGRID Webscaleシステムのプロビジョニング時、CMNサービスに決まった数のオブジェクトIDが割り当てられます。このアラームは、StorageGRID WebscaleシステムでオブジェクトIDが不足し始めるとトリガーされます。

IDの割り当てを増やすには、テクニカル サポートに連絡してください。

BASS Identifier Block Allocation Status CMN

デフォルトでは、ADCのクォーラムに達しないためにオブジェクトIDを割り当てることができない場合にアラームがトリガーされます。

CMNサービスでのIDブロックの割り当てには、オンラインで接続されているADCサービスがクォーラム(過半数)に達している必要があります。クォーラムに満たない場合、ADCのクォーラムが再確立されるまでCMNサービスは新しいIDブロックを割り当てることができません。ADCのクォーラムが失われても、グリッドのどこかに約1カ月分のIDがキャッシュされているため、通常はStorageGRID Webscaleシステムにすぐに影響が及ぶことはありません(クライアントによるコンテンツの取り込みや読み出しが引き続き可能です)。ただし、この状態が続くと、StorageGRID Webscaleシステムは新しいコンテンツを取り込めなくなります。

アラームがトリガーされた場合は、ADCのクォーラムが失われた原因(ネットワークやストレージ ノードの障害など)を調べて適切に対処します。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

BRDT Module temperature SSM

StorageGRID WebscaleアプライアンスのE5600SGコントローラの温度が公称のしきい値を超えるとアラームがトリガーされます。

StorageGRID Webscaleアプライアンスがストレージ ノードであれば、StorageGRID Webscaleのストレージ コントローラを調査する必要があります。

過熱の原因となっているハードウェア コンポーネントや環境の問題を確認します。必要に応じて、コンポーネントを交換します。

BTOF Offset BADC、BLDR、BNMS、BAMS、BCLB、BCMN、BARC、BCMS

サービスの時間(秒数)とオペレーティング システムの時間が大きく異なる場合にアラームがトリガーされます。通常の状態であれば、サービスは自動的に再同期されます。サービスの時間とオペレーティング システムの時間のずれが大きくなると、システムの運用に影響を及ぼすことがあります。StorageGRID Webscaleシステムの時間ソースが正しいことを確認します。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

BTSE Clock State BADC、BLDR、BNMS、BAMS、BCLB、BCMN、BARC、BCMS

サービスの時間がオペレーティング システムで追跡された時間と同期されていない場合にアラームがトリガーされます。通常の状態であれば、サービスは自動的に再同期されます。オペレーティング システムの時間とのずれが大きくなると、システムの運用に影響を及ぼすことがあります。StorageGRID Webscaleシステムの時間ソースが正しいことを確認します。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

CAHP Java Heap Usage Percent DDS

Javaのガベージ コレクションが追いつかず、システムの正常な動作に必要なヒープ スペースを確保できなくなった場合にアラームがトリガーされます。DDSのキー バリュー型データストアに対するユーザのワークロードがシステム全体で利用できるリソースを超えていることを示している可能性があります。ダッシュボードまたは[Grid] > [site] > [grid node] > [DDS] > [Resources] > [Overview] > [Main]で、ILMのアクティビティを確認します。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

CAIH Number Available Ingest Destinations CLB

このアラームは、使用可能なLDRサービスの根本的な問題が修正されると解除されます。LDRサービスのHTTPコンポーネントがオンラインで正常に実行されていることを確認します。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

CAQH Number Available Q/R Destinations CLB

このアラームは、使用可能なLDRサービスの根本的な問題が修正されると解除されます。LDRサービスのHTTPコンポーネントがオンラインで正常に実行されていることを確認します。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

CASA Data Store Status DDS

Cassandraのデータストアが使用できなくなるとアラームが生成されます。

Cassandraのステータスを確認します。
  1. ストレージ ノードで、password.txtファイルに記載されたパスワードを使用して、adminとしてログインしてからsuを実行してrootに切り替えます。
  2. 次のコマンドを入力します。/etc/init.d/cassandra status
  3. Cassandraが実行されていない場合は再起動します。/etc/int.d/cassandra restart

このアラームは、ストレージ ノードに対するDDSサービスの分散キー バリュー型データストア(Cassandraデータベース)のリビルドが必要なことを示している可能性もあります。詳細については、SVST(Services: Status - Cassandra)アラームのトラブルシューティングを参照してください。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

CDLP Data Load (Percent) DDS

このアラームは、オブジェクト ストア0でオブジェクト メタデータ用にリザーブされている空きスペース(Metadata Reserved Free Space [CAWM])が所定の容量になった場合に、ストレージ ノードに対してトリガーされます。

Cassandraデータベースは、コンパクションや修復などの不可欠な処理を実行するために一定量の空きストレージ スペースを必要とします。メタデータの負荷が増え続けるとこれらのCassandra処理が影響を受けます。

アラームがトリガーされた場合は、ストレージ ノードを追加してStorageGRID Webscaleシステムを拡張してください。ストレージが追加されると、すべてのストレージ ノード間でオブジェクト メタデータが自動的にリバランシングされ、アラームが解除されます。

CLBA CLB Status CLB

アラームがトリガーされた場合は、[Grid] > [site] > [grid node] > [CLB] > [Overview] > [Main]および[CLB] > [Alarms] > [Main]を確認してアラームの原因を特定し、問題のトラブルシューティングを行います。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

CLBE CLB State CLB

「CLB State」の値が「Standby」の場合は、しばらく状況を監視し、問題が解決しなければテクニカル サポートに連絡します。

「Offline」の場合は、サーバ ハードウェアの既知の問題(サーバが接続されていないなど)や計画的停止がないことを確認し、サービスを再起動します。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

CMNA CMN Status CMN

「CMN Status」の値が「Error」の場合は、[Grid] > [site] > [grid node] > [CMN] > [Overview] > [Main]および[CMN] > [Alarms] > [Main]に移動してエラーの原因を特定し、問題のトラブルシューティングを行います。

プライマリ管理ノードのハードウェアの更新時にCMNの状態が切り替わると(「CMN State」の値が「Standby」から「Online」に変わると)、アラームがトリガーされ、「CMN Status」の値が「No Online CMN」になります。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

CMSS CMS State  

アラームがトリガーされた場合は、テクニカル サポートに連絡してください。

CMST CMS Status CMS

アラームがトリガーされた場合は、テクニカル サポートに連絡してください。

CPRC Remaining Capacity NMS

残り容量(NMSデータベースに対して確立できる接続の数)が設定されたアラームの重大度を下回るとアラームがトリガーされます。

アラームがトリガーされた場合は、テクニカル サポートに連絡してください。

CPUT CPU Temperature SSM

StorageGRID WebscaleアプライアンスのE5600SGコントローラのCPU温度が公称のしきい値を超えるとアラームがトリガーされます。

StorageGRID Webscaleアプライアンスがストレージ ノードであれば、StorageGRID Webscaleシステムのストレージ コントローラを調査する必要があります。

過熱の原因となっているハードウェア コンポーネントや環境の問題を確認します。必要に応じて、コンポーネントを交換します。

CQST Average Query Latency LDR、DDS

このアラームは、サービスによる分散キー バリュー型データストアに対するクエリの平均実行時間がグリッド管理インターフェイスで設定された値を超えるとトリガーされます。

このアラームを解決するには、クエリのレイテンシが大きくなった時間帯のハードウェアやワークロードの変化を確認します。たとえば、複数のディスクに障害が発生したり、取り込みが急増したりした場合、それらのハードウェアの問題やワークロードの変化によってクエリのレイテンシが増大する可能性があります。

DNST DNS Status SSM

インストールが完了すると、SSMサービスでDNSTアラームがトリガーされます。DNSの設定が完了し、新しいサーバの情報がすべてのグリッド ノードに送られると、アラームはキャンセルされます。

ECCD Corrupt Fragments Detected LDR バックグラウンド検証プロセスでイレイジャー コーディングされたフラグメントの破損が検出されるとアラームがトリガーされます。破損したフラグメントが検出された場合、フラグメントのリビルドが試行されます。

「Corrupt Fragments Detected」属性と「Copies Lost」属性を0にリセットし、それらのカウントが再び増えるかどうかを確認します。カウントが増える場合は、ストレージ ノードの基盤となるストレージに問題がある可能性があります。イレイジャー コーディングされたオブジェクト データのコピーは、損失または破損したフラグメントの数がイレイジャー コーディングのフォールト トレランスを超えないかぎり欠落とはみなされません。したがって、破損したフラグメントがあっても、オブジェクトの読み出しは引き続き可能な場合もあります。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

ECST Verification Status LDR  
FOPN Open File Descriptors BADC、BAMS、BARC、BCLB、BCMN、BLDR、BNMS、BSSM、BDDS

アクティビティのピーク時は、FOPNが大きくなることがあります。アクティビティが少ない時間帯も低下しない場合は、テクニカル サポートに連絡してください。

HSTE HTTP State BLDR

HTTPプロトコルがオンラインの状態で、エラーなしで稼働していることが重要です。

LDRサービスおよび関連するStorageコンポーネントの状態を調べ、すべてがオンラインになっていることを確認します。

サービスの再起動時にHTTPコンポーネントを自動で起動するように設定されていることを確認します。

HSTU HTTP Status
HTAS Auto-Start HTTP LDR

起動時にHTTPサービスが自動で起動されるかどうかを示します。これはユーザ指定の設定オプションです。

IQSZ Number of Objects  

オブジェクトの取り込み速度にILMポリシーによる評価が追いついていないか、ILMルールによる再評価が必要なオブジェクトを大量に処理しています。

1日または1週間のIQSZの値をプロットし、システム アクティビティの少ない時間帯にオブジェクト数が減少する傾向にあることを確認します。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

IRSU Inbound Replication Status BLDR、BARC

インバウンド レプリケーションが無効になっていることを示します。[Grid] > [site] > [grid node] > [LDR] > [Replication] > [Configuration] > [Main]で設定を確認します。

LATA Average Latency NMS

接続に問題がないかを確認します。

システム アクティビティを調べ、システム アクティビティが増えていることを確認します。システム アクティビティが増えれば、それだけ属性データのアクティビティも増え、属性データの処理に遅れが生じます。これは正常なシステム アクティビティであり、自然に解消されます。

複数のアラームがないかを確認します。トリガーされたアラームの数が多すぎる場合、平均レイテンシが高くなることがあります。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

LATW Worst-Case Latency NMS

接続に問題がないかを確認します。

システム アクティビティを調べ、アクティビティが増えていることを確認します。システム アクティビティが増えれば、それだけ属性データのアクティビティも増え、属性データの処理に遅れが生じます。これは正常なシステム アクティビティであり、自然に解消されます。

複数のアラームがないかを確認します。トリガーされたアラームの数が多すぎる場合、平均レイテンシが高くなることがあります。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

LDRE LDR State LDR

「LDR State」の値が「Standby」の場合は、しばらく状況を監視し、問題が解決しなければテクニカル サポートに連絡します。

「LDR State」の値が「Offline」の場合は、サービスを再起動します。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

LOST Lost Objects CMS

要求されたオブジェクトのコピーをStorageGRID Webscaleシステム内のいずれの場所からも読み出せない場合にトリガーされます。LOST(Lost Objects)アラームがトリガーされる前に、欠落オブジェクトをシステム内の他の場所から読み出して置き換えることができないかが試行されます。

損失オブジェクトとは、データが失われたことを表します。ILMポリシーを満たすためにDDSサービスが意図的にコンテンツをパージしている場合を除き、「Lost Objects」属性の値はオブジェクトの場所が0になるたびに1つ増えます。

LOST(LOST Object)アラームはすぐに調査する必要があります。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

MINQ E-mail Notifications Queued NMS

NMSサービスをホストするサーバと外部のメール サーバのネットワーク接続を確認します。また、NMS Eメール サーバの設定が正しいことを確認します。

MINS E-mail Notifications Status BNMS

NMSサービスでメール サーバに接続できない場合にMinorアラームがトリガーされます。NMSサービスをホストするサーバと外部のメール サーバのネットワーク接続を確認します。また、NMS Eメール サーバの設定が正しいことを確認します。

MISS NMS Interface Engine Status BNMS

インターフェイス コンテンツを収集および生成する管理ノードのNMSインターフェイス エンジンがシステムから切断されている場合にアラームがトリガーされます。サーバ マネージャで、サーバの個々のアプリケーションが停止しているかどうかを確認します。

MMQS Peak Message Queue Size BADC、BAMS、BARC、BCLB、BCMN、BLDR、BNMS、BSSM、BDDS

グリッド ノードが過負荷状態のため、処理速度が低下し、通常のシステム運用に十分に対応できなくなっていることを示します。ノードがこの状態のときは、クライアント要求がタイムアウトすることがあります。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

NANG Network Auto Negotiate Setting SSM

ネットワーク アダプタの設定を確認します。ネットワークのルータおよびスイッチと対応した設定になっている必要があります。

設定に誤りがあると、システムのパフォーマンスに重大な影響を及ぼすことがあります。

NDUP Network Duplex Setting SSM

ネットワーク アダプタの設定を確認します。ネットワークのルータおよびスイッチと対応した設定になっている必要があります。

設定に誤りがあると、システムのパフォーマンスに重大な影響を及ぼすことがあります。

NLNK Network Link Detect SSM

ポートおよびスイッチのネットワーク ケーブルの接続を確認します。

ネットワークのルータ、スイッチ、およびアダプタの設定を確認します。

サーバを再起動します。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

NRER Receive Errors SSM

これらのエラーは、手動でリセットしなくても解消されることがあります。エラーが解消されない場合は、ネットワークのハードウェアを確認します。

アダプタのハードウェアとドライバが正しくインストールされ、ネットワークのルータおよびスイッチと連携するように設定されていることを確認します。

原因となっている問題を解決したら、カウンタをリセットします。[Grid] > [site] > [grid node] > [SSM] > [Resources] > [Configuration] > [Main]に移動し、[Reset Receive Error Count]を選択して、[Apply Changes]をクリックします。

NRLY Available Audit Relays BADC、BARC、BCLB、BCMN、BCMS、BLDR、BNMS、BDDS

ADCサービスに監査リレーが接続されていないと、監査イベントを報告できません。接続がリストアされるまではキューに登録され、ユーザには報告されません。

できるだけ速やかにADCサービスへの接続をリストアします。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

NSCA NMS Status NMS

「NMS Status」の値が「DB Connectivity Error」の場合は、サービスを再起動します。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

NSCE NMS State NMS

「NMS State」の値が「Standby」の場合は、しばらく状況を監視し、問題が解決しなければテクニカル サポートに連絡します。

「NMS State」の値が「Offline」の場合は、サービスを再起動します。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

NSPD Speed SSM

ネットワーク接続またはドライバの互換性の問題が原因となっている可能性があります。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

NTBR Free Tablespace NMS

アラームがトリガーされた場合は、データベースの使用量がどのくらいのペースで変化しているかを確認します。時間とともに徐々に変化するのではなく、急激に低下している場合は、エラー状況を示しています。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

アラームのしきい値を調整することで、追加ストレージの割り当てを必要に応じてプロアクティブに管理できます。

使用可能なスペースがしきい値の下限(アラームのしきい値を参照)に達した場合は、テクニカル サポートに連絡してデータベースの割り当てを変更します。

NTER Transmit Errors SSM

これらのエラーは、手動でリセットしなくても解消されることがあります。解消されない場合は、ネットワークのハードウェアを確認します。アダプタのハードウェアとドライバが正しくインストールされ、ネットワークのルータおよびスイッチと連携するように設定されていることを確認します。

原因となっている問題を解決したら、カウンタをリセットします。[Grid] > [site] > [grid node] > [SSM] > [Resources] > [Configuration] > [Main]に移動し、[Reset Transmit Error Count]を選択して、[Apply Changes]をクリックします。

NTFQ NTP Frequency Offset SSM

周波数オフセットが設定されたしきい値を超えている場合は、ハードウェアのローカル クロックに問題がある可能性があります。問題が引き続き発生する場合は、テクニカル サポートに連絡して交換を手配してください。

NTLK NTP Lock SSM

NTPデーモンが特定の外部時間ソースに固定されていない場合は、目的の外部時間ソースへのネットワーク接続とそれらの可用性および安定性を確認します。

NTLR Repair Completion Status DDS Cassandraに対するnodetool repairタスクが停止すると、潜在的なデータベースの不整合を確認および修復する正常なバックグラウンド プロセスが完了できず、1時間おきに再試行されます。

Cassandraのログ(/var/local/log/cassandra/system.log)でエラーを確認し、見つかった問題を修正します。たとえば、ネットワークの問題が原因でストレージ ノードが隔離されている可能性があります。

nodetool repairの完了を妨げる問題を特定または解決できない場合は、テクニカル サポートにお問い合わせください。

NTOF NTP Time Offset SSM

時間オフセットが設定されたしきい値を超えている場合は、ハードウェアのローカル クロックのオシレーターに問題がある可能性があります。問題が引き続き発生する場合は、テクニカル サポートに連絡して交換を手配してください。

NTSA NTP Sources Available SSM

StorageGRID WebscaleシステムのプライマリNTPサーバとして動作するように設定されたサーバの場合、この属性で使用可能な外部NTP時間ソースの数が追跡されます。使用可能な外部時間ソースが多数存在する場合は数値が変動しますが、これは通常の動作であり問題ありません。

セカンダリNTPタイム サーバまたはNTPクライアントとして動作するように設定されたサーバの場合は、別のサーバをNTP時間ソースとして使用します。StorageGRID WebscaleシステムのNTP設定の詳細については、環境に応じたソリューション設計ドキュメントを参照してください。

使用可能なNTP時間ソースの数が設定された最小数を下回ると、サーバのローカル時間の正確性や一貫性が低下する可能性があります。NTP時間ソースの数が0になると、ローカル サーバ時間が他のサービスで記録される時間と同期されなくなります。最悪の場合、これによってシステムの運用が停止することもあります。この問題はできるだけ早く修正してください。

NTSD Chosen Time Source Delay SSM

これらの値は、ローカル サーバのNTPが参照している時間ソースの信頼性と安定性を示します。

アラームがトリガーされた場合は、時間ソースのオシレーターが故障しているか、時間ソースへのWANリンクに問題がある可能性があります。

NTSJ Chosen Time Source Jitter
NTSO Chosen Time Source Offset
NTSU NTP Status SSM

「NTP Status」の値が「Not Running」の場合は、テクニカル サポートに連絡してください。

OCOR Corrupt Objects Detected LDR

最後に実行されたバックグラウンド検証プロセスでストレージ ノードから検出された、レプリケートされたオブジェクトの破損の総数です。破損オブジェクトがある場合は調査する必要があります。この数が10個を超える場合、大きな問題が発生している可能性があります。

この値は永続的であり、破損したオブジェクトがリストアされても更新されないことに注意してください。

破損したオブジェクトが検出された場合は、「Verification Priority」を「High」に変更します。これにより、検証を迅速に実行して問題の重大度を特定できます。[Grid] > [site] > [grid node] > [LDR] > [Verification] > [Configuration] > [Main]に移動し、[Verification Priority] > [High]を選択して、[Apply Changes]をクリックします。

原因となっている問題を解決したら、カウンタをリセットしてアラームを解除します。[Grid] > [site] > [grid node] > [LDR] > [Verification] > [Configuration] > [Main]に移動し、[Reset Corrupt Objects Count]を選択して、[Apply Changes]をクリックします。

OPST Overall Power Status SSM

StorageGRID Webscaleアプライアンスのエンクロージャの電源が推奨される動作電圧と大きく異なる場合にアラームがトリガーされます。

電源装置AとBのステータスを調べ、どちらの電源装置に異常があるかを確認します。

必要に応じて、電源装置を交換します。

OQRT Objects Quarantined LDR

StorageGRID Webscaleシステムでオブジェクトが自動的にリストアされたあと、隔離されたオブジェクトを隔離ディレクトリから手動で削除する必要があります。テクニカル サポートにお問い合わせください。

隔離されたオブジェクトを削除すると、OQRTの値が更新されてアラームが解除されます。

ORSU Outbound Replication Status BLDR、BARC

アウトバウンド レプリケーションを実行できず、ストレージからオブジェクトを読み出せない状態になっていることを示します。アウトバウンド レプリケーションが手動で無効にされた場合にアラームがトリガーされます。[Grid] > [site] > [grid node] > [LDR] > [Replication] > [Configuration]を確認します。

LDRサービスでレプリケーションを実行できない場合にもアラームがトリガーされます。この場合は、[Grid] > [site] > [grid node] > [LDR] > [Storage]を確認します。

PMEM Service Memory Usage (Percent) BADC、BAMS、BARC、BCLB、BCMN、BCMS、BLDR、BNMS、BSSM、BDDS

「Over Y% RAM」の形式で、サーバで使用されているメモリの割合が示されます。

80%未満であれば問題ありません。90%を超える場合は問題がある可能性があります。

1つのサービスのメモリ使用率が高い場合は、状況を監視して調査します。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

PSAS Power Supply A Status SSM

StorageGRID Webscaleアプライアンスの電源装置Aが推奨される動作電圧と大きく異なる場合にアラームがトリガーされます。

必要に応じて、電源装置Aを交換します。

PSBS Power Supply B Status SSM

StorageGRID Webscaleアプライアンスの電源装置Bが推奨される動作電圧と大きく異なる場合にアラームがトリガーされます。

必要に応じて、電源装置Bを交換します。

RDTE Tivoli Storage Manager State BARC

ターゲット タイプが「Tivoli Storage Manager (TSM)」のアーカイブ ノードにのみ適用されます。

「Tivoli Storage Manager State」の値が「Offline」の場合は、「Tivoli Storage Manager Status」を確認して問題を解決します。

コンポーネントをオンラインに戻します。[Grid] > [site] > [grid node] > [ARC] > [Target] > [Configuration] > [Main]に移動し、[Tivoli Storage Manager State] > [Online]を選択して、[Apply Changes]をクリックします。

RDTU Tivoli Storage Manager Status BARC

ターゲット タイプが「Tivoli Storage Manager (TSM)」のアーカイブ ノードにのみ適用されます。

「Tivoli Storage Manager Status」の値が「Configuration Error」で、アーカイブ ノードをStorageGRID Webscaleシステムに追加したばかりの場合は、TSMミドルウェア サーバが正しく設定されていることを確認します。

「Tivoli Storage Manager Status」の値が「Connection Failure」または「Connection Failure, Retrying」の場合は、TSMミドルウェア サーバのネットワーク設定、およびTSMミドルウェア サーバとStorageGRID Webscaleシステムの間のネットワーク接続を確認します。

「Tivoli Storage Manager Status」の値が「Authentication Failure」または「Authentication Failure, Reconnecting」の場合は、StorageGRID WebscaleシステムからTSMミドルウェア サーバに接続は可能ですが、接続を認証できません。TSMミドルウェア サーバでユーザ、パスワード、および権限が正しく設定されていることを確認し、サービスを再起動します。

「Tivoli Storage Manager Status」の値が「Session Failure」の場合は、確立されたセッションが予期せずに切断されています。TSMミドルウェア サーバとStorageGRID Webscaleシステムの間のネットワーク接続を確認します。ミドルウェア サーバにエラーがないかを確認します。

「Tivoli Storage Manager Status」の値が「Unknown Error」の場合は、テクニカル サポートに連絡してください。

RIRF Inbound Replications – Failed BLDR、BARC

レプリケーションのアラーム(Inbound Replications – Failed RIRFおよびOutbound Replications – Failed RORF)は、負荷が高いときやネットワークが一時的に停止しているときに発生することがあります。これらのアラームは、システム アクティビティが減ると解除されます。レプリケーションの失敗回数が増え続ける場合は、ネットワークに問題がないかを調べ、ソースとデスティネーションのLDRサービスおよびARCサービスがオンラインで使用可能な状態になっていることを確認します。

カウントをリセットするには、[ARC]または[Grid] > [site] > [grid node] > [LDR] > [Replication] > [Configuration] > [Main]に移動し、[Reset Inbound Replication Failure Count]を選択して、[Apply Changes]をクリックします。

RIRQ Inbound Replications – Queued BLDR、BARC

負荷が高いときやネットワークが一時的に停止しているときにアラームが発生することがあります。このアラームは、システム アクティビティが減ると解除されます。レプリケーションのキューが増え続ける場合は、ネットワークに問題がないかを調べ、ソースとデスティネーションのLDRサービスおよびARCサービスがオンラインで使用可能な状態になっていることを確認します。

RORF Outbound Replications – Failed BLDR、BARC

Noticeアラームのしきい値は10オブジェクトで、オブジェクト数が50を超えるとMinorアラームがトリガーされます。

レプリケーションのアラーム(Inbound Replications – Failed(RIRF)およびOutbound Replications – Failed(RORF))は、負荷が高いときやネットワークが一時的に停止しているときに発生することがあります。これらのアラームは、システム アクティビティが減ると解除されます。レプリケーションの失敗回数が増え続ける場合は、ネットワークに問題がないかを調べ、ソースとデスティネーションのLDRサービスおよびARCサービスがオンラインで使用可能な状態になっていることを確認します。

カウントをリセットするには、[ARC]または[Grid] > [site] > [grid node] > [LDR] > [Replication] > [Configuration] > [Main]に移動し、[Reset Outbound Replication Failure Count]を選択して、[Apply Changes]をクリックします。

RORQ Outbound Replications – Queued BLDR、BARC

アウトバウンド レプリケーションのキューには、ILMルールを満たすためにコピーされるオブジェクト データと、クライアントから要求されたオブジェクトが含まれます。

システムが過負荷状態になるとアラームが発生することがあります。このアラームはシステム アクティビティが減ると解除されるため、しばらく状況を監視します。アラームが繰り返し発生する場合は、ストレージ ノードを追加して容量を増やします。

SAVP Total Usable Space (Percent) LDR

使用可能なスペースがしきい値の下限に達した場合は、StorageGRID Webscaleシステムを拡張するか、オブジェクト データをアーカイブ ノード経由でアーカイブに移動します。

SCAS Status CMN

アクティブなグリッド タスクの「Status」の値が「Error」の場合は、[Grid] > [site] > [grid node] > [CMN] > [Grid Tasks] > [Overview] > [Main]でグリッド タスクのメッセージを検索します。グリッド タスクのメッセージに、エラーに関する情報が表示されます(例:「check failed on node 12130011」)。問題の調査と修正が完了したら、グリッド タスクを再起動します。[Grid] > [site] > [grid node] > [CMN] > [Grid Tasks] > [Configuration] > [Main]に移動し、[Actions] > [Run]を選択します。

中止しているグリッド タスクの「Status」値が「Error」の場合は、グリッド タスクの中止を再試行します。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

SCHR Status CMN

過去のグリッド タスクの「Status」の値が「Aborted」の場合は、原因を調べ、必要に応じてもう一度タスクを実行します。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

SHLH Health LDR

オブジェクト ストアの「Health」の値が「Error」の場合は、以下を確認して修正します。

  • マウントされているボリュームの問題
  • ファイルシステムのエラー
SLSA CPU Load Average SSM

この値は、システムがビジーなときほど高くなります。

「CPU Load Average」の値が高いまま推移している場合は、システムのトランザクション数を調べ、一時的な負荷の増加によるものかどうかを確認する必要があります。平均CPU負荷のグラフを確認します([Grid] > [site] > [grid node] > [CMS] > [Resources] > [Reports] > [Charts])。

システムの負荷が高くない状況でも問題が解決しない場合は、テクニカル サポートに連絡してください。

注:RHELを使用し、単一のホストで複数のコンテナを実行している場合は、ホストの使用状況がより正確に反映されるようにCPU Load Averageアラームのトリガー値を変更することもできます。CPU Load Averageのトリガー値の変更を参照してください。
SMST Log Monitor State SSM

「Log Monitor State」の値が「Connected」にならない状態が続く場合は、テクニカル サポートに連絡してください。

SMTT Total Events SSM

「Total Events」の値が0より大きい場合は、原因となる既知のイベント(ネットワーク障害など)がないかを確認します。それらのエラーが解消されていない(カウントが0にリセットされていない)と、Total Eventsアラームがトリガーされることがあります。

問題を解決したら、カウンタをリセットしてアラームを解除します。[Grid] > [site] > [grid node] > [SSM] > [Events] > [Configuration] > [Main]に移動し、イベントを選択して、[Apply Changes]をクリックします。

「Total Events」の値が0の場合や数が増えて問題が解決しない場合は、テクニカル サポートに連絡してください。

SNST Status CMN

グリッド タスク バンドルの格納に問題があることを示します。「Status」の値が「Checkpoint Error」または「Quorum Not Reached」の場合は、半数を超えるADCサービスがStorageGRID Webscaleシステムに接続されていることを確認し、そのまま数分待ちます。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

SOSS Storage Operating System Status SSM

StorageGRID WebscaleアプライアンスのコンポーネントであるE2700コントローラについて、SANtricityソフトウェアから「Needs attention」の問題が報告された場合にアラームがトリガーされます。

[Grid] > [site] > [grid node] > [SSM] > [Resources] > [Overview]ページに移動し、電源装置のステータスを確認します。SANtricityソフトウェアで、アプライアンスの他のコンポーネントを調べて問題を特定します。

SSMA SSM Status SSM

「SSM Status」の値が「Error」の場合は、[Grid] > [site] > [grid node] > [SSM] > [Overview] > [Main]ページおよび[SSM] > [Overview] > [Alarms]ページを確認してアラームの原因を特定します。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

SSME SSM State SSM

「SSM State」の値が「Standby」の場合は、しばらく状況を監視し、問題が解決しなければテクニカル サポートに連絡します。

「SSM State」の値が「Offline」の場合は、サービスを再起動します。問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

SSTS Storage Status BLDR

「Storage Status」の値が「Insufficient Usable Space」の場合は、ストレージ ノードの使用可能なストレージがなくなり、データの取り込みが他の使用可能なストレージ ノードにリダイレクトされています。このグリッド ノードからの読み出し要求は引き続き可能です。

ストレージを追加する必要があります。エンド ユーザの作業には影響しませんが、ストレージを追加しないかぎりアラームは解除されません。

「Storage Status」の値が「Volume(s) Unavailable」の場合は、ストレージの一部が使用できない状態になっています。それらのボリュームでは格納も読み出しも実行できません。詳細については、ボリュームの「Health」を確認してください([Grid] > [site] > [grid node] > [LDR] > [Storage] > [Overview] > [Main]の「Object Stores」を参照)。

「Storage Status」の値が「Error」の場合は、テクニカル サポートに連絡してください。

SVST Status SSM

このアラームは、サービスの実行の問題に関する他のアラームが解決されると解除されます。ソース側のサービスのアラームを追跡してリストアします。

[Grid] > [site] > [grid node] > [SSM] > [Services] > [Overview] > [Main]の「Services」で、サービスの「Status」が「Not Running」と表示されるのは、状態が「Administratively Down」のときです。サービスの「Status」が「Not Running」と表示される状況は次のとおりです。
  • サービスが手動で停止された(/etc/init.d/<service> stop)。
  • MySQLデータベースに問題があり、サーバ マネージャによってMIサービスがシャットダウンされた。
  • グリッド ノードが追加されたが起動されていない。
  • インストール時にグリッド ノードが管理ノードに接続されていなかった。

サービスが「Not Running」と表示される場合は、サービスを再起動します(/etc/init.d/<service> restart)。

このアラームは、ストレージ ノードに対するDDSサービスの分散キー バリュー型データストア(Cassandraデータベース)のリビルドが必要なことを示している可能性もあります。詳細については、SVST(Services: Status - Cassandra)アラームのトラブルシューティングを参照してください。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

TMEM Installed Memory SSM

ノードの搭載メモリが24GiB未満の場合、パフォーマンスの問題が発生し、システムが不安定になることがあります。システムの搭載メモリを24GiB以上に増やす必要があります。

TPOP Pending Operations ADC

メッセージのキューが形成されている場合、ADCサービスが過負荷状態であることを示している可能性があります。StorageGRID Webscaleシステムに接続されているADCサービスの数が少なすぎることが考えられます。大規模な環境では、ADCサービスのコンピューティング リソースを増やすか、システムにADCサービスを追加することが必要になる可能性があります。

UMEM Available Memory SSM

使用可能なRAMが少なくなった場合は、ハードウェアやソフトウェアの問題でないかを確認します。ハードウェアの問題でない場合や使用可能なメモリが50MB(デフォルトのアラームのしきい値)を下回った場合は、テクニカル サポートに連絡してください。

VMFI Entries Available SSM

追加のストレージが必要なことを示しています。テクニカル サポートにお問い合わせください。

VMFR Space Available SSM

「Space Available」の値が低すぎる(アラームのしきい値を参照)場合は、大きくなりすぎたログ ファイルや大量のディスク スペースを消費しているオブジェクト(アラームのしきい値を参照)がないかどうかを調べ、必要に応じてそれらを減らすか削除します。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。

VMST Status SSM

マウントされたボリュームの「Status」の値が「Unknown」の場合にアラームがトリガーされます。値が「Unknown」または「Offline」の場合、ボリュームの基盤となるストレージ デバイスの問題が原因でマウントまたはアクセスできないことを示している可能性があります。

VPRI Verification Priority BLDR、BARC

「Verification Priority」のデフォルトの値は「Adaptive」です。「Verification Priority」が「High」に設定されている場合、ストレージの検証が優先されてサービスの通常の運用に影響する可能性があるため、アラームがトリガーされます。

VSTU Object Verification Status BLDR、BARC

[Grid] > [site] > [grid node] > [LDR] > [Storage] > [Overview] > [Main]で、他の問題がないかを調べます。

「Object Verification Status」の値が「Verify Location Synchronize Failed」の場合は、LDRサービスが少なくとも1つのCMSサービスに接続されていることを確認します。

また、オペレーティング システムで、ブロック デバイスやファイルシステムのエラーの兆候がないかどうかを確認します。

「Object Verification Status」の値が「Maximum Number of Failures Reached」の場合は、通常、下位レベルのファイルシステムやハードウェアの問題(I/Oエラー)が原因で、ストレージ検証タスクが格納されているコンテンツにアクセスできないことを示しています。このアラームは、データが無効であることを示すコンテンツ エラーの数が多い場合にも発生する可能性があります。

「Object Verification Status」の値が「Unknown Error」の場合は、テクニカル サポートに連絡してください。

XAMS Unreachable Audit Repositories BADC、BARC、BCLB、BCMN、BCMS、BLDR、BNMS

管理ノードをホストするサーバへのネットワーク接続を確認します。

問題が引き続き発生する場合は、テクニカル サポートに連絡してください。