StorageGRID システムのトラブルシューティングを行う
StorageGRID システムの使用中に問題が発生した場合は、このセクションのヒントとガイドラインを参考に、問題 を特定し、解決してください。
多くの場合、問題は自分で解決できますが、一部の問題をテクニカルサポートにエスカレーションする必要があります。
問題を定義します
問題を解決するための最初のステップは、問題を明確に定義することです。
次の表に、問題を定義するために収集する情報の種類の例を示します。
質問 | 応答例 |
---|---|
StorageGRID システムはどのような状況にあり、どのような症状があるか? |
オブジェクトをStorageGRID に取り込めないことがクライアントアプリケーションから報告されている。 |
問題はいつ発生しましたか? |
2020年1月8日14:50頃にオブジェクトの取り込みが最初に拒否されました。 |
最初にどのようにして問題に気付いたか。 |
クライアントアプリケーションから通知される。アラートの E メール通知も受け取った。 |
問題は一貫して発生しますか、または時々発生しますか? |
問題は現在も続いています。 |
問題が定期的に発生する場合は、原因 を実行する手順を確認してください |
問題は、クライアントがオブジェクトの取り込みを試みるたびに発生します。 |
問題が断続的に発生する場合は、いつ発生しますか?各インシデントの発生時刻を記録します。 |
問題は間欠的ではありません。 |
この問題を以前に見たことがありますか?過去にこの問題が発生した頻度はどのくらいですか? |
この問題 を初めて見たときです。 |
システムに対するリスクと影響を評価
問題を定義したら、 StorageGRID システムに対するリスクと影響を評価します。たとえば、クリティカルなアラートがあるからといって、システムがコアサービスを提供していないわけではありません。
次の表は、前述の問題の例について、システムの運用に対する影響をまとめたものです。
質問 | 応答例 |
---|---|
StorageGRID システムでコンテンツを取り込むことはできますか。 |
いいえ。 |
クライアントアプリケーションでコンテンツを読み出せるかどうか |
読み出すことができるオブジェクトと読み出すことができないオブジェクトがあります。 |
データがリスクにさらされているかどうか |
いいえ。 |
業務を遂行する能力に重大な影響はありますか。 |
はい。クライアントアプリケーションからStorageGRID システムにオブジェクトを格納できず、データを一貫して読み出すことができないためです。 |
データを収集
問題を定義し、リスクと影響を評価したら、分析のためにデータを収集します。収集に最も役立つデータの種類は、問題の内容によって異なります。
収集するデータのタイプ | データを収集する理由 | 手順 |
---|---|---|
最近の変更のタイムラインを作成します |
StorageGRID システム、その設定、または環境を変更すると、原因 の新しい動作を開始できます。 |
|
アラートの確認 |
アラートは、原因となっている可能性のある根本的な問題に関する重要な手がかりを提供することで、問題の根本原因を迅速に特定するのに役立ちます。 現在のアラートのリストを確認して、StorageGRIDが問題の根本原因を特定したかどうかを確認します。 過去にトリガーされたアラートを確認して、詳細な分析情報を確認します。 |
|
イベントを監視する |
イベントには、ノードのシステムエラーまたは障害イベント、ネットワークエラーなどのエラーが含まれます。イベントを監視して、問題の詳細やトラブルシューティングに役立てることができます。 |
|
グラフとテキストレポートを使用して傾向を特定します |
傾向は、問題が発生したときに役立つヒントを提供し、変化の速さを把握するのに役立ちます。 |
|
ベースラインを設定する |
さまざまな運用値の通常レベルに関する情報を収集します。これらのベースライン値とこれらのベースラインからの偏差は、貴重な手がかりとなります。 |
|
取り込みと読み出しのテストを実行する |
取り込みと読み出しに関するパフォーマンスの問題のトラブルシューティングを行うには、ワークステーションを使用してオブジェクトの格納と読み出しを行います。クライアントアプリケーションを使用して確認した結果と比較します。 |
|
監査メッセージを確認します |
StorageGRID の処理の詳細については、監査メッセージを確認してください。監査メッセージの詳細は、パフォーマンスの問題など、さまざまな種類の問題のトラブルシューティングに役立ちます。 |
|
オブジェクトの場所とストレージの整合性をチェックする |
ストレージに問題がある場合は、オブジェクトが想定どおりに配置されていることを確認します。ストレージノード上のオブジェクトデータの整合性をチェックします。 |
|
テクニカルサポートに使用するデータを収集します |
テクニカルサポートに問い合わせた際に、問題のトラブルシューティングに役立つデータの収集や特定の情報の確認を求められることがあります。 |
最近の変更のタイムラインを作成します
問題が発生した場合は、最近の変更内容と、その変更がいつ行われたかを検討する必要があります。
-
StorageGRID システム、その設定、または環境を変更すると、原因 の新しい動作を開始できます。
-
変更のスケジュールを確認することで、問題 の担当となる変更を特定し、各変更がその開発にどのような影響を及ぼすかを特定できます。
システムに最近行われた変更の表を作成します。この表には、各変更がいつ行われたかに関する情報と、変更の進行中に他に何が行われたかに関する関連情報が含まれます。
変更時刻 | 変更のタイプ | 詳細 |
---|---|---|
例:
|
どうしましたか?何をしましたか? |
変更に関連する詳細を文書化します。例:
同時に複数の変更が発生した場合は注意してください。たとえば、アップグレードの実行中にこの変更が行われたかどうかを確認します。 |
最近の重要な変更の例
重要な変更の例をいくつか示します。
-
StorageGRID システムのインストール、拡張、リカバリを最近行ったかどうか
-
システムは最近アップグレードされましたか?ホットフィックスが適用されましたか?
-
ハードウェアの修理や交換を最近行ったかどうか
-
ILM ポリシーは更新されているか。
-
クライアントのワークロードは変化しましたか。
-
クライアントアプリケーションまたはその動作に変化はありますか。
-
ロードバランサを変更したか、管理ノードまたはゲートウェイノードのハイアベイラビリティグループを追加または削除したか。
-
開始されたタスクのうち、完了までに時間がかかるものはありますか?たとえば、次のようなもの
-
障害が発生したストレージノードのリカバリ
-
ストレージノードの運用停止
-
-
テナントの追加や LDAP 設定の変更など、ユーザ認証に変更がないかどうか
-
データ移行を実行中かどうか
-
プラットフォームサービスが最近有効化または変更されましたか?
-
最近、コンプライアンスを有効にしましたか?
-
クラウドストレージプールは追加または削除されていますか?
-
ストレージの圧縮や暗号化に変更がないかどうか
-
ネットワークインフラに変更はありますか。たとえば、 VLAN 、ルータ、 DNS などです。
-
NTP ソースに変更がないかどうか
-
グリッド、管理、クライアントの各ネットワークインターフェイスに変更がないかどうか
-
StorageGRID システムや環境にその他の変更がないかどうか
ベースラインを設定する
さまざまな運用値の通常レベルを記録することで、システムのベースラインを設定できます。将来的には、現在の値をこれらのベースラインと比較して、異常な値を検出して解決することができます。
プロパティ | 値 | 取得方法 |
---|---|---|
ストレージの平均消費量 |
1 日あたりの GB 消費量 1 日あたりの消費率 |
Grid Manager に移動します。ノードページで、グリッド全体またはサイトを選択し、ストレージタブに移動します。 Storage Used - Object Data チャートで、この線がかなり安定している期間を探します。グラフにカーソルを合わせて、各日のストレージ消費量を見積もります この情報は、システム全体または特定のデータセンターについて収集できます。 |
メタデータの平均消費量 |
1 日あたりの GB 消費量 1 日あたりの消費率 |
Grid Manager に移動します。ノードページで、グリッド全体またはサイトを選択し、ストレージタブに移動します。 Storage Used - Object Metadata チャートで、この線がかなり安定している期間を探します。グラフにカーソルを合わせて、各日のメタデータストレージ消費量を見積もります この情報は、システム全体または特定のデータセンターについて収集できます。 |
S3 / Swift 処理のレート |
処理数 / 秒 |
Grid Managerダッシュボードで、[パフォーマンス]>* S3処理]または[パフォーマンス]> Swift処理*を選択します。 特定のサイトまたはノードの取り込み速度と読み出し速度、および数を表示するには、 * nodes * > * site または Storage Node* > * Objects * を選択します。S3の[Ingest and Retrieve]グラフにカーソルを合わせます。 |
失敗した S3 / Swift 処理 |
運用 |
サポート * > * ツール * > * グリッドトポロジ * を選択します。API Operations セクションの Overview タブで、 S3 Operations - Failed または Swift Operations - Failed の値を確認します。 |
ILM 評価の速度 |
オブジェクト数 / 秒 |
ノードページで、 * GRID_NETWORK* > * ILM * を選択します。 ILM キューグラフで、この線がかなり安定している期間を探します。グラフにカーソルを合わせて、システムの*評価レート*のベースライン値を推定します。 |
ILM のスキャン速度 |
オブジェクト数 / 秒 |
ノード * > * GRID_NETWORK* > * ILM * を選択します。 ILM キューグラフで、この線がかなり安定している期間を探します。グラフにカーソルを合わせて、システムの*スキャン速度*のベースライン値を推定します。 |
クライアント処理からキューに登録されたオブジェクト |
オブジェクト数 / 秒 |
ノード * > * GRID_NETWORK* > * ILM * を選択します。 ILM キューグラフで、この線がかなり安定している期間を探します。グラフにカーソルを合わせて、システムの* Objects queued(クライアント処理からの)*のベースライン値を推定します。 |
クエリの平均レイテンシ |
表示されます |
ノード * > * _ ストレージノード _ * > * オブジェクト * を選択します。クエリテーブルで、平均レイテンシの値を確認します。 |
データを分析する
収集した情報を使用して、問題の原因 と潜在的な解決策を特定します。
分析方法は問題の内容によって異なりますが、一般的には次の手順に従ってください。
-
アラートを使用して、障害ポイントやボトルネックを特定します。
-
アラートの履歴とチャートを使用して、問題の履歴を再構築します。
-
チャートを使用して異常を特定し、問題の状況を通常の動作と比較します。
エスカレーション情報のチェックリスト
自分で問題を解決できない場合は、テクニカルサポートにお問い合わせください。テクニカルサポートに連絡する前に、次の表に記載された問題解決に必要な情報を収集してください。
項目 | 脚注 | |
---|---|---|
問題点 |
問題の症状は何ですか?問題はいつ発生しましたか?一貫して、または断続的に発生しますか?断続的に発生した場合、何回起きましたか? |
|
影響の評価 |
問題の重大度はどの程度ですか。クライアントアプリケーションにはどのような影響がありますか?
|
|
StorageGRID システム ID |
[* maintenance * (メンテナンス * ) ] > [* System * (システム * ) ] > [* License * (ライセンス *StorageGRID システム ID は現在のライセンスの一部として表示されます。 |
|
ソフトウェアバージョン |
グリッドマネージャの上部から、ヘルプアイコンを選択し、 * バージョン情報 * を選択して StorageGRID のバージョンを確認します。 |
|
カスタマイズ |
StorageGRID システムの構成をまとめます。たとえば、次のように指定します。
|
|
ログファイルとシステムデータ |
システムのログファイルとシステムデータを収集します。[ * support * > * Tools * > * Logs * ] を選択します。 ログは、グリッド全体または選択したノードについて収集できます。 選択したノードのログのみを収集する場合は、 ADC サービスがあるストレージノードを 1 つ以上含めるようにしてください。(サイトの最初の 3 つのストレージノードに ADC サービスが含まれています)。 |
|
ベースライン情報 |
取り込み処理、読み出し処理、およびストレージ消費量に関するベースライン情報を収集します。 |
|
最近の変更のタイムライン |
システムや環境に対する最近の変更をまとめたタイムラインを作成 |
|
問題 を診断するための取り組みの歴史 |
問題 の診断またはトラブルシューティングの手順を自分で実行した場合は、実行した手順と結果を記録しておいてください。 |