StorageGRIDシステムのトラブルシューティング
StorageGRIDシステムの使用中に問題が発生した場合は、このセクションのヒントとガイドラインを参照して、問題を特定し解決してください。
多くの場合、問題は自分で解決できますが、一部の問題はテクニカル サポートにエスカレーションする必要がある場合もあります。
問題を定義する
問題を解決するための第一歩は、問題を明確に定義することです。
この表は、問題を定義するために収集する可能性のある情報の種類の例を示しています。
質問 | 回答例 |
---|---|
StorageGRIDシステムは何を実行し、何を実行しないのでしょうか? その症状は何ですか? |
クライアント アプリケーションは、オブジェクトをStorageGRIDに取り込むことができないと報告しています。 |
問題はいつ始まったのですか? |
オブジェクトの取り込みは、2020 年 1 月 8 日の 14:50 頃に初めて拒否されました。 |
最初に問題に気づいたのは何ですか? |
クライアント アプリケーションから通知されました。アラートメール通知も受信しました。 |
問題は継続的に発生しますか、それとも時々だけ発生しますか? |
問題は継続中です。 |
問題が定期的に発生する場合、どのような手順で発生するか |
クライアントがオブジェクトを取り込もうとするたびに問題が発生します。 |
問題が断続的に発生する場合、いつ発生しますか? 把握している各インシデントの時間を記録します。 |
問題は断続的に発生するものではありません。 |
これまでにこの問題を見たことがありますか? 過去にこの問題がどのくらいの頻度で発生しましたか? |
この問題を見るのは今回が初めてです。 |
システムへのリスクと影響を評価する
問題を定義したら、 StorageGRIDシステムに対するリスクと影響を評価します。たとえば、重大なアラートが発生しているからといって、必ずしもシステムがコア サービスを提供していないということではありません。
この表は、例の問題がシステム運用に与える影響をまとめたものです。
質問 | 回答例 |
---|---|
StorageGRIDシステムはコンテンツを取り込むことができますか? |
デスティネーション |
クライアント アプリケーションはコンテンツを取得できますか? |
一部のオブジェクトは取得できますが、他のオブジェクトは取得できません。 |
データは危険にさらされていますか? |
デスティネーション |
業務遂行能力に重大な影響がありますか? |
はい。クライアント アプリケーションはオブジェクトをStorageGRIDシステムに保存できず、データを一貫して取得できないためです。 |
データを収集する
問題を定義し、そのリスクと影響を評価した後、分析用のデータを収集します。収集するのに最も役立つデータの種類は、問題の性質によって異なります。
収集するデータの種類 | なぜこのデータを収集するのか | 手順 |
---|---|---|
最近の変更のタイムラインを作成する |
StorageGRIDシステム、その構成、またはその環境に変更を加えると、新しい動作が発生する可能性があります。 |
|
アラートを確認する |
アラートは、問題の原因となっている可能性のある根本的な問題に関する重要な手がかりを提供することで、問題の根本原因を迅速に特定するのに役立ちます。 現在のアラートのリストを確認し、 StorageGRID が問題の根本原因を特定したかどうかを確認します。 追加の分析情報を得るには、過去にトリガーされたアラートを確認します。 |
|
イベントを監視する |
イベントには、ネットワーク エラーなどのエラーを含む、ノードのシステム エラーや障害イベントが含まれます。問題の詳細を把握したり、トラブルシューティングに役立てるためにイベントを監視します。 |
|
グラフやテキストレポートを使用して傾向を特定する |
傾向は、問題が最初に発生した時期に関する貴重な手がかりを提供し、物事がどれだけ速く変化しているかを理解するのに役立ちます。 |
|
ベースラインを確立する |
さまざまな動作値の正常レベルに関する情報を収集します。これらのベースライン値と、これらのベースラインからの逸脱は、貴重な手がかりを提供します。 |
|
取り込みと取得のテストを実行する |
取り込みと取得に関するパフォーマンスの問題をトラブルシューティングするには、ワークステーションを使用してオブジェクトを保存および取得します。結果を、クライアント アプリケーションを使用したときに表示される結果と比較します。 |
|
監査メッセージを確認する |
監査メッセージを確認して、 StorageGRID の操作を詳細に追跡します。監査メッセージの詳細は、パフォーマンスの問題を含むさまざまな種類の問題のトラブルシューティングに役立ちます。 |
|
オブジェクトの場所とストレージの整合性を確認する |
ストレージに問題がある場合は、オブジェクトが期待どおりの場所に配置されていることを確認してください。ストレージ ノード上のオブジェクト データの整合性を確認します。 |
|
技術サポートのためのデータを収集する |
テクニカル サポートでは、問題のトラブルシューティングに役立つように、データの収集や特定の情報の確認を依頼する場合があります。 |
最近の変更のタイムラインを作成する
問題が発生した場合は、最近何が変わったのか、その変化がいつ起こったのかを検討する必要があります。
-
StorageGRIDシステム、その構成、またはその環境に変更を加えると、新しい動作が発生する可能性があります。
-
変更のタイムラインは、どの変更が問題の原因となっている可能性があるか、また各変更が問題の進行にどのように影響したかを特定するのに役立ちます。
システムへの最近の変更の表を作成します。この表には、各変更がいつ発生したか、変更に関する関連詳細、変更の進行中に他に何が起こっていたかなどの情報が含まれます。
変化の時 | 変更の種類 | 詳細 |
---|---|---|
例えば:
|
どうしたの?あなたは何をしましたか? |
変更に関する関連する詳細を文書化します。例えば:
複数の変更が同時に発生していた場合は必ず注意してください。たとえば、この変更はアップグレードの進行中に行われましたか? |
最近の重要な変化の例
潜在的に重要な変更の例をいくつか示します。
-
StorageGRIDシステムは最近インストール、拡張、または回復されましたか?
-
最近システムはアップグレードされましたか? 修正プログラムは適用されましたか?
-
最近、ハードウェアが修理または変更されましたか?
-
ILM ポリシーは更新されましたか?
-
クライアントのワークロードは変化しましたか?
-
クライアント アプリケーションまたはその動作は変更されましたか?
-
ロード バランサーを変更しましたか? あるいは、管理ノードまたはゲートウェイ ノードの高可用性グループを追加または削除しましたか?
-
完了までに長い時間がかかる可能性があるタスクは開始されていますか? 例:
-
障害が発生したストレージノードの復旧
-
ストレージノードの廃止
-
-
テナントの追加や LDAP 構成の変更など、ユーザー認証に変更が加えられましたか?
-
データの移行は行われていますか?
-
プラットフォーム サービスは最近有効化または変更されましたか?
-
最近コンプライアンスが有効になりましたか?
-
クラウド ストレージ プールは追加または削除されましたか?
-
ストレージの圧縮や暗号化に変更はありましたか?
-
ネットワーク インフラストラクチャに何か変更はありましたか? たとえば、VLAN、ルーター、DNS などです。
-
NTP ソースに変更はありましたか?
-
グリッド、管理、またはクライアント ネットワーク インターフェイスに変更は加えられましたか?
-
StorageGRIDシステムまたはその環境に他に何か変更はありましたか?
ベースラインを確立する
さまざまな動作値の通常レベルを記録することで、システムのベースラインを確立できます。将来的には、現在の値とこれらのベースラインを比較して、異常な値を検出し解決することができます。
プロパティ | Value | 入手方法 |
---|---|---|
平均ストレージ消費量 |
1日あたりの消費GB数 1日あたりの消費量の割合 |
グリッド マネージャーに移動します。 [ノード] ページで、グリッド全体またはサイトを選択し、[ストレージ] タブに移動します。 「使用済みストレージ - オブジェクト データ」グラフで、線がかなり安定している期間を見つけます。チャートの上にカーソルを置くと、1日あたりに消費されるストレージの量を推定できます。 この情報は、システム全体または特定のデータセンターについて収集できます。 |
平均メタデータ消費量 |
1日あたりの消費GB数 1日あたりの消費量の割合 |
グリッド マネージャーに移動します。 [ノード] ページで、グリッド全体またはサイトを選択し、[ストレージ] タブに移動します。 使用済みストレージ - オブジェクト メタデータ グラフで、線がかなり安定している期間を見つけます。グラフの上にカーソルを置くと、メタデータストレージが毎日どれだけ消費されているかを推定できます。 この情報は、システム全体または特定のデータセンターについて収集できます。 |
S3/Swift 操作のレート |
操作数/秒 |
グリッド マネージャー ダッシュボードで、パフォーマンス > S3 操作 または パフォーマンス > Swift 操作 を選択します。 特定のサイトまたはノードの取り込みおよび取得レートと数を確認するには、[ノード] > [サイトまたはストレージ ノード] > [オブジェクト] を選択します。 S3 の取り込みと取得チャートの上にカーソルを置きます。 |
S3/Swift 操作が失敗しました |
オペレーション |
サポート > ツール > グリッド トポロジ を選択します。 API 操作セクションの [概要] タブで、[S3 操作 - 失敗] または [Swift 操作 - 失敗] の値を確認します。 |
ILM評価率 |
オブジェクト/秒 |
[ノード] ページで、grid > ILM を選択します。 ILM キュー チャートで、線がかなり安定している期間を見つけます。チャートの上にカーソルを置くと、システムの*評価率*のベースライン値を推定できます。 |
ILMスキャンレート |
オブジェクト/秒 |
NODES > grid > ILM を選択します。 ILM キュー チャートで、線がかなり安定している期間を見つけます。チャートの上にカーソルを置くと、システムの スキャン レート のベースライン値を推定できます。 |
クライアント操作からキューに入れられたオブジェクト |
オブジェクト/秒 |
NODES > grid > ILM を選択します。 ILM キュー チャートで、線がかなり安定している期間を見つけます。グラフの上にカーソルを置くと、システムの キューに入れられたオブジェクト (クライアント操作から) のベースライン値を推定できます。 |
平均クエリレイテンシ |
ミリ秒 |
NODES > Storage Node > Objects を選択します。クエリ テーブルで、平均待機時間の値を確認します。 |
データを分析する
収集した情報を使用して、問題の原因と考えられる解決策を特定します。
分析は問題によって異なりますが、一般的には次のようになります。
-
アラートを使用して障害点とボトルネックを特定します。
-
アラート履歴とグラフを使用して問題の履歴を再構築します。
-
チャートを使用して異常を見つけ、問題のある状況を通常の動作と比較します。
エスカレーション情報チェックリスト
自分で問題を解決できない場合は、テクニカル サポートにお問い合わせください。テクニカル サポートに連絡する前に、問題解決を容易にするために、次の表に記載されている情報を収集してください。
![]() |
項目 | 注記 |
---|---|---|
問題の説明 |
問題の症状は何ですか? 問題はいつ始まったのですか? それは継続的に起こりますか、それとも断続的に起こりますか? 断続的である場合、何回発生しましたか? |
|
影響評価 |
問題の深刻度はどの程度ですか? クライアント アプリケーションへの影響は何ですか?
|
|
StorageGRID システム ID |
メンテナンス > システム > *ライセンス*を選択します。StorageGRIDシステム ID は、現在のライセンスの一部として表示されます。 |
|
ソフトウェア バージョン |
Grid Manager の上部からヘルプ アイコンを選択し、[バージョン情報] を選択してStorageGRID のバージョンを確認します。 |
|
カスタマイズ |
StorageGRIDシステムの構成方法を要約します。たとえば、次のものをリストします。
|
|
ログファイルとシステムデータ |
システムのログ ファイルとシステム データを収集します。サポート > ツール > ログ を選択します。 グリッド全体または選択したノードのログを収集できます。 選択したノードのログのみを収集する場合は、ADC サービスを持つストレージ ノードを少なくとも 1 つ含めるようにしてください。(サイトの最初の 3 つのストレージ ノードには ADC サービスが含まれます。) |
|
ベースライン情報 |
取り込み操作、取得操作、およびストレージ消費に関するベースライン情報を収集します。 |
|
最近の変更のタイムライン |
システムまたはその環境に対する最近の変更をまとめたタイムラインを作成します。 |
|
問題を診断するための取り組みの歴史 |
自分で問題を診断またはトラブルシューティングする手順を実行した場合は、実行した手順と結果を必ず記録してください。 |