プラットフォーム サービスのトラブルシューティング

プラットフォーム サービスで使用されるエンドポイントは、テナント ユーザがTenant Managerで作成および管理します。ただし、テナントによるプラットフォーム サービスの設定または使用で問題がテナントで発生した場合は、Grid Managerを使用して問題を解決できる可能性があります。

新しいエンドポイントに関する問題

テナントでプラットフォーム サービスを使用するには、事前にTenant Managerを使用してエンドポイントを1つ以上作成しておく必要があります。各エンドポイントは、1つのプラットフォーム サービスの外部のデスティネーション(StorageGRID S3バケット、Amazon Web Servicesバケット、Simple Notification Serviceトピック、ローカルまたはAWSでホストされるElasticsearchクラスタなど)です。各エンドポイントには、外部リソースの場所と、そのリソースへのアクセスに必要なクレデンシャルが含まれます。

テナントでエンドポイントを作成すると、StorageGRIDシステムによって、そのエンドポイントが存在するかどうかと、指定されたクレデンシャルでアクセスできるかどうかが検証されます。エンドポイントへの接続は、サイトごとに1つのノードから検証されます。

エンドポイントの検証が失敗した場合は、その理由を記載したエラー メッセージが表示されます。テナント ユーザは、問題を解決してからエンドポイントを再度作成する必要があります。
注:テナント アカウントでプラットフォーム サービスが有効でない場合は、エンドポイントの作成が失敗します。

既存のエンドポイントに関する問題

StorageGRIDが既存のエンドポイントにアクセスしようとしたときにエラーが発生した場合は、Tenant Managerのダッシュボードにメッセージが表示されます。テナント ユーザは、[Endpoints]ページに移動して、各エンドポイントの最新のエラー メッセージを確認し、エラーが発生してからの経過時間を確認できます。問題を解決したら、テナント ユーザはエンドポイントをテストできます。[Test]をクリックすると、StorageGRIDによって、そのエンドポイントが存在するかどうかと、現在のクレデンシャルでアクセスできるかどうかが検証されます。エンドポイントへの接続は、サイトごとに1つのノードから検証されます。

クライアント処理の失敗

プラットフォーム サービスの問題によって、S3バケットに対するクライアント処理が失敗する場合があります。たとえば、内部のReplicated State Machine(RSM)サービスが停止した場合や、配信のためにキューに登録されたプラットフォーム サービス メッセージが多すぎる場合は、S3クライアント処理が失敗します。

サービスのステータスを確認するには、次の手順を実行します。
  1. [Support] > [Grid Topology]を選択します。
  2. [site] > [Storage Node] > [SSM] > [Services]を選択します。

リカバリ可能なエンドポイント エラーとリカバリ不能なエンドポイント エラー

エンドポイントの作成後に、さまざまな原因からプラットフォーム サービス要求のエラーが発生することがあります。一部のエラーは、ユーザが対処することでリカバリできます。たとえば、リカバリ可能なエラーは次のような原因で発生することがあります。
  • ユーザのクレデンシャルが削除された、または有効期限が切れた。
  • デスティネーション バケットがない。
  • 通知を配信できない。

StorageGRIDでリカバリ可能なエラーが発生した場合は、成功するまでプラットフォーム サービス要求が再試行されます。

このほかのエラーはリカバリ不能です。たとえば、エンドポイントが削除されるとリカバリ不能なエラーが発生します。

StorageGRIDでリカバリ不能なエンドポイントのエラーが発生すると、Grid ManagerでTotal Events(SMTT)のアラームが生成されます。Total Eventsアラームを表示するには、次の手順を実行します。
  1. [Nodes]を選択します。
  2. [site] > [grid node] > [Events]を選択します。
  3. 表の上部の[Last Event]を確認します。

    イベント メッセージは、/var/local/log/bycast-err.logにも記録されます。

  4. SMTTアラームに記載されている指示に従って問題を修正します。
  5. [Reset event counts]をクリックします。
  6. プラットフォーム サービス メッセージが配信されていないオブジェクトについてテナントに通知します。
  7. テナントで、オブジェクトのメタデータまたはタグを更新することで、失敗したレプリケーションまたは通知を再度トリガーするよう指定します。

    テナントでは、既存の値を再送信し、不要な変更を回避できます。

プラットフォーム サービス メッセージを配信できない

デスティネーションでプラットフォーム サービス メッセージの受信を妨げる問題が発生した場合、バケットに対する処理は成功しますが、プラットフォーム サービス メッセージは配信されません。たとえば、デスティネーションでクレデンシャルが更新されたためStorageGRIDがデスティネーション サービスを認証できなくなった場合に、このエラーが発生することがあります。

リカバリ不能なエラーによってプラットフォーム サービス メッセージを配信できない場合は、Grid ManagerでTotal Events(SMTT)アラームが生成されます。

プラットフォーム サービス要求のパフォーマンスの低下

要求が送信されるペースがデスティネーション エンドポイントで要求を受信できるペースを超えると、StorageGRIDソフトウェアはバケットの受信S3要求を調整する場合があります。スロットルは、デスティネーション エンドポイントへの送信を待機している要求のバックログが生じている場合にのみ発生します。

明らかな影響は、受信S3要求の実行時間が長くなることだけです。パフォーマンスが大幅に低下していることが検出されるようになった場合は、取り込み速度を下げるか、容量の大きなエンドポイントを使用する必要があります。要求のバックログが増え続けると、クライアントS3処理(PUT要求など)が失敗します。

通常、CloudMirror要求には、検索統合やイベント通知の要求よりも多くのデータ転送を伴うため、デスティネーション エンドポイントのパフォーマンスによる影響を受ける可能性が高くなります。

プラットフォーム サービス要求の失敗

プラットフォーム サービスの要求の失敗率を確認するには、次の手順を実行します。
  1. [Nodes]を選択します。
  2. [site] > [Platform Services]を選択します。
  3. [Request Failure Rate]グラフを確認します。


    [Nodes]ページのサイトレベルのプラットフォーム サービス