保護ジョブが失敗した場合の問題の特定と対処策の実施

ジョブの失敗に関するエラー メッセージを[イベントの詳細]ページの[原因]フィールドで確認し、ジョブが失敗した原因がSnapshotコピー エラーであることを特定します。次に、[健全性 / ボリュームの詳細]ページに進んで詳細情報を収集します。

開始する前に

OnCommand管理者のロールが必要です。

タスク概要

[イベントの詳細]ページの[原因]フィールドに表示されるエラー メッセージには、失敗したジョブに関する次のテキストが記載されています。
Protection Job Failed. Reason: (Transfer operation for 
relationship 'cluster2_src_svm:cluster2_src_vol2->cluster3_dst_svm:
managed_svc2_vol3' ended unsuccessfully. Last error reported by 
Data ONTAP: Failed to create Snapshot copy 0426cluster2_src_vol2snap 
on volume cluster2_src_svm:cluster2_src_vol2. (CSM: An operation 
failed due to an ONC RPC failure.).) 
Job Details
このメッセージから得られる情報は次のとおりです。

このシナリオでは、ジョブが失敗した原因と考えられる対処策を特定できます。ただし、失敗を解決するには、System Manager Web UIまたはONTAP CLIコマンドを使用する必要があります。

手順

  1. エラー メッセージを確認し、ソース ボリュームでSnapshotコピー ジョブが失敗していることから、おそらくソース ボリュームに問題があると判断します。
    エラー メッセージの末尾にある[ジョブの詳細]リンクをクリックすることもできますが、このシナリオの目的上行いません。
  2. イベントを解決するために、次の作業を行います。
    1. [割り当て先]ボタンをクリックし、メニューから[自分]を選択します。
    2. イベントにアラートが設定されている場合は、[確認]ボタンをクリックしてアラート通知が繰り返し送信されないようにします。
    3. 必要に応じて、イベントに関するメモを追加することもできます。
  3. [サマリ]ペインの[ソース]フィールドをクリックして、ソース ボリュームに関する詳細を表示します。
    [ソース]フィールドにはソース オブジェクト(ここではSnapshotコピー ジョブがスケジュールされていたボリューム)の名前が表示されます。
    cluster2_src_vol2[健全性 / ボリュームの詳細]ページが表示され、[保護]タブの内容が示されます。
  4. 保護トポロジ グラフを見ると、トポロジの最初のボリューム(SnapMirror関係のソース ボリューム)にエラー アイコンが関連付けられています。
    また、そのボリュームに設定されている警告とエラーのしきい値を示す水平のバーが、ソース ボリューム アイコンに表示されています。
    ジョブの失敗のカスケード トポロジ
  5. エラー アイコンにカーソルを合わせると、ポップアップ ダイアログが開いてしきい値の設定が表示され、ボリュームがエラーしきい値を超えて容量の問題が発生していることがわかります。
  6. [容量]タブをクリックします。
    ボリュームcluster2_src_vol2の容量に関する情報が表示されます。
  7. [容量]ペインを見ると、棒グラフにエラー アイコンが表示されており、ボリュームの容量がボリュームに設定されたしきい値のレベルを超えていることがここでもわかります。
  8. 容量グラフの下には、ボリュームの自動拡張が無効になっていることと、ボリュームのスペース ギャランティが設定されていることが示されています。
    自動拡張を有効にすることもできますが、このシナリオの目的上、さらに調査を進めてから、容量の問題を解決する方法を決定することにします。
  9. 下にスクロールして[イベント]リストに移動すると、「保護ジョブ失敗」、「ボリュームのフルまでの日数」、「ボリューム スペースがフル」の各イベントが生成されたことがわかります。
  10. [イベント]リスト[ボリューム スペースがフル]イベントをクリックして詳細情報を確認したところ、このイベントが容量の問題に関連していると思われることがわかりました。
    [イベントの詳細]ページには、ソース ボリュームに対して「ボリューム スペースがフル」イベントが表示されています。
  11. [サマリ]領域で、イベントの[原因]フィールドに次のテキストが表示されます:「フル」しきい値90%を超えています。47.50 MB中45.38 MB (95.54%)が使用されています。
  12. [サマリ]領域の下の[推奨される対処方法]に、推奨される対処策が表示されます。
    ヒント:[推奨される対処方法]は一部のイベントだけに表示されるため、どのタイプのイベントでもこの領域が表示されるわけではありません。
    「ボリューム スペースがフル」イベントを解決するために実施する推奨対処策をクリックしていきます。
    • このボリュームの自動拡張を有効にする。
    • ボリュームのサイズを変更する。
    • このボリュームで重複排除を有効にして実行する。
    • このボリュームで圧縮を有効にして実行する。
  13. ボリュームの自動拡張を有効にすることにしましたが、これを行うには、親アグリゲート上の空きスペースと現在のボリューム増加率を確認する必要があります。
    1. [関連デバイス]ペインで、親アグリゲートcluster2_src_aggr1を確認します。
      ヒント:アグリゲートの名前をクリックすると、アグリゲートに関する詳細情報を参照できます。
      ボリュームに自動拡張を有効にするための十分なスペースがあることを確認します。
    2. ページ上部に重要なインシデントを示すアイコンが表示されるので、アイコンの下のテキストを確認します。
      「Days to Full: Less than a day | Daily Growth Rate: 5.4%」であることを確認します。
  14. System ManagerまたはONTAP CLIにアクセスして、ボリュームの自動拡張オプションを有効にします。
    ヒント:ボリュームとアグリゲートの名前をメモしておいて、自動拡張を有効にするときに参照できるようにします。
  15. 容量の問題を解決したら、Unified Manager[イベントの詳細]ページに戻り、イベントを解決済みとマークします。