オブジェクトが永続的に使用不能かどうかの確認

オブジェクトが永続的に使用不能かどうかを確認するには、TSM管理コンソールを使用して要求を行います。

タスク概要

ここで示す例は参考情報です。この手順では、オブジェクトやテープ ボリュームが使用不能になる可能性がある障害状況をすべて記載しているわけではありません。TSM管理については、TSMサーバに関するドキュメントを参照してください。

手順

  1. アーカイブ ノードが読み出せなかったオブジェクトを特定します。
    1. サービス ラップトップから、管理ノードにログインします。
      1. 次のコマンドを入力します:ssh admin@grid_node_IP
      2. Passwords.txtファイルに含まれているパスワードを入力します。
      3. 次のコマンドを入力してrootに切り替えます:su -
      4. Passwords.txtファイルに含まれているパスワードを入力します。
    2. 監査ログ ファイルが保存されているディレクトリに移動します。cd /var/local/audit/export

      アクティブな監査ログ ファイルの名前は、audit.logです。アクティブなaudit.logファイルは1日に1回保存され、新しいaudit.logファイルが開始されます。保存されたファイルの名前(yyyy-mm-dd.txtという形式)は、保存された日付を示しています。1日後、保存されたファイルは圧縮されて、元の日付を残してyyyy-mm-dd.txt.gzという名前に変更されます。

    3. 関連する監査ログ ファイルで、読み出しが失敗したことを示すメッセージを検索します。たとえば次のように入力します。grep ARCE audit.log | less -n
      読み出しが失敗した場合は、ARCE(Archive Object Retrieve End)監査メッセージの結果フィールドに、ARUN(Archive Middleware Unavailable)またはGERR(General Error)と表示されます。次に示す監査ログの例では、CBID 498D8A1F681F05B3に対するARCEメッセージがARUNという結果で終了しています。
      [AUDT:[CBID(UI64):0x498D8A1F681F05B3][VLID(UI64):20091127][RSLT(FC32):ARUN][AVER(UI32):7][ATIM(UI64):1350613602969243][ATYP(FC32):ARCE][ANID(UI32):13959984][AMID(FC32):ARCI][ATID(UI64):4560349751312520631][ASQN(UI64):62][ASES(UI64):1350580983645305]] 
      

      監査メッセージを確認する手順を参照してください。

    4. 要求が失敗した各オブジェクトのCBIDを記録します。アーカイブ ノードで保存されるオブジェクトを識別するために、TSMで使用される次の追加情報を記録しておくこともできます。
      • ファイル スペース名

        [Support] > [Grid Topology]を選択します。次に、[Archive Node] > [ARC] > [Target] > [Overview]を選択します。

        ファイル スペース名はアーカイブ ノードのノードIDです。

      • 上位の名前

        アーカイブ ノードによってオブジェクトに割り当てられるボリュームIDに相当します。ボリュームIDは日付の形式(20091127)で、オブジェクトのVLIDとしてアーカイブ監査メッセージに記録されます

      • 下位の名前

        StorageGRID Webscaleシステムによってオブジェクトに割り当てられるCBIDに相当します。

    5. コマンド シェルからログアウトします。exit
  2. TSMサーバを調べて、手順1で特定したオブジェクトが永続的に使用不能かどうかを確認します。
    1. TSMサーバの管理コンソールにログインします。dsmadmc

      ARCサービス用に設定された管理ユーザ名とパスワードを使用します。Grid Managerにユーザ名とパスワードを入力します ([Support] > [Grid Topology]を選択します。次に、[Archive Node] > [ARC] > [Target] > [Configuration]を選択します)。

    2. オブジェクトが永続的に使用不能であることを調査する1つの方法として、TSMアクティビティ ログでそのオブジェクトのデータ整合性エラーを検索することが挙げられます。次の例では、アクティビティ ログでCBID 498D8A1F681F05B3のオブジェクトの過去1日のデータを検索しています。
      > query actlog begindate=-1 search=276C14E94082CC69
      12/21/2008 05:39:15 ANR0548W Retrieve or restore 
      failed for session 9139359 for node DEV-ARC-20 (Bycast ARC) 
      processing file space /19130020 4 for file /20081002/ 
      498D8A1F681F05B3 stored as Archive - data 
      integrity error detected. (SESSION: 9139359)
      >

      エラーの種類によっては、TSMアクティビティ ログにCBIDが記録されないことがあるので注意してください。場合によっては、要求が失敗した時間の前後に他のTSMエラーが発生していないかをログで検索する必要があります。

    3. テープ全体が永続的に使用不能である場合は、そのボリュームに格納されているすべてのオブジェクトのCBIDを特定します。query content TSM_Volume_Name
      TSM_Volume_Nameは、使用不能なテープのTSM名です。このコマンドの出力例を次に示します。
      > query content TSM-Volume-Name
      Node Name       Type Filespace  FSID Client's Name for File Name
      --------------- ---- ---------- ---- --------------------------------
      DEV-ARC-20      Arch /19130020  216  /20081201/ C1D172940E6C7E12
      DEV-ARC-20      Arch /19130020  216  /20081201/ F1D7FBC2B4B0779E
      

      「Client’s Name for File」は、アーカイブ ノードのボリュームID(TSMの「上位の名前」)にオブジェクトのID(TSMの「下位の名前」)が付加されたものです。つまり、「/Archive Node volume ID/ CBID」となります(この例の1行目では「/20081201/ C1D172940E6C7E12」)。

      また、前述したように、「ファイル スペース名」はアーカイブ ノードのノードIDです。

      手順3で読み出し要求をキャンセルするには、ボリュームに格納されている各オブジェクトのCBID、およびアーカイブ ノードのノードIDが必要です。

  3. 永続的に使用不能なオブジェクトごとに、読み出し要求をキャンセルし、オブジェクトのコピーが失われたことをStorageGRID Webscaleシステムに通知します。
    注意:ADEコンソールを使用する際には注意が必要です。コンソールを適切に使用しないと、システム処理が中断されてデータが破損する可能性があります。コマンドを入力する際には十分に注意し、この手順で示されているコマンドのみを使用してください。
    1. アーカイブ ノードにまだログインしていない場合は、次の手順でログインします。
      1. 次のコマンドを入力します:ssh admin@grid_node_IP
      2. Passwords.txtファイルに含まれているパスワードを入力します。
      3. 次のコマンドを入力してrootに切り替えます:su -
      4. Passwords.txtファイルに含まれているパスワードを入力します。
    2. ARCサービスのADEコンソールにアクセスします。telnet localhost 1409
    3. オブジェクトに対する要求をキャンセルします。/proc/BRTR/cancel -c CBID

      このCBIDは、TSMから読み出せないオブジェクトのIDです。

      オブジェクトのコピーがテープにしかない場合は、「bulk retrieval」要求がキャンセルされてメッセージ「1 requests canceled」が表示されます。オブジェクトのコピーがシステムの別の場所にある場合は、オブジェクトの読み出しが別のモジュールによって処理されるため、要求に対する応答は「0 requests canceled」となります。

    4. StorageGRID Webscaleシステムに対し、オブジェクトのコピーが失われたこと、および指定したオブジェクトで追加のコピーを作成する必要があることを通知します。/proc/CMSI/Object_Lost CBID node_ID

      このCBIDは、TSMサーバから読み出せないオブジェクトのIDです。

      アーカイブ ノードの場合は、一定範囲のCBIDを使用できません。

      node_ID は、読み出しが失敗したアーカイブ ノードのノードIDです。

      ほとんどの場合、StorageGRID WebscaleシステムはそのILMポリシーに従って、オブジェクト データの追加のコピーの作成をただちに開始します。StorageGRID Webscaleシステムで使用されるILMルールにアクティブなコンテンツ配置手順が1つしかない場合は、オブジェクトのコピーが作成されません。オブジェクトが失われると、そのオブジェクトはリカバリできません。この場合、Object_Lostコマンドを実行すると、失われたオブジェクトのメタデータがStorageGRID Webscaleシステムからパージされます。

      Object_Lostコマンドが正常に終了すると、「CLOC_LOST_ANS returned result ‘SUCS’」というメッセージが返されます。

    5. ADEコンソールを終了します。exit
    6. アーカイブ ノードからログアウトします。exit
  4. StorageGRID Webscaleシステムで、要求の失敗回数の値をリセットします。
    1. [Archive Node] > [ARC] > [Retrieve] > [Configuration]に移動し、[Reset Request Failure Count]を選択します。
    2. [Apply Changes]をクリックします。