オブジェクトが永続的に使用不能かどうかの確認

オブジェクトが永続的に使用不能かどうかを確認するには、TSM管理コンソールを使用して要求を行います。

開始する前に

タスク概要

ここで示す例は参考情報です。この手順では、オブジェクトやテープ ボリュームが使用不能になる可能性がある障害状況をすべて記載しているわけではありません。TSM管理については、TSMサーバに関するドキュメントを参照してください。

手順

  1. 管理ノードにログインします。
    1. 次のコマンドを入力します:ssh admin@Admin_Node_IP
    2. Passwords.txtファイルに含まれているパスワードを入力します。
  2. アーカイブ ノードが読み出せなかったオブジェクトを特定します。
    1. 監査ログ ファイルが保存されているディレクトリに移動します。cd /var/local/audit/export
      アクティブな監査ログ ファイルの名前は、audit.logです。アクティブなaudit.logファイルは1日に1回保存され、新しいaudit.logファイルが開始されます。保存されたファイルの名前(yyyy-mm-dd.txtという形式)は、保存された日付を示しています。1日後、保存されたファイルは圧縮されて、元の日付を残してyyyy-mm-dd.txt.gzという名前に変更されます。
    2. 関連する監査ログ ファイルで、アーカイブされたオブジェクトを読み出せなかったことを示すメッセージを検索します。たとえば次のように入力します。grep ARCE audit.log | less -n
      オブジェクトをアーカイブ ノードから読み出せない場合は、ARCE(Archive Object Retrieve End)監査メッセージの結果フィールドに、ARUN(Archive Middleware Unavailable)またはGERR(General Error)と表示されます。次に示す監査ログの例では、CBID 498D8A1F681F05B3に対するARCEメッセージがARUNという結果で終了しています。
      [AUDT:[CBID(UI64):0x498D8A1F681F05B3][VLID(UI64):20091127][RSLT(FC32):ARUN][AVER(UI32):7]
      [ATIM(UI64):1350613602969243][ATYP(FC32):ARCE][ANID(UI32):13959984][AMID(FC32):ARCI]
      [ATID(UI64):4560349751312520631]]

      詳細については、監査メッセージを確認する手順を参照してください。

    3. 要求が失敗した各オブジェクトのCBIDを記録します。
      アーカイブ ノードで保存されるオブジェクトを識別するために、TSMで使用される次の追加情報を記録しておくこともできます。
      • ファイル スペース名:アーカイブ ノードIDに相当します。アーカイブ ノードIDを検索するには、[Support]を選択します。次に、メニューの[Tools]セクションで[Grid Topology]を選択します。次に、[Archive Node] > [ARC] > [Target] > Overview]を選択します。
      • 上位の名前:アーカイブ ノードによってオブジェクトに割り当てられるボリュームIDに相当します。ボリュームIDは日付の形式(20091127)で、オブジェクトのVLIDとしてアーカイブ監査メッセージに記録されます
      • 下位の名前StorageGRIDシステムによってオブジェクトに割り当てられるCBIDに相当します。
    4. コマンド シェルからログアウトします。exit
  3. TSMサーバを調べて、手順2で特定したオブジェクトが永続的に使用不能かどうかを確認します。
    1. TSMサーバの管理コンソールにログインします。dsmadmc
      ARCサービス用に設定された管理ユーザ名とパスワードを使用します。Grid Managerにユーザ名とパスワードを入力します (ユーザ名を確認するには、[Support]を選択します。次に、メニューの[Tools]セクションで[Grid Topology]を選択します。次に、[Archive Node] > [ARC] > [Target] > Configuration]を選択します)。
    2. オブジェクトが永続的に使用不能かどうかを確認します。
      たとえば、TSMアクティビティ ログでそのオブジェクトのデータ整合性エラーを検索することができます。次の例では、アクティビティ ログでCBID 498D8A1F681F05B3のオブジェクトの過去1日のデータを検索しています。
      > query actlog begindate=-1 search=276C14E94082CC69
      12/21/2008 05:39:15 ANR0548W Retrieve or restore 
      failed for session 9139359 for node DEV-ARC-20 (Bycast ARC) 
      processing file space /19130020 4 for file /20081002/ 
      498D8A1F681F05B3 stored as Archive - data 
      integrity error detected. (SESSION: 9139359)
      >

      エラーの種類によっては、TSMアクティビティ ログにCBIDが記録されないことがあるので注意してください。場合によっては、要求が失敗した時間の前後に他のTSMエラーが発生していないかをログで検索する必要があります。

    3. テープ全体が永続的に使用不能である場合は、そのボリュームに格納されているすべてのオブジェクトのCBIDを特定します。 query content TSM_Volume_Name
      TSM_Volume_Nameは、使用不能なテープのTSM名です。このコマンドの出力例を次に示します。
       > query content TSM-Volume-Name
      Node Name       Type Filespace  FSID Client's Name for File Name
      --------------- ---- ---------- ---- ----------------------------
      DEV-ARC-20      Arch /19130020  216  /20081201/ C1D172940E6C7E12
      DEV-ARC-20      Arch /19130020  216  /20081201/ F1D7FBC2B4B0779E

      Client’s Name for File Nameは、アーカイブ ノードのボリュームID(TSMの上位の名前)とオブジェクトのCBID(TSMの下位の名前)を組み合わせたものです。つまり、Client’s Name for File Nameの形式は、/Archive Node volume ID /CBIDになります。出力例の1行目のClient’s Name for File Nameは、/20081201/ C1D172940E6C7E12です。

      また、前述したように、「Filespace」はアーカイブ ノードのノードIDです。

      読み出し要求をキャンセルするには、ボリュームに格納されている各オブジェクトのCBID、およびアーカイブ ノードのノードIDが必要です。

  4. 永続的に使用できないオブジェクトごとに、読み出し要求をキャンセルし、オブジェクトのコピーが失われたことをStorageGRIDシステムに通知するためのコマンドを実行します。
    注意: ADEコンソールを使用する際には注意が必要です。コンソールを適切に使用しないと、システム処理が中断されてデータが破損する可能性があります。コマンドを入力する際には十分に注意し、この手順で示されているコマンドのみを使用してください。
    1. アーカイブ ノードにまだログインしていない場合は、次の手順でログインします。
      1. 次のコマンドを入力します:ssh admin@grid_node_IP
      2. Passwords.txtファイルに含まれているパスワードを入力します。
      3. 次のコマンドを入力してrootに切り替えます:su -
      4. Passwords.txtファイルに含まれているパスワードを入力します。
    2. ARCサービスのADEコンソールにアクセスします。telnet localhost 1409
    3. オブジェクトに対する要求をキャンセルします。 /proc/BRTR/cancel -c CBID

      このCBIDは、TSMから読み出せないオブジェクトのIDです。

      オブジェクトのコピーがテープにしかない場合は、bulk retrieval要求がキャンセルされてメッセージ1 requests canceledが表示されます。オブジェクトのコピーがシステムの別の場所にある場合は、オブジェクトの読み出しが別のモジュールによって処理されるため、要求に対する応答は0 requests canceledとなります。

    4. コマンドを実行して、オブジェクトのコピーが失われたため追加のコピーを作成する必要があることをStorageGRIDシステムに通知します。 /proc/CMSI/Object_Lost CBID node_ID

      CBIDはTSMサーバから読み出せないオブジェクトのID、node_IDは読み出しに失敗したアーカイブ ノードのノードIDです。

      コマンドは失われたオブジェクト コピーごとに入力する必要があります。CBIDを範囲で指定することはできません。

      ほとんどの場合、StorageGRIDシステムはそのILMポリシーに従って、オブジェクト データの追加のコピーの作成をただちに開始します。

      ただし、オブジェクトのILMルールがコピーを1つだけ作成するよう指定している場合、そのコピーが失われるとオブジェクトをリカバリすることはできません。この場合、Object_Lostコマンドを実行すると、失われたオブジェクトのメタデータがStorageGRIDシステムからパージされます。

      Object_Lostコマンドが正常に完了すると、次のメッセージが返されます。
      CLOC_LOST_ANS returned result ‘SUCS’
      注: /proc/CMSI/Object_Lostコマンドは、失われたオブジェクトがアーカイブ ノードに格納されている場合にのみ有効です。
    5. ADEコンソールを終了します。exit
    6. アーカイブ ノードからログアウトします。exit
  5. StorageGRIDシステムで、要求の失敗回数の値をリセットします。
    1. [Archive Node] > [ARC] > [Retrieve] > Configuration]に移動して、[Reset Request Failure Count]を選択します。
    2. [Apply Changes]をクリックします。