TSM ミドルウェアでのアーカイブノードのメンテナンス
アーカイブノードは、 TSM ミドルウェアサーバ経由でテープをターゲットとするように設定するか、 S3 API 経由でクラウドをターゲットとするように設定できます。設定後にアーカイブノードのターゲットを変更することはできません。
アーカイブノードをホストしているサーバで障害が発生した場合は、サーバを交換し、適切なリカバリ手順 に従います。
アーカイブストレージデバイスの障害
アーカイブノードが Tivoli Storage Manager ( TSM )経由でアクセスしているアーカイブストレージデバイスに障害があることがわかった場合は、アーカイブノードをオフラインにして StorageGRID システムで表示されるアラームの数を制限します。そのあとに、 TSM サーバの管理ツール、ストレージデバイスの管理ツール、またはその両方を使用して問題を詳しく診断し、解決することができます。
ターゲットコンポーネントをオフラインにします
TSM ミドルウェアサーバのメンテナンスを行うとアーカイブノードがそのサーバを使用できなくなる場合があるため、メンテナンスの前にターゲットコンポーネントをオフライン状態にして、 TSM ミドルウェアサーバが使用できなくなった場合にトリガーされるアラームの数を制限します。
を使用して Grid Manager にサインインします "サポートされている Web ブラウザ"。
-
サポート * > * ツール * > * グリッドトポロジ * を選択します。
-
アーカイブノード * > * ARC * > * ターゲット * > * Configuration * > * Main * を選択します。
-
「 Tivoli Storage Manager State 」の値を「 * Offline * 」に変更し、「 * Apply Changes * 」をクリックします。
-
メンテナンスが完了したら、 Tivoli Storage Manager State の値を * Online * に変更し、 * Apply Changes * をクリックします。
Tivoli Storage Manager の管理ツール
dsmadmc ツールは、アーカイブノードにインストールされる TSM ミドルウェアサーバの管理コンソールです。ツールにアクセスするには、と入力します dsmadmc
をクリックします。管理コンソールには、 ARC サービス用に設定された管理ユーザ名とパスワードを使用してログインします。
。 tsmquery.rb
dsmadmcからのステータス情報を判読しやすい形式で表示するにはスクリプトを使用します。このスクリプトを実行するには、アーカイブノードのコマンドラインで次のコマンドを入力します。 /usr/local/arc/tsmquery.rb status
TSM 管理コンソール dsmadmc の詳細については、 _Tivoli Storage Manager for Linux : Administrator を参照してください。
オブジェクトは永続的に使用不能です
アーカイブノードが Tivoli Storage Manager ( TSM )サーバにオブジェクトを要求し、その読み出しが失敗すると、 10 秒後にアーカイブノードが要求を再試行します。オブジェクトが永続的に使用不能な場合(テープ上でオブジェクトが破損しているなどの原因で)、 TSM API はその状況をアーカイブノードに通知できないため、アーカイブノードは要求を再試行し続けます。
この状況が発生するとアラームがトリガーされ、値が増え続けます。このアラームを表示するには、 * support * > * Tools * > * Grid topology * を選択します。次に、「 * Archive Node * > * ARC * > * Retrieve * > * Request Failures * 」を選択します。
オブジェクトが永続的に使用不能である場合は、オブジェクトを特定し、手順 の説明に従ってアーカイブノードの要求を手動でキャンセルする必要があります。 オブジェクトが永続的に使用不能かどうかを確認する。
また、オブジェクトが一時的に使用不能である場合も読み出しが失敗することがあります。この場合は、最終的に後続の読み出し要求が成功します。
単一のオブジェクトコピーを作成するILMルールを使用するようにStorageGRID システムが設定されている場合、そのコピーを読み出せないとオブジェクトは失われてリカバリできません。ただし、オブジェクトが永続的に使用不能かどうかを手順 で確認し、 StorageGRID システムを「クリーンアップ」したり、アーカイブノードの要求をキャンセルしたり、失われたオブジェクトのメタデータをパージしたりする必要があります。
オブジェクトが永続的に使用不能かどうかを確認する
オブジェクトが永続的に使用不能かどうかを確認するには、 TSM 管理コンソールを使用して要求を行います。
-
特定のアクセス権限が必要です。
-
を使用することができます
Passwords.txt
ファイル。 -
管理ノードのIPアドレスを確認しておきます。
この例は参考までに提供されています。この手順 では、オブジェクトやテープボリュームが使用不能になる可能性がある障害状況をすべて特定することはできません。TSM 管理の詳細については、 TSM サーバに関するドキュメントを参照してください。
-
管理ノードにログインします。
-
次のコマンドを入力します。
ssh admin@Admin_Node_IP
-
に記載されているパスワードを入力します
Passwords.txt
ファイル。
-
-
アーカイブノードが読み出せなかったオブジェクトを特定します。
-
監査ログファイルが保存されているディレクトリに移動します。
cd /var/local/audit/export
アクティブな監査ログファイルの名前は audit.log です。1日に1回、アクティブです
audit.log
ファイルが保存され、新しいファイルが作成されますaudit.log
ファイルが開始されました。保存されたファイルの名前は、保存された日時をの形式で示していますyyyy-mm-dd.txt
。1日後、保存されたファイルは圧縮され、という形式で名前が変更されます `yyyy-mm-dd.txt.gz`元の日付を保持します。 -
関連する監査ログファイルで、アーカイブされたオブジェクトを読み出せなかったことを示すメッセージを検索します。たとえば、次のように入力します。
grep ARCE audit.log | less -n
オブジェクトをアーカイブノードから読み出せない場合は、ARCE監査メッセージ(Archive Object Retrieve End)の結果フィールドにARUN(Archive Middleware Unavailable)またはGERR(General Error)と表示されます。次に示す監査ログの例では、 CBID 498D8A1F681F05B3 に対する ARCE メッセージが ARUN という結果で終了しています。
[AUDT:[CBID(UI64):0x498D8A1F681F05B3][VLID(UI64):20091127][RSLT(FC32):ARUN][AVER(UI32):7] [ATIM(UI64):1350613602969243][ATYP(FC32):ARCE][ANID(UI32):13959984][AMID(FC32):ARCI] [ATID(UI64):4560349751312520631]]
詳細については、監査メッセージを確認する手順を参照してください。
-
要求が失敗した各オブジェクトの CBID を記録します。
アーカイブノードで保存されるオブジェクトを識別するために、 TSM で使用される次の追加情報 を記録しておくこともできます。
-
* ファイルスペース名 * :アーカイブノード ID に相当します。アーカイブノード ID を検索するには、 * support * > * Tools * > * Grid topology * を選択します。次に、「 * アーカイブノード * > * ARC * > * ターゲット * > * 概要 * 」を選択します。
-
* 上位の名前 * :アーカイブノードによってオブジェクトに割り当てられたボリューム ID に相当します。ボリュームIDは日付の形式で入力します(例:
20091127
)を指定し、をアーカイブ監査メッセージにオブジェクトのVLIDとして記録します。 -
* Low Level Name * : StorageGRID システムによってオブジェクトに割り当てられた CBID に相当します。
-
-
コマンドシェルからログアウトします。
exit
-
-
TSM サーバを調べて、手順 2 で特定したオブジェクトが永続的に使用不能かどうかを確認します。
-
TSMサーバの管理コンソールにログインします。
dsmadmc
ARC サービス用に設定された管理ユーザ名とパスワードを使用します。Grid Manager にユーザ名とパスワードを入力します。(ユーザ名を表示するには、 * support * > * Tools * > * Grid topology * を選択します。次に、「 * Archive Node * > * ARC * > * Target * > * Configuration * 」を選択します。)
-
オブジェクトが永続的に使用不能かどうかを確認します。
たとえば、 TSM アクティビティログでそのオブジェクトのデータ整合性エラーを検索できます。次の例は、アクティビティログでCBIDを含むオブジェクトの過去1日の検索を示しています
498D8A1F681F05B3
。> query actlog begindate=-1 search=276C14E94082CC69 12/21/2008 05:39:15 ANR0548W Retrieve or restore failed for session 9139359 for node DEV-ARC-20 (Bycast ARC) processing file space /19130020 4 for file /20081002/ 498D8A1F681F05B3 stored as Archive - data integrity error detected. (SESSION: 9139359) >
エラーの種類によっては、 TSM アクティビティログに CBID が記録されないことがあります。場合によっては、要求が失敗した時間の前後に他の TSM エラーが発生していないかをログで検索する必要があります。
-
テープ全体が永続的に使用不能である場合は、そのボリュームに格納されているすべてのオブジェクトのCBIDを特定します。
query content TSM_Volume_Name
ここで、
TSM_Volume_Name
は、使用できないテープのTSM名です。このコマンドの出力例を次に示します。> query content TSM-Volume-Name Node Name Type Filespace FSID Client's Name for File Name ------------- ---- ---------- ---- ---------------------------- DEV-ARC-20 Arch /19130020 216 /20081201/ C1D172940E6C7E12 DEV-ARC-20 Arch /19130020 216 /20081201/ F1D7FBC2B4B0779E
。
Client’s Name for File Name
は、アーカイブノードのボリュームID(またはTSMの「上位の名前」)と、オブジェクトのCBID(またはTSMの「下位の名前」)を組み合わせたものと同じです。つまり、ですClient’s Name for File Name
フォームを使用します/Archive Node volume ID /CBID
。出力例の1行目に、が表示されていますClient’s Name for File Name
はです/20081201/ C1D172940E6C7E12
。また、を思い出してください
Filespace
はアーカイブノードのノードIDです。
読み出し要求をキャンセルするには、ボリュームに格納されている各オブジェクトの CBID 、およびアーカイブノードのノード ID が必要です。
-
-
永続的に使用不能なオブジェクトごとに、読み出し要求をキャンセルし、問題 a コマンドを使用して、オブジェクトのコピーが失われたことを StorageGRID システムに通知します。
ADE コンソールを使用する際には注意が必要です。コンソールを適切に使用しないと、システム処理が中断されてデータが破損する可能性があります。コマンドを入力する際には十分に注意し、この手順 に記載されているコマンドのみを使用してください。 -
アーカイブノードにまだログインしていない場合は、次の手順でログインします。
-
次のコマンドを入力します。
ssh admin@grid_node_IP
-
に記載されているパスワードを入力します
Passwords.txt
ファイル。 -
次のコマンドを入力してrootに切り替えます。
su -
-
に記載されているパスワードを入力します
Passwords.txt
ファイル。
-
-
ARCサービスのADEコンソールにアクセスします。
telnet localhost 1409
-
オブジェクトに対する要求をキャンセルします。
/proc/BRTR/cancel -c CBID
ここで、
CBID
は、TSMから読み出せないオブジェクトの識別子です。オブジェクトのコピーがテープにしかない場合 ' 一括取得要求はキャンセルされ ' メッセージが表示されます要求はキャンセルされましたオブジェクトのコピーがシステム内の別の場所に存在する場合 ' オブジェクトの取得は別のモジュールによって処理されるため ' メッセージに対する応答は 0 要求がキャンセルされました
-
問題 オブジェクトのコピーが失われたこと、および追加のコピーを作成する必要があることをStorageGRID システムに通知するコマンド。
/proc/CMSI/Object_Lost CBID node_ID
ここで、
CBID
は、TSMサーバから読み出せないオブジェクトの識別子ですnode_ID
は、読み出しが失敗したアーカイブノードのノードIDです。失われたオブジェクトのコピーごとに別々のコマンドを入力する必要があります。 CBID の範囲の入力はサポートされていません。
ほとんどの場合、 StorageGRID システムはその ILM ポリシーに従って、オブジェクトデータの追加のコピーの作成をただちに開始します。
ただし、オブジェクトのILMルールでコピーを1つだけ作成するように指定されている場合、そのコピーが失われるとオブジェクトをリカバリできません。この場合は、を実行します
Object_Lost
コマンドは、失われたオブジェクトのメタデータをStorageGRID システムからパージします。をクリックします
Object_Lost
コマンドが正常に完了すると、次のメッセージが返されます。
CLOC_LOST_ANS returned result ‘SUCS’
+
。 /proc/CMSI/Object_Lost
コマンドは、アーカイブノードに格納されている損失オブジェクトに対してのみ有効です。-
ADEコンソールを終了します。
exit
-
アーカイブノードからログアウトします。
exit
-
-
StorageGRID システムで、要求の失敗回数の値をリセットします。
-
アーカイブノード * > * ARC * > * Retrieve * > * Configuration * に移動し、 * Reset Request Failure Count * を選択します。
-
[ 変更の適用 *] をクリックします。
-