TSM ミドルウェアでのアーカイブノードのメンテナンス
アーカイブノードは、 TSM ミドルウェアサーバ経由でテープをターゲットとするように設定するか、 S3 API 経由でクラウドをターゲットとするように設定できます。いったん設定したアーカイブノードのターゲットは変更できません。
アーカイブノードをホストしているサーバで障害が発生した場合は、サーバを交換し、適切なリカバリ手順 に従います。
アーカイブストレージデバイスの障害
アーカイブノードが Tivoli Storage Manager ( TSM )経由でアクセスしているアーカイブストレージデバイスに障害があることがわかった場合は、アーカイブノードをオフラインにして StorageGRID システムで表示されるアラームの数を制限します。そのあとに、 TSM サーバの管理ツール、ストレージデバイスの管理ツール、またはその両方を使用して問題を詳しく診断し、解決することができます。
ターゲットコンポーネントをオフラインにします
TSM ミドルウェアサーバのメンテナンスを行うとアーカイブノードがそのサーバを使用できなくなる場合があるため、メンテナンスの前にターゲットコンポーネントをオフライン状態にして、 TSM ミドルウェアサーバが使用できなくなった場合にトリガーされるアラームの数を制限します。
を使用して Grid Manager にサインインする必要があります サポートされている Web ブラウザ。
-
サポート * > * ツール * > * グリッドトポロジ * を選択します。
-
アーカイブノード * > * ARC * > * ターゲット * > * Configuration * > * Main * を選択します。
-
「 Tivoli Storage Manager State 」の値を「 * Offline * 」に変更し、「 * Apply Changes * 」をクリックします。
-
メンテナンスが完了したら、 Tivoli Storage Manager State の値を * Online * に変更し、 * Apply Changes * をクリックします。
Tivoli Storage Manager の管理ツール
dsmadmc ツールは、アーカイブノードにインストールされる TSM ミドルウェアサーバの管理コンソールです。このツールにアクセスするには、サーバのコマンドラインで「 dsmadmc 」と入力します。管理コンソールには、 ARC サービス用に設定された管理ユーザ名とパスワードを使用してログインします。
dsmadmc からのステータス情報を読みやすい形式で生成するには 'tsmquere.rb スクリプトを作成しますこのスクリプトを実行するには ' アーカイブノードのコマンドラインで次のコマンドを入力します /usr/local/arc/tsmquery.rb status
TSM 管理コンソール dsmadmc の詳細については、 _Tivoli Storage Manager for Linux : Administrator を参照してください。
オブジェクトは永続的に使用不能です
アーカイブノードが Tivoli Storage Manager ( TSM )サーバにオブジェクトを要求し、その読み出しが失敗すると、 10 秒後にアーカイブノードが要求を再試行します。オブジェクトが永続的に使用不能な場合(テープ上でオブジェクトが破損しているなどの原因で)、 TSM API はその状況をアーカイブノードに通知できないため、アーカイブノードは要求を再試行し続けます。
この状況が発生するとアラームがトリガーされ、値が増え続けます。このアラームを表示するには、 * support * > * Tools * > * Grid topology * を選択します。次に、「 * Archive Node * > * ARC * > * Retrieve * > * Request Failures * 」を選択します。
オブジェクトが永続的に使用不能である場合は、オブジェクトを特定し、手順 の説明に従ってアーカイブノードの要求を手動でキャンセルする必要があります。 オブジェクトが永続的に使用不能かどうかを確認する。
また、オブジェクトが一時的に使用不能である場合も読み出しが失敗することがあります。この場合は、最終的に後続の読み出し要求が成功します。
単一のオブジェクトコピーを作成する ILM ルールを使用するように StorageGRID システムが設定されている場合に、そのコピーを読み出せないと、オブジェクトは失われてリカバリできません。ただし、オブジェクトが永続的に使用不能かどうかを手順 で確認し、 StorageGRID システムを「クリーンアップ」したり、アーカイブノードの要求をキャンセルしたり、失われたオブジェクトのメタデータをパージしたりする必要があります。
オブジェクトが永続的に使用不能かどうかを確認する
オブジェクトが永続的に使用不能かどうかを確認するには、 TSM 管理コンソールを使用して要求を行います。
-
特定のアクセス権限が必要です。
-
「 passwords.txt 」ファイルが必要です。
-
管理ノードの IP アドレスを確認しておく必要があります。
ここで示す例は参考情報です。この手順 では、オブジェクトやテープボリュームが使用不能になる可能性がある障害状況をすべて特定することはできません。TSM 管理の詳細については、 TSM サーバに関するドキュメントを参照してください。
-
管理ノードにログインします。
-
次のコマンドを入力します。 ssh admin@Admin_Node_ip'
-
「 passwords.txt 」ファイルに記載されたパスワードを入力します。
-
-
アーカイブノードが読み出せなかったオブジェクトを特定します。
-
監査ログ・ファイルが格納されているディレクトリに移動します cd /var/local/audit/export
アクティブな監査ログファイルの名前は audit.log です。1 日に 1 回アクティブな「 audit.log 」ファイルが保存され ' 新しい「 audit.log 」ファイルが開始されます保存されたファイルの名前は、保存された日時を「 yyyy-mm-dd.txt 」の形式で示します。1 日後、保存されたファイルは圧縮され、元の日付を保持する「 yyyy-mm-dd.txt.gz 」形式で名前が変更されます。
-
関連する監査ログファイルで、アーカイブされたオブジェクトを読み出せなかったことを示すメッセージを検索します。たとえば、「 grep ARCE audit.log | less -n 」と入力します
アーカイブノードからオブジェクトを読み出せない場合は、 ARCE ( Archive Object Retrieve End )監査メッセージの結果フィールドに、 ARUN ( Archive Middleware Unavailable )または GERR ( General Error )と表示されます。次に示す監査ログの例では、 CBID 498D8A1F681F05B3 に対する ARCE メッセージが ARUN という結果で終了しています。
[AUDT:[CBID(UI64):0x498D8A1F681F05B3][VLID(UI64):20091127][RSLT(FC32):ARUN][AVER(UI32):7] [ATIM(UI64):1350613602969243][ATYP(FC32):ARCE][ANID(UI32):13959984][AMID(FC32):ARCI] [ATID(UI64):4560349751312520631]]
詳細については、監査メッセージを確認する手順を参照してください。
-
要求が失敗した各オブジェクトの CBID を記録します。
アーカイブノードで保存されるオブジェクトを識別するために、 TSM で使用される次の追加情報 を記録しておくこともできます。
-
* ファイルスペース名 * :アーカイブノード ID に相当します。アーカイブノード ID を検索するには、 * support * > * Tools * > * Grid topology * を選択します。次に、「 * アーカイブノード * > * ARC * > * ターゲット * > * 概要 * 」を選択します。
-
* 上位の名前 * :アーカイブノードによってオブジェクトに割り当てられたボリューム ID に相当します。ボリューム ID は日付の形式(例: 20091127' )でアーカイブ監査メッセージにオブジェクトの VLID として記録されます
-
* Low Level Name * : StorageGRID システムによってオブジェクトに割り当てられた CBID に相当します。
-
-
コマンドシェルからログアウトします :exit
-
-
TSM サーバを調べて、手順 2 で特定したオブジェクトが永続的に使用不能かどうかを確認します。
-
TSM サーバ「 dsmadmc 」の管理コンソールにログインします
ARC サービス用に設定された管理ユーザ名とパスワードを使用します。Grid Manager にユーザ名とパスワードを入力します。(ユーザ名を表示するには、 * support * > * Tools * > * Grid topology * を選択します。次に、「 * Archive Node * > * ARC * > * Target * > * Configuration * 」を選択します。)
-
オブジェクトが永続的に使用不能かどうかを確認します。
たとえば、 TSM アクティビティログでそのオブジェクトのデータ整合性エラーを検索できます。次に、アクティビティログで CBID 「 498D8A1F681F05B3 」のオブジェクトの過去 1 日のデータを検索する例を示します。
> query actlog begindate=-1 search=276C14E94082CC69 12/21/2008 05:39:15 ANR0548W Retrieve or restore failed for session 9139359 for node DEV-ARC-20 (Bycast ARC) processing file space /19130020 4 for file /20081002/ 498D8A1F681F05B3 stored as Archive - data integrity error detected. (SESSION: 9139359) >
エラーの種類によっては、 TSM アクティビティログに CBID が記録されないことがあります。場合によっては、要求が失敗した時間の前後に他の TSM エラーが発生していないかをログで検索する必要があります。
-
テープ全体が永続的に使用不能である場合は ' そのボリュームに格納されているすべてのオブジェクトの CBID を特定します 'query content TSM_Volume_Name
ここで 'TSM_Volume_Name' は ' 使用できないテープの TSM 名ですこのコマンドの出力例を次に示します。
> query content TSM-Volume-Name Node Name Type Filespace FSID Client's Name for File Name ------------- ---- ---------- ---- ---------------------------- DEV-ARC-20 Arch /19130020 216 /20081201/ C1D172940E6C7E12 DEV-ARC-20 Arch /19130020 216 /20081201/ F1D7FBC2B4B0779E
「 Client ’ s Name for File Name 」は、アーカイブノードのボリューム ID (または TSM 「 high level name 」)と、オブジェクトの CBID (または TSM 「 low level name 」)が続くものと同じです。つまり ' ファイル名のクライアント名は '/Archive Node volume ID/CBID という形式になります出力例の最初の行では、「ファイル名のクライアント名」は「 /20081201/C1D172940E6C7E12 」です。
また ' 前述したように ' ファイルスペースはアーカイブ・ノードのノード ID です
読み出し要求をキャンセルするには、ボリュームに格納されている各オブジェクトの CBID 、およびアーカイブノードのノード ID が必要です。
-
-
永続的に使用不能なオブジェクトごとに、読み出し要求をキャンセルし、問題 a コマンドを使用して、オブジェクトのコピーが失われたことを StorageGRID システムに通知します。
ADE コンソールを使用する際には注意が必要です。コンソールを適切に使用しないと、システム処理が中断されてデータが破損する可能性があります。コマンドを入力する際には十分に注意し、この手順 に記載されているコマンドのみを使用してください。 -
アーカイブノードにまだログインしていない場合は、次の手順でログインします。
-
次のコマンドを入力します。 ssh admin@_grid_node_name
-
「 passwords.txt 」ファイルに記載されたパスワードを入力します。
-
root に切り替えるには、次のコマンドを入力します
-
「 passwords.txt 」ファイルに記載されたパスワードを入力します。
-
-
ARC サービスの ADE コンソールにアクセスします。 telnet localhost 1409`
-
オブジェクトに対する要求をキャンセルします : /proc/brtr/cancel-c CBID
ここで 'CBID は TSM から取得できないオブジェクトの識別子です
オブジェクトのコピーがテープにしかない場合 ' 一括取得要求はキャンセルされ ' メッセージが表示されます要求はキャンセルされましたオブジェクトのコピーがシステム内の別の場所に存在する場合 ' オブジェクトの取得は別のモジュールによって処理されるため ' メッセージに対する応答は 0 要求がキャンセルされました
-
問題 オブジェクトのコピーが失われたこと、および追加のコピーが必要であることを StorageGRID システムに通知するコマンド。「 /proc/CMSI/Object_Lost CBID node_ID 」
ここで 'CBID は TSM サーバから取得できないオブジェクトの識別子で 'NODE_ID は読み出しが失敗したアーカイブノードのノード ID です
失われたオブジェクトのコピーごとに別々のコマンドを入力する必要があります。 CBID の範囲の入力はサポートされていません。
ほとんどの場合、 StorageGRID システムはその ILM ポリシーに従って、オブジェクトデータの追加のコピーの作成をただちに開始します。
ただし、オブジェクトの ILM ルールでコピーを 1 つだけ作成するよう指定されていて、そのコピーが失われた場合、オブジェクトをリカバリすることはできません。この場合 'Object_Lost コマンドを実行すると ' 失われたオブジェクトのメタデータが StorageGRID システムからパージされます
'Object_lost' コマンドが正常に完了すると ' 次のメッセージが返されます
CLOC_LOST_ANS returned result ‘SUCS’
+
「 /proc/CMSI/Object_Lost 」コマンドは、アーカイブノードに格納されている損失オブジェクトに対してのみ有効です。 -
ADE コンソールを終了します
-
アーカイブノードからログアウトします :exit
-
-
StorageGRID システムで、要求の失敗回数の値をリセットします。
-
アーカイブノード * > * ARC * > * Retrieve * > * Configuration * に移動し、 * Reset Request Failure Count * を選択します。
-
[ 変更の適用 *] をクリックします。
-