Skip to main content
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

TSM中介軟體的歸檔節點維護

貢獻者

歸檔節點可設定為透過TSM中介軟體伺服器鎖定磁帶、或透過S3 API鎖定雲端。一旦設定完成、歸檔節點的目標就無法變更。

如果主控歸檔節點的伺服器故障、請更換伺服器、並遵循適當的還原程序。

歸檔儲存設備故障

如果您確定歸檔節點透過Tivoli Storage Manager(TSM)存取的歸檔儲存設備有故障、請將歸檔節點離線、以限制StorageGRID 在該作業系統中顯示的警示數目。然後、您可以使用TSM伺服器或儲存設備的管理工具、或兩者、進一步診斷並解決問題。

使目標元件離線

在維護可能導致歸檔節點無法使用的TSM中介軟體伺服器之前、請先將目標元件離線、以限制TSM中介軟體伺服器無法使用時觸發的警示數目。

您需要的產品

您必須使用登入Grid Manager 支援的網頁瀏覽器

步驟
  1. 選取*支援*>*工具*>*網格拓撲*。

  2. 選擇*歸檔節點*>* ARC/>*目標*>*組態*>*主*。

  3. 將Tivoli Storage Manager State的值變更為*離線*、然後按一下*套用變更*。

  4. 維護完成後、將Tivoli Storage Manager State的值變更為* Online*、然後按一下* Apply Changes *。

Tivoli Storage Manager管理工具

dsmadmc工具是安裝在歸檔節點上之TSM中介軟體伺服器的管理主控台。您可以在伺服器的命令列輸入「dsmadmc」來存取工具。使用設定用於ARC服務的相同管理使用者名稱和密碼登入管理主控台。

已建立「tsmquery.rb」指令碼、以更易讀取的形式從dsmadmc產生狀態資訊。您可以在「歸檔節點」的命令列輸入下列命令來執行此指令碼:「usr/local/arat/tsmquery.rb stStatus」

如需TSM管理主控台dsmadmc的詳細資訊、請參閱_Tivoli Storage Manager for Linux:Administrator參考資料_。

物件永遠無法使用

當歸檔節點向Tivoli Storage Manager(TSM)伺服器要求物件、且擷取失敗時、歸檔節點會在10秒的時間間隔內重試該要求。如果物件永久無法使用(例如、因為物件在磁帶上毀損)、TSM API無法向歸檔節點指出這一點、因此歸檔節點會繼續重試該要求。

發生這種情況時、會觸發警示、而且值會持續增加。若要查看警示、請選取*支援*>*工具*>*網格拓撲*。然後選擇*歸檔節點*>* ARC/>*擷取*>*要求失敗*。

如果物件永久無法使用、您必須識別物件、然後依照程序中所述、手動取消歸檔節點的要求。 判斷物件是否永久無法使用

如果物件暫時無法使用、擷取也可能失敗。在這種情況下、後續的擷取要求最終應該會成功。

如果將此作業系統設定為使用建立單一物件複本的ILM規則、而且無法擷取該複本、則物件將會遺失、無法恢復。StorageGRID不過、您仍必須遵循程序來判斷物件是否永久無法「清除」StorageGRID 此作業系統、取消歸檔節點的要求、以及清除遺失物件的中繼資料。

判斷物件是否永久無法使用

您可以使用TSM管理主控台提出要求、判斷物件是否永久無法使用。

您需要的產品
  • 您必須擁有特定的存取權限。

  • 您必須擁有「passwors.txt」檔案。

  • 您必須知道管理節點的IP位址。

關於這項工作

此範例僅供參考、此程序無法協助您識別所有可能導致物件或磁帶磁碟區無法使用的故障情況。如需TSM管理的相關資訊、請參閱TSM伺服器文件。

步驟
  1. 登入管理節點:

    1. 輸入下列命令:「sh admin@admin_Node_IP」

    2. 輸入「passwords.txt」檔案中所列的密碼。

  2. 識別歸檔節點無法擷取的物件:

    1. 移至包含稽核記錄檔的目錄:「CD /var/local/exital/export/export/export」

      作用中的稽核記錄檔名為稽核記錄檔。一天只要儲存一次作用中的「稽核記錄」檔案、就會啟動新的「稽核記錄」檔案。儲存檔案的名稱會以「youty-mm-dd.txt"格式、指出儲存檔案的時間。一天後、儲存的檔案會壓縮並重新命名、格式為「yyyy-mm-dd.gt」、保留原始日期。

    2. 在相關的稽核記錄檔中搜尋訊息、指出無法擷取歸檔物件。例如、輸入:「Grep Arce audit.log | less -n」

      當無法從歸檔節點擷取物件時、Arce稽核訊息(歸檔物件擷取結束)會在結果欄位中顯示Arun(歸檔中介軟體無法使用)或GERR(一般錯誤)。稽核記錄中的下列範例行顯示Arce訊息終止、其CBID 498D8A1F681F05B3的結果為Arun。

      [AUDT:[CBID(UI64):0x498D8A1F681F05B3][VLID(UI64):20091127][RSLT(FC32):ARUN][AVER(UI32):7]
      [ATIM(UI64):1350613602969243][ATYP(FC32):ARCE][ANID(UI32):13959984][AMID(FC32):ARCI]
      [ATID(UI64):4560349751312520631]]

      如需詳細資訊、請參閱瞭解稽核訊息的指示。

    3. 記錄每個要求失敗的物件的CBID。

      您也可能想要記錄TSM用來識別歸檔節點所儲存物件的下列額外資訊:

      • 檔案空間名稱:相當於歸檔節點ID。若要尋找歸檔節點ID、請選取*支援*>*工具*>*網格拓撲*。然後選擇*歸檔節點*>* ARC/>*目標*>*總覽*。

      • 高層名稱:相當於歸檔節點指派給物件的Volume ID。Volume ID採用日期格式(例如「20091127」)、並記錄為歸檔稽核訊息中物件的VLID。

      • 低層名稱:等同StorageGRID 於由該系統指派給物件的CBID。

    4. 登出命令Shell:「exit」

  3. 檢查TSM伺服器、查看步驟2中識別的物件是否永久無法使用:

    1. 登入TSM伺服器的管理主控台:「dsmadmc」

      使用設定用於ARC服務的管理使用者名稱和密碼。在Grid Manager中輸入使用者名稱和密碼。(要查看使用者名稱、請選取*支援*>*工具*>*網格拓撲*。然後選擇*歸檔節點*>* ARC/>*目標*>*組態*。)

    2. 判斷物件是否永久無法使用。

      例如、您可以在TSM活動記錄中搜尋該物件的資料完整性錯誤。以下範例顯示過去一天的活動記錄搜尋、以搜尋CBID為「498D8A1F681F05B3」的物件。

      > query actlog begindate=-1 search=276C14E94082CC69
      12/21/2008 05:39:15 ANR0548W Retrieve or restore
      failed for session 9139359 for node DEV-ARC-20 (Bycast ARC)
      processing file space /19130020 4 for file /20081002/
      498D8A1F681F05B3 stored as Archive - data
      integrity error detected. (SESSION: 9139359)
      >

      根據錯誤的性質、CBID可能不會記錄在TSM活動記錄中。您可能需要在要求失敗時搜尋記錄、找出其他TSM錯誤。

    3. 如果整個磁帶永遠無法使用、請識別儲存在該磁碟區上所有物件的CBID:「query content TSM_Volume_Name(查詢內容TSM_Volume名稱)」

      其中「TSM_Volume_Name」是無法使用磁帶的TSM名稱。以下是此命令的輸出範例:

       > query content TSM-Volume-Name
      Node Name     Type Filespace  FSID Client's Name for File Name
      ------------- ---- ---------- ---- ----------------------------
      DEV-ARC-20    Arch /19130020  216  /20081201/ C1D172940E6C7E12
      DEV-ARC-20    Arch /19130020  216  /20081201/ F1D7FBC2B4B0779E

      「Client’s Name for File Name(用戶端的檔案名稱)」與歸檔節點磁碟區ID(或TSM「High Level Name」(高層名稱))相同、其後是物件的CBID(或TSM「low Level Name」(低層名稱))。也就是「Client’s Name for File Name」(用戶端的檔案名稱)格式為「/Archive Node Volume ID /CBID」。在範例輸出的第一行中、「Client’s Name for File Name(用戶端的檔案名稱)」為「/20081201/ c1D172940E6C7E12」。

      還記得、「Filespace」是歸檔節點的節點ID。

    您需要儲存在磁碟區上的每個物件的CBID、以及歸檔節點的節點ID、才能取消擷取要求。

  4. 對於永久無法使用的每個物件、請取消擷取要求、並發出命令通知StorageGRID 此作業系統物件複本已遺失:

    重要 請謹慎使用ADE主控台。如果主控台使用不當、可能會中斷系統作業並毀損資料。請謹慎輸入命令、並僅使用本程序中所述的命令。
    1. 如果您尚未登入歸檔節點、請依照下列方式登入:

      1. 輸入下列命令:「sh admin@grid_node_ip`」

      2. 輸入「passwords.txt」檔案中所列的密碼。

      3. 輸入下列命令以切換至root:「u -」

      4. 輸入「passwords.txt」檔案中所列的密碼。

    2. 存取ARC服務的ADE主控台:「telnet localhost 1409」

    3. 取消物件的要求:「/proc/BRTr/cancel -c CBID」

      其中「CBID」是無法從TSM擷取的物件識別碼。

      如果磁帶上只有物件複本、則會取消「大量擷取」要求、並顯示「1個要求已取消」訊息。如果物件複本存在於系統的其他位置、則物件擷取會由不同的模組處理、因此對訊息的回應為「0要求已取消」。

    4. 發出命令、通知StorageGRID 此資訊系統物件複本已遺失、而且必須製作其他複本:「/proc/CMSI/Object_Lost CBID node_ID」

      其中「CBID」是無法從TSM伺服器擷取的物件識別碼、而「node_ID」是擷取失敗的歸檔節點節點的節點ID。

      您必須為每個遺失的物件複本輸入個別命令:不支援輸入一系列的CBID。

      在大多數情況下StorageGRID 、此功能會立即開始製作額外的物件資料複本、以確保遵循系統的ILM原則。

      但是、如果物件的ILM規則指定只要建立一個複本、而且該複本現在已遺失、則物件將無法恢復。在這種情況下、執行「Object_lost」命令會清除StorageGRID 從該系統中遺失物件的中繼資料。

      當「Object_lost」命令成功完成時、會傳回下列訊息:

    CLOC_LOST_ANS returned result ‘SUCS’

    +

    註 「/proc/CMSI/Object_lost」命令僅適用於儲存在「歸檔節點」上的遺失物件。
    1. 結束ADE主控台:「Exit(結束)」

    2. 登出歸檔節點:「Exit(結束)」

  5. 重設StorageGRID 申請表系統中的申請失敗值:

    1. 轉至*歸檔節點*>* ARC/>*擷取*>*組態*、然後選取*重設要求失敗計數*。

    2. 按一下*套用變更*。

相關資訊

管理StorageGRID