如有需要、可將物件資料還原至儲存Volume
如果需要使用「sh-recovery -postinstall.sh」指令碼來重新格式化一或多個故障儲存磁碟區、您必須從其他儲存節點和歸檔節點將物件資料還原至重新格式化的儲存磁碟區。除非重新格式化一或多個儲存磁碟區、否則不需要執行這些步驟。
-
您必須確認已恢復的儲存節點的連線狀態為*已連線* 在Grid Manager的* nodes > Overview (*節點>*總覽*)索引標籤上。
物件資料可從其他儲存節點、歸檔節點或雲端儲存資源池還原、前提是已設定網格的ILM規則、使物件複本可供使用。
請注意下列事項:
-
如果ILM規則設定為只儲存一個複寫複本、且該複本存在於故障的儲存磁碟區上、您將無法恢復物件。
-
如果物件的唯一剩餘複本位於Cloud Storage Pool中、StorageGRID 則必須向Cloud Storage Pool端點發出多個要求、才能還原物件資料。在執行此程序之前、請聯絡技術支援部門、以協助評估恢復時間範圍及相關成本。
-
如果物件的唯一剩餘複本位於歸檔節點、則會從歸檔節點擷取物件資料。從歸檔節點將物件資料還原至儲存節點所需的時間、比從其他儲存節點還原複本所需的時間更長、因為外部歸檔儲存系統的擷取作業會產生延遲。
關於 repair-data
指令碼
若要還原物件資料、請執行「重新配對資料」指令碼。此指令碼會開始還原物件資料的程序、並與ILM掃描搭配使用、以確保符合ILM規則。
請選取下方*複寫資料*或*刪除編碼(EC)資料*、以瞭解「重新配對資料」指令碼的不同選項、視您要還原複寫資料或刪除編碼資料而定。如果您需要還原這兩種類型的資料、則必須同時執行這兩組命令。
如需有關「重新配對資料」指令碼的詳細資訊、請從主管理節點的命令列輸入「重新配對資料-說明」。 |
根據您是需要修復整個節點、還是只需要修復節點上的特定磁碟區、有兩個命令可用於還原複寫資料:
「重新配對資料開始複寫節點修復」
「重新配對資料開始複寫磁碟區修復」
您可以使用下列命令來追蹤複寫資料的修復:
「重配對資料顯示複製的修復狀態」
「如何複製修復狀態」選項可在StorageGRID 畫面上進行技術預覽。此功能正在開發中、傳回的值可能不正確或延遲。若要判斷修復是否完成、請使用*「等待–全部*」、「嘗試的維修」(XRPA)、以及*「掃描期間」-「預估(XSCM)」*、如所述 監控維修。 |
根據您是需要修復整個節點、還是只需要修復節點上的特定磁碟區、有兩個命令可用於還原銷毀編碼資料:
「重新配對資料啟動- EC-node-repair」
「重新配對資料啟動- EC-Volume修復」
在某些儲存節點離線時、可以開始修復以銷毀編碼的資料。所有節點都可用後、修復作業即告完成。
您可以使用下列命令來追蹤銷毀編碼資料的修復:
「資料配對顯示- EC-repair狀態」
EC修復工作會暫時保留大量的儲存空間。可能會觸發儲存警示、但會在修復完成時解決。如果保留的儲存空間不足、EC修復工作將會失敗。無論工作失敗或成功、儲存保留都會在EC修復工作完成時釋出。 |
尋找儲存節點的主機名稱
-
登入主要管理節點:
-
輸入下列命令:「sh admin@_primary管理節點IP」
-
輸入「passwords.txt」檔案中所列的密碼。
-
輸入下列命令以切換至root:「u -」
-
輸入「passwords.txt」檔案中所列的密碼。
以root登入時、提示會從「$」變更為「#」。
-
-
使用「/etc/hosts」檔案尋找還原儲存磁碟區的儲存節點主機名稱。若要查看網格中所有節點的清單、請輸入下列命令:「cat /etc/hosts」。
如果所有磁碟區都失敗、請修復資料
如果所有儲存磁碟區都發生故障、請修復整個節點。根據您使用的是複寫資料、銷毀編碼(EC)資料、或兩者、請遵循*複寫資料*、*銷毀編碼(EC)資料*的指示。
如果只有部分磁碟區發生故障、請前往 [如果只有部分磁碟區發生故障、請修復資料]。
您無法同時對多個節點執行「重配對資料」作業。若要恢復多個節點、請聯絡技術支援部門。 |
如果網格包含複寫資料、請使用「重新配對資料啟動複寫節點修復」命令搭配「節點」選項來修復整個儲存節點。
此命令可修復名為SG-DC-SN3之儲存節點上的複寫資料:
「重新配對資料開始複寫節點修復-節點SG-DC-SN3」
還原物件資料時、StorageGRID 如果無法找到複製的物件資料、就會觸發*物件遺失*警示。警示可能會在整個系統的儲存節點上觸發。您應該判斷遺失原因、以及是否有可能恢復。請參閱 監控及疑難排解。 |
如果您的網格含有銷毀編碼資料、請使用「重新配對資料start-ec-node-repair」命令搭配「-nodes」選項來修復整個儲存節點。
此命令可修復名為SG-DC-SN3之儲存節點上的銷毀編碼資料:
「重新配對資料啟動- EC-node-repair -節點SG-DC-SN3」
該作業會傳回唯一的「重新配對ID」、以識別此「重新配對資料」作業。使用此「配對ID」來追蹤「配對資料」作業的進度和結果。恢復程序完成時、不會傳回其他意見反應。
在某些儲存節點離線時、可以開始修復以銷毀編碼的資料。所有節點都可用後、修復作業即告完成。 |
如果只有部分磁碟區發生故障、請修復資料
如果只有部分磁碟區發生故障、請修復受影響的磁碟區。根據您使用的是複寫資料、銷毀編碼(EC)資料、或兩者、請遵循*複寫資料*、*銷毀編碼(EC)資料*的指示。
如果所有磁碟區都失敗、請前往 [如果所有磁碟區都失敗、請修復資料]。
以十六進位格式輸入Volume ID。例如、「0000」是第一個Volume、而「000F」是第16個Volume。您可以指定一個磁碟區、一個磁碟區範圍或多個未依序排列的磁碟區。
所有磁碟區都必須位於同一個儲存節點上。如果您需要還原多個儲存節點的磁碟區、請聯絡技術支援部門。
如果網格包含複製的資料、請使用「Start(開始)- repl複 製- Volume(磁碟區)修復」命令搭配「-nodes(節點)」選項來識別節點。然後新增「-volume」或「-volume -range」選項、如下列範例所示。
單一磁碟區:此命令可將複寫的資料還原至名為SG-DC-SN3的儲存節點上的磁碟區「0002」:
「重新配對資料開始複寫磁碟區修復」-節點SG-DC-SN3 -磁碟區0002
磁碟區範圍:此命令可將複寫的資料還原至儲存節點SG-DC-SN3上「0003」到「0009」範圍內的所有磁碟區:
repair-data start-replicated-volume-repair --nodes SG-DC-SN3 --volume-range 0003,0009
多個磁碟區未依序:此命令可將複寫的資料還原至名為SG-DC-SN3的儲存節點上的磁碟區「0001」、「0005」和「0008」:
「重新配對資料開始複寫磁碟區修復」-節點SG-DC-SN3 -磁碟區0001、0005、0008
還原物件資料時、StorageGRID 如果無法找到複製的物件資料、就會觸發*物件遺失*警示。警示可能會在整個系統的儲存節點上觸發。您應該判斷遺失原因、以及是否有可能恢復。請參閱「監控StorageGRID 及疑難排解指令」。 |
如果您的網格含有銷毀編碼資料、請使用「Start(開始)-EC-volume(磁碟區)修復」命令搭配「-nodes(節點)」選項來識別節點。然後新增「-volume」或「-volume -range」選項、如下列範例所示。
單一磁碟區:此命令可將銷毀編碼的資料還原至名為SG-DC-SN3的儲存節點上的Volume「0007」:
「重新配對資料啟動- EC-volume修復-節點SG-DC-SN3 - Volume 0007」
磁碟區範圍:此命令可將銷毀編碼資料還原至儲存節點SG-DC-SN3上「0004」至「0006」範圍內的所有磁碟區:
repair-data start-ec-volume-repair --nodes SG-DC-SN3 --volume-range 0004,0006
多個磁碟區未依序:此命令可將刪除編碼的資料還原至名為SG-DC-SN3的儲存節點上的磁碟區「000A」、「000C」和「000E」:
「重新配對資料啟動- EC-volume修復-節點SG-DC-SN3 - Volume 000A、000C、000E」
「重新配對資料」作業會傳回唯一的「重新配對ID」、以識別此「重新配對資料」作業。使用此「配對ID」來追蹤「配對資料」作業的進度和結果。恢復程序完成時、不會傳回其他意見反應。
在某些儲存節點離線時、可以開始修復以銷毀編碼的資料。所有節點都可用後、修復作業即告完成。 |
監控維修
根據您使用*複寫資料*、*銷毀編碼(EC)資料*或兩者、來監控修復工作的狀態。
-
若要判斷維修是否完成:
-
選擇*節點*>*要修復的儲存節點*>* ILM *。
-
檢閱「評估」區段中的屬性。當修復完成時、「等待-全部」屬性會指出0個物件。
-
-
若要更詳細地監控維修:
-
選取*支援*>*工具*>*網格拓撲*。
-
選擇*網格_*>*要修復的儲存節點_*>* LdR*>*資料儲存*。
-
請使用下列屬性組合來判斷複寫的修復是否完成、以及可能的情況。
Cassandra可能存在不一致之處、而且無法追蹤失敗的修復。 -
嘗試的維修(XRPA):使用此屬性來追蹤複寫的維修進度。每次儲存節點嘗試修復高風險物件時、此屬性都會增加。如果此屬性的增加時間不超過目前掃描期間(由*掃描期間-預估*屬性提供)、表示ILM掃描未發現任何需要在任何節點上修復的高風險物件。
高風險物件是可能完全遺失的物件。這不包括不符合ILM組態的物件。 -
掃描期間-預估(XSCM):使用此屬性來預估原則變更何時會套用至先前擷取的物件。如果*已嘗試的維修*屬性在一段時間內沒有增加、則可能是因為複寫的維修已經完成。請注意、掃描期間可能會變更。「掃描期間-預估(XSCM)」屬性適用於整個網格、是所有節點掃描期間的上限。您可以查詢網格的*掃描期間-預估*屬性歷程記錄、以判斷適當的時間範圍。
-
-
-
或者、若要預估完成複寫修復的百分比、請在repair資料命令中新增「show複寫修復狀態」選項。
「重配對資料顯示複製的修復狀態」
「如何複製修復狀態」選項可在StorageGRID 畫面上進行技術預覽。此功能正在開發中、傳回的值可能不正確或延遲。若要判斷修復是否完成、請使用*「等待–全部*」、「嘗試的維修」(XRPA)、以及*「掃描期間」-「預估(XSCM)」*、如所述 監控維修。
若要監控銷毀編碼資料的修復、然後重試任何可能失敗的要求:
-
判斷銷毀編碼資料修復的狀態:
-
選取* support*>* Tools > Metrics 以檢視目前工作的預估完成時間和完成百分比。然後在Grafana區段中選取 EC Overview 。請參閱 Grid EC工作預估完成時間*和* Grid EC工作百分比已完成*儀表板。
-
使用此命令查看特定「資料配對」作業的狀態:
「成對資料顯示- EC-repair狀態-修復ID」
-
使用此命令列出所有修復:
「資料配對顯示- EC-repair狀態」
輸出會列出所有先前和目前執行中修復的資訊、包括「資源配對ID」。
-
-
如果輸出顯示修復作業失敗、請使用「-repair id」選項重試修復。
此命令會使用修復ID 6949309319275667690、重試失敗的節點修復:
「重新配對資料start-ec-node-repair --repair id 6949309319275667690」
此命令會使用修復ID 6949309319275667690重試失敗的Volume修復:
「重新配對資料啟動- EC-volume修復-修復ID 6949309319275667690」