本繁體中文版使用機器翻譯，譯文僅供參考，若與英文版本牴觸，應以英文版本為準。

升級儲存設備之前、請先執行Element儲存設備健全狀況檢查

03/27/2023 貢獻者

PDF

您必須在升級元素儲存設備之前執行健全狀況檢查、以確保叢集中的所有儲存節點都已準備好進行下一個元素儲存設備升級。

您需要的產品

管理服務：您已更新至最新的管理服務套裝組合（2.10.27或更新版本）。

您必須先升級至最新的管理服務套裝組合、才能升級Element軟體。
管理節點：您執行的是管理節點11.3或更新版本。
* Element軟體*：您的叢集版本執行NetApp Element 的是功能不全的軟體11.3或更新版本。
終端使用者授權合約（EULA）：從管理服務2.20.69開始、您必須先接受並儲存EULA、才能使用NetApp混合雲控制UI或API來執行元件儲存健全狀況檢查：
1. 在Web瀏覽器中開啟管理節點的IP位址：
  https://<ManagementNodeIP>
2. 提供儲存叢集管理員認證資料、以登入NetApp混合雲控制系統。
3. 選取介面右上角附近的*升級*。
4. 隨即顯示EULA。向下捲動、選取*我接受目前及所有未來更新*、然後選取*儲存*。

健全狀況檢查選項

您可以使用NetApp混合雲控制（HCC）UI、HCCAPI或HealthTools套件執行健全狀況檢查：

在升級儲存設備之前、請使用NetApp混合雲控制來執行Element儲存設備健全狀況檢查（偏好的方法）
在升級儲存設備之前、請使用API執行元素儲存設備健全狀況檢查
在升級儲存設備之前、請使用HealthTools執行Element儲存設備健全狀況檢查

您也可以深入瞭解服務執行的儲存健全狀況檢查：

由服務進行儲存健全狀況檢查

在升級儲存設備之前、請使用NetApp混合雲控制來執行Element儲存設備健全狀況檢查

使用NetApp混合雲控制（HCC）、您可以確認儲存叢集已準備好升級。

步驟

在Web瀏覽器中開啟管理節點的IP位址：
```
https://<ManagementNodeIP>
```
提供儲存叢集管理員認證資料、以登入NetApp混合雲控制系統。
選取介面右上角附近的*升級*。
在「升級」頁面上、選取「儲存設備」索引標籤。
選取健全狀況檢查針對您要檢查升級準備度的叢集。
在「儲存設備健全狀況檢查」頁面上、選取「執行健全狀況檢查」。
如果發生問題、請執行下列動作：
1. 請前往每個問題所列的特定KB文章、或執行指定的補救措施。
2. 如果指定KB、請完成相關KB文章中所述的程序。
3. 解決叢集問題之後、請選取*重新執行健全狀況檢查*。

健全狀況檢查完成且無錯誤之後、儲存叢集便可開始升級。請參閱儲存節點升級 "說明" 以繼續。

在升級儲存設備之前、請使用API執行元素儲存設備健全狀況檢查

您可以使用REST API來驗證儲存叢集是否已準備好升級。健全狀況檢查可驗證升級是否沒有任何障礙、例如擱置的節點、磁碟空間問題和叢集故障。

步驟

找出儲存叢集ID：
1. 在管理節點上開啟管理節點REST API UI：
  https://<ManagementNodeIP>/mnode
2. 選擇*授權*並完成下列項目：
  1. 輸入叢集使用者名稱和密碼。
  2. 如果尚未填入值、請將用戶端ID輸入為「mnode-client」。
  3. 選取*授權*以開始工作階段。
  4. 關閉授權視窗。
3. 從REST API UI中、選取「Get /Assets」。
4. 選擇*試用*。
5. 選擇*執行*。
6. 從回應中、複製叢集「儲存設備」區段中的「id」、以檢查是否已準備好升級。
  
  請勿使用本節中的「父」值、因為這是管理節點的ID、而非儲存叢集的ID。
```
"config": {},
"credentialid": "12bbb2b2-f1be-123b-1234-12c3d4bc123e",
"host_name": "SF_DEMO",
"id": "12cc3a45-e6e7-8d91-a2bb-0bdb3456b789",
"ip": "10.123.12.12",
"parent": "d123ec42-456e-8912-ad3e-4bd56f4a789a",
"sshcredentialid": null,
"ssl_certificate": null
```

在儲存叢集上執行健全狀況檢查：

在管理節點上開啟儲存REST API UI：
```
https://<ManagementNodeIP>/storage/1/
```
選擇*授權*並完成下列項目：
1. 輸入叢集使用者名稱和密碼。
2. 如果尚未填入值、請將用戶端ID輸入為「mnode-client」。
3. 選取*授權*以開始工作階段。
4. 關閉授權視窗。
選擇* POST / heate-checks*。
選擇*試用*。

在「參數」欄位中、輸入在步驟1中取得的儲存叢集ID。

{
  "config": {},
  "storageId": "123a45b6-1a2b-12a3-1234-1a2b34c567d8"
}

選取*執行*以在指定的儲存叢集上執行健全狀況檢查。

回應應指出「正在初始化」狀態：

{
  "_links": {
    "collection": "https://10.117.149.231/storage/1/health-checks",
    "log": "https://10.117.149.231/storage/1/health-checks/358f073f-896e-4751-ab7b-ccbb5f61f9fc/log",
    "self": "https://10.117.149.231/storage/1/health-checks/358f073f-896e-4751-ab7b-ccbb5f61f9fc"
  },
  "config": {},
  "dateCompleted": null,
  "dateCreated": "2020-02-21T22:11:15.476937+00:00",
  "healthCheckId": "358f073f-896e-4751-ab7b-ccbb5f61f9fc",
  "state": "initializing",
  "status": null,
  "storageId": "c6d124b2-396a-4417-8a47-df10d647f4ab",
  "taskId": "73f4df64-bda5-42c1-9074-b4e7843dbb77"
}

複製回應中的「healthChecksID」。

驗證健全狀況檢查的結果：
1. 選取*「Get」（取得）/「health-checksore/｛healthChecksId｝*。
2. 選擇*試用*。
3. 在參數欄位中輸入健全狀況檢查ID。
4. 選擇*執行*。
5. 捲動至回應本文的底部。
  
  如果所有健全狀況檢查都成功、傳回的範例類似於下列範例：
```
"message": "All checks completed successfully.",
"percent": 100,
"timestamp": "2020-03-06T00:03:16.321621Z"
```
如果傳回的「訊息」表示叢集健全狀況有問題、請執行下列動作：
1. 選取*「Get」（取得）/「health-checksore/｛healstChecksId｝/「log*」
2. 選擇*試用*。
3. 在參數欄位中輸入健全狀況檢查ID。
4. 選擇*執行*。
5. 檢閱任何特定錯誤、並取得相關的知識庫文章連結。
6. 請前往每個問題所列的特定KB文章、或執行指定的補救措施。
7. 如果指定KB、請完成相關KB文章中所述的程序。
8. 解決叢集問題之後、請再次執行*取得RESI/health-checks/｛healChecksId｝/ log*。

在升級儲存設備之前、請使用HealthTools執行Element儲存設備健全狀況檢查

您可以使用「shupgradecheck」命令來驗證儲存叢集是否已準備好升級。此命令可驗證擱置節點、磁碟空間和叢集故障等資訊。

如果您的管理節點位於沒有外部連線的黑暗站台、則升級整備度檢查需要您在期間下載的「metadata.json」檔案 "HealthTools升級" 以成功執行。

關於這項工作

本程序說明如何因應產生下列其中一項結果的升級檢查：

成功執行「shupgradecheck」命令。您的叢集已準備好升級。
在「shupgradecheck」工具中檢查失敗、並顯示錯誤訊息。您的叢集尚未準備好升級、需要執行其他步驟。
您的升級檢查失敗、並顯示錯誤訊息指出HealthTools已過期。
您的升級檢查失敗、因為管理節點位於黑暗站台。

步驟

執行「shupgradecheck"命令：

sfupgradecheck -u <cluster-user-name> MVIP

對於包含特殊字元的密碼、請在每個特殊字元之前加上反斜槓（`\）。例如、「mypass!@1」應輸入為「mypass\!@」。

範例輸入命令、其中包含範例輸出、不會出現錯誤、您可以準備升級：

sfupgradecheck -u admin 10.117.78.244

check_pending_nodes:
Test Description: Verify no pending nodes in cluster
More information: https://kb.netapp.com/support/s/article/ka11A0000008ltOQAQ/pendingnodes
check_cluster_faults:
Test Description: Report any cluster faults
check_root_disk_space:
Test Description: Verify node root directory has at least 12 GBs of available disk space
Passed node IDs: 1, 2, 3
More information: https://kb.netapp.com/support/s/article/ka11A0000008ltTQAQ/
SolidFire-Disk-space-error
check_mnode_connectivity:
Test Description: Verify storage nodes can communicate with management node
Passed node IDs: 1, 2, 3
More information: https://kb.netapp.com/support/s/article/ka11A0000008ltYQAQ/mNodeconnectivity
check_files:
Test Description: Verify options file exists
Passed node IDs: 1, 2, 3
check_cores:
Test Description: Verify no core or dump files exists
Passed node IDs: 1, 2, 3
check_upload_speed:
Test Description: Measure the upload speed between the storage node and the
management node
Node ID: 1 Upload speed: 90063.90 KBs/sec
Node ID: 3 Upload speed: 106511.44 KBs/sec
Node ID: 2 Upload speed: 85038.75 KBs/sec

如果發生錯誤、則需要採取其他行動。如需詳細資料、請參閱下列子節。

您的叢集尚未準備好升級

如果您看到與其中一項健全狀況檢查相關的錯誤訊息、請遵循下列步驟：

檢閱「shupgradecheck」錯誤訊息。

回應範例：

The following tests failed:
check_root_disk_space:
Test Description: Verify node root directory has at least 12 GBs of available disk space
Severity: ERROR
Failed node IDs: 2
Remedy: Remove unneeded files from root drive
More information: https://kb.netapp.com/support/s/article/ka11A0000008ltTQAQ/SolidFire-
Disk-space-error
check_pending_nodes:
Test Description: Verify no pending nodes in cluster
More information: https://kb.netapp.com/support/s/article/ka11A0000008ltOQAQ/pendingnodes
check_cluster_faults:
Test Description: Report any cluster faults
check_root_disk_space:
Test Description: Verify node root directory has at least 12 GBs of available disk space
Passed node IDs: 1, 3
More information: https://kb.netapp.com/support/s/article/ka11A0000008ltTQAQ/SolidFire-
Disk-space-error
check_mnode_connectivity:
Test Description: Verify storage nodes can communicate with management node
Passed node IDs: 1, 2, 3
More information: https://kb.netapp.com/support/s/article/ka11A0000008ltYQAQ/mNodeconnectivity
check_files:
Test Description: Verify options file exists
Passed node IDs: 1, 2, 3
check_cores:
Test Description: Verify no core or dump files exists
Passed node IDs: 1, 2, 3
check_upload_speed:
Test Description: Measure the upload speed between the storage node and the management node
Node ID: 1 Upload speed: 86518.82 KBs/sec
Node ID: 3 Upload speed: 84112.79 KBs/sec
Node ID: 2 Upload speed: 93498.94 KBs/sec

在此範例中、節點1的磁碟空間不足。如需詳細資訊、請參閱 "知識庫" （KB）錯誤訊息中列出的文章。

HealthTools已過期

如果您看到錯誤訊息指出HealthTools並非最新版本、請依照下列指示操作：

檢閱錯誤訊息、並注意升級檢查失敗。

回應範例：

sfupgradecheck failed: HealthTools is out of date:
installed version: 2018.02.01.200
latest version: 2020.03.01.09.
The latest version of the HealthTools can be downloaded from: https://mysupport.netapp.com/NOW/cgi-bin/software/
Or rerun with the -n option

請遵循回應中所述的指示。

您的管理節點位於黑暗站台

檢閱訊息並注意升級檢查失敗：

回應範例：

sfupgradecheck failed: Unable to verify latest available version of healthtools.

下載 "Json 檔案" 從非管理節點的電腦上的NetApp支援網站、將其重新命名為「metadata.json」。

執行下列命令：

sfupgradecheck -l --metadata=<path-to-metadata-json>

如需詳細資料、請參閱其他 "HealthTools升級" 黑暗站台的相關資訊。

執行下列命令、確認HealthTools套件為最新版本：

sfupgradecheck -u <cluster-user-name> -p <cluster-password> MVIP

由服務進行儲存健全狀況檢查

儲存健全狀況檢查會針對每個叢集進行下列檢查。

檢查名稱	節點/叢集	說明
Check _asn同步結果	叢集	驗證資料庫中的非同步結果數是否低於臨界值。
Check _cluster_faults	叢集	確認沒有任何升級封鎖叢集故障（如元素來源所定義）。
Check _upload_speed	節點	測量儲存節點與管理節點之間的上傳速度。
connection_speed_Check	節點	驗證節點是否能連線至管理節點、以提供升級套件、並預估連線速度。
Check核心	節點	檢查節點上的核心損毀傾印和核心檔案。檢查會在最近一段時間（臨界值7天）發生任何當機時失敗。
Check _root_disk_space	節點	驗證根檔案系統是否有足夠的可用空間來執行升級。
Check _var_log_disk_space	節點	驗證「/var/log/log」可用空間是否符合某個可用百分比臨界值。如果沒有、檢查將會旋轉並清除較舊的記錄、以便低於臨界值。如果無法建立足夠的可用空間、則檢查會失敗。
檢查暫掛節點	叢集	驗證叢集上是否沒有擱置的節點。

檢查名稱

節點/叢集

說明

Check _asn同步結果

叢集

驗證資料庫中的非同步結果數是否低於臨界值。

Check _cluster_faults

叢集

確認沒有任何升級封鎖叢集故障（如元素來源所定義）。

Check _upload_speed

節點

測量儲存節點與管理節點之間的上傳速度。

connection_speed_Check

節點

驗證節點是否能連線至管理節點、以提供升級套件、並預估連線速度。

Check核心

節點

檢查節點上的核心損毀傾印和核心檔案。檢查會在最近一段時間（臨界值7天）發生任何當機時失敗。

Check _root_disk_space

節點

驗證根檔案系統是否有足夠的可用空間來執行升級。

Check _var_log_disk_space

節點

驗證「/var/log/log」可用空間是否符合某個可用百分比臨界值。如果沒有、檢查將會旋轉並清除較舊的記錄、以便低於臨界值。如果無法建立足夠的可用空間、則檢查會失敗。

檢查暫掛節點

叢集

驗證叢集上是否沒有擱置的節點。