疑難排解StorageGRID 作業系統
如果您在使用StorageGRID 無法修復的系統時遇到問題、請參閱本節中的秘訣與準則、以協助您判斷及解決問題。
問題判斷總覽
如果您遇到問題 管理StorageGRID 一套系統、您可以使用本圖所述的程序來識別及分析問題。在許多情況下、您可以自行解決問題;不過、您可能需要將某些問題提報給技術支援。
定義問題
解決問題的第一步是清楚定義問題。
下表提供定義問題時可能收集的資訊類型範例:
問題 | 回應範例 |
---|---|
什麼是不執行的功能?StorageGRID其症狀為何? |
用戶端應用程式回報無法將物件擷取到StorageGRID 物件中。 |
問題從何時開始? |
2020年1月8日、約14:50時、物件擷取遭到拒絕。 |
您第一次注意到問題的方式為何? |
用戶端應用程式通知。也收到警示電子郵件通知。 |
問題是否一致發生、或只是偶爾發生? |
問題持續發生。 |
如果問題經常發生、會發生哪些步驟 |
每次用戶端嘗試擷取物件時都會發生問題。 |
如果問題間歇性發生、何時會發生?記錄您所察覺的每個事件的時間。 |
問題不是間歇性的。 |
您以前是否曾遇到過這個問題?您過去有多常發生此問題? |
這是我第一次看到這個問題。 |
評估系統的風險與影響
在您定義問題之後、請評估問題對StorageGRID VMware系統的風險和影響。例如、關鍵警示的存在並不代表系統不提供核心服務。
下表摘要說明範例問題對系統作業的影響:
問題 | 回應範例 |
---|---|
這個系統能否擷取內容?StorageGRID |
不可以 |
用戶端應用程式可以擷取內容嗎? |
有些物件可以擷取、有些則無法擷取。 |
資料是否有風險? |
不可以 |
經營業務的能力是否受到嚴重影響? |
是的、因為用戶端應用程式無法將物件儲存到StorageGRID 這個功能區、因此無法一致地擷取資料。 |
收集資料
在您定義問題並評估其風險與影響之後、請收集資料以供分析。最適合收集的資料類型取決於問題的本質。
要收集的資料類型 | 為什麼要收集這個資料 | 說明 |
---|---|---|
建立最近變更的時間表 |
變更您的系統、其組態或環境可能會導致新的行為。StorageGRID |
|
檢閱警示和警示 |
警示和警示可提供重要的線索、說明可能造成問題的潛在問題、協助您快速判斷問題的根本原因。 檢閱目前警示和警示清單、查看StorageGRID 是否已找出問題的根本原因。 檢閱過去觸發的警示和警示、以取得更多深入見解。 |
|
監控事件 |
事件包括節點的任何系統錯誤或故障事件、包括網路錯誤等錯誤。監控事件以深入瞭解問題或協助疑難排解。 |
|
使用圖表和文字報告來識別趨勢 |
趨勢可提供有關問題首次出現的寶貴線索、並可協助您瞭解事情的變化速度。 |
|
建立基準 |
收集各種作業值的正常層級資訊。這些基準值和偏離這些基準值、可提供寶貴的線索。 |
|
執行擷取和擷取測試 |
若要疑難排解擷取和擷取的效能問題、請使用工作站來儲存和擷取物件。比較使用用戶端應用程式時的結果。 |
|
檢閱稽核訊息 |
檢閱稽核訊息StorageGRID 以詳細追蹤各項功能。稽核訊息中的詳細資料可用於疑難排解許多類型的問題、包括效能問題。 |
|
檢查物件位置和儲存設備完整性 |
如果您遇到儲存問題、請確認物件放置在您預期的位置。檢查儲存節點上物件資料的完整性。 |
|
收集技術支援資料 |
技術支援可能會要求您收集資料或檢閱特定資訊、以協助疑難排解問題。 |
建立最近變更的時間表
發生問題時、您應該考慮最近發生的變更、以及變更發生的時間。
-
變更您的系統、其組態或環境可能會導致新的行為。StorageGRID
-
變更時間表可協助您找出可能導致問題的變更、以及每項變更可能如何影響問題的開發。
建立系統最近變更的表格、其中包含每項變更發生時間的相關資訊、以及變更的相關詳細資料、例如變更進行期間發生的其他事項:
改變時間 | 變更類型 | 詳細資料 |
---|---|---|
例如:
|
發生什麼事了?您是做什麼工作? |
記錄變更的相關詳細資料。例如:
請務必注意、是否同時發生多項變更。例如、升級進行期間是否進行此變更? |
最近重大變更的範例
以下是一些可能發生重大變更的範例:
-
最近是否安裝、擴充或恢復了這個功能?StorageGRID
-
系統最近是否已升級?是否套用了修補程式?
-
最近是否有任何硬體已修復或變更?
-
ILM原則是否已更新?
-
用戶端工作負載是否已變更?
-
用戶端應用程式或其行為是否有所變更?
-
您是否已變更負載平衡器、或新增或移除管理節點或閘道節點的高可用度群組?
-
是否有任何可能需要很長時間才能完成的工作?範例包括:
-
恢復故障的儲存節點
-
儲存節點汰換
-
-
是否已對使用者驗證進行任何變更、例如新增租戶或變更LDAP組態?
-
資料移轉是否正在進行?
-
平台服務最近是否啟用或變更?
-
最近是否啟用法規遵循?
-
是否已新增或移除雲端儲存池?
-
儲存壓縮或加密是否有任何變更?
-
網路基礎架構是否有任何變更?例如、VLAN、路由器或DNS。
-
NTP來源是否有任何變更?
-
Grid、管理或用戶端網路介面是否有任何變更?
-
是否已對歸檔節點進行任何組態變更?
-
是否對StorageGRID 此系統或其環境進行任何其他變更?
[[INESD_Baselines(建立基準)]建立基準
您可以記錄各種作業值的正常層級、為系統建立基準。未來您可以比較目前值與這些基準、以協助偵測並解決異常值。
屬性 | 價值 | 如何取得 |
---|---|---|
平均儲存使用量 |
每天消耗GB 每日使用百分比 |
前往Grid Manager。在「節點」頁面上、選取整個網格或站台、然後前往「儲存」索引標籤。 在「使用的儲存設備-物件資料」圖表中、找出該行相當穩定的期間。將游標停留在圖表上、以預估每天使用多少儲存設備 您可以針對整個系統或特定資料中心收集此資訊。 |
平均中繼資料使用量 |
每天消耗GB 每日使用百分比 |
前往Grid Manager。在「節點」頁面上、選取整個網格或站台、然後前往「儲存」索引標籤。 在「使用的儲存設備-物件中繼資料」圖表中、找出該行相當穩定的期間。將游標停留在圖表上、以預估每天使用的中繼資料儲存量 您可以針對整個系統或特定資料中心收集此資訊。 |
S3/Swift作業速度 |
作業/秒 |
前往Grid Manager中的儀表板。在「傳輸協定作業」區段中、檢視S3速率和Swift速率的值。 若要查看特定站台或節點的擷取和擷取速率及計數、請選取* nodes >*站台或Storage Node_>* Objects*。將游標暫留在「內嵌」上、然後擷取S3或Swift的圖表。 |
S3/Swift作業失敗 |
營運 |
選取*支援*>*工具*>*網格拓撲*。在「API作業」區段的「總覽」索引標籤上、檢視「S3作業-失敗」或「Swift作業-失敗」的值。 |
ILM評估率 |
物件數/秒 |
從「節點」頁面選取「網格_>* ILM *」。 在ILM佇列圖表中、找出線路相當穩定的期間。將游標停留在圖表上、以預估系統的*評估率*基準值。 |
ILM掃描率 |
物件數/秒 |
選擇*節點*>*網格_*>* ILM *。 在ILM佇列圖表中、找出線路相當穩定的期間。將游標暫留在圖表上、以預估系統的*掃描速率*基準值。 |
從用戶端作業排入佇列的物件 |
物件數/秒 |
選擇*節點*>*網格_*>* ILM *。 在ILM佇列圖表中、找出線路相當穩定的期間。將游標停留在圖表上、以預估系統的*佇列物件(來自用戶端作業)*基準值。 |
平均查詢延遲 |
毫秒 |
選擇*節點*>*儲存節點*>*物件*。在查詢表中、檢視平均延遲的值。 |
分析資料
請使用您收集的資訊來判斷問題的原因和可能的解決方案。
分析是問題相依的、但一般而言:
-
使用警示找出故障點和瓶頸。
-
使用警示記錄和圖表來重建問題記錄。
-
使用圖表找出異常狀況、並將問題情況與正常作業進行比較。
提報資訊檢查清單
如果您無法自行解決問題、請聯絡技術支援部門。聯絡技術支援人員之前、請先收集下表所列的資訊、以利解決問題。
項目 | 附註 | |
---|---|---|
問題陳述 |
問題症狀為何?問題從何時開始?是否持續或間歇性發生?如果是間歇性的、發生的時間為何? |
|
影響評估 |
問題的嚴重性為何?對用戶端應用程式有何影響?
|
|
系統ID StorageGRID |
選擇*維護*>*系統*>*授權*。顯示的是目前授權的一部分。StorageGRID |
|
軟體版本 |
從Grid Manager頂端、選取說明圖示、然後選取*關於*以查看StorageGRID 此版本。 |
|
自訂 |
概述StorageGRID 如何設定您的系統。例如、請列出下列項目:
|
|
記錄檔和系統資料 |
收集系統的記錄檔和系統資料。選擇*支援*>*工具*>*記錄*。 您可以收集整個網格或所選節點的記錄。 如果您只收集所選節點的記錄、請務必包含至少一個具有ADC服務的儲存節點。(站台的前三個儲存節點包括了「ADC」服務。) |
|
基礎資訊 |
收集有關擷取作業、擷取作業和儲存使用量的基礎資訊。 |
|
最近變更的時間表 |
建立時間軸、摘要說明系統或其環境最近的任何變更。 |
|
診斷問題的歷史記錄 |
如果您已自行診斷或疑難排解問題、請務必記錄您所採取的步驟和結果。 |