StorageGRID 系統疑難排解:概述
如果您在使用StorageGRID 無法修復的系統時遇到問題、請參閱本節中的秘訣與準則、以協助您判斷及解決問題。
問題判斷總覽
如果您遇到問題 "管理StorageGRID 一套系統"、您可以使用本圖所述的程序來識別及分析問題。您通常可以自行解決問題、但您可能需要將某些問題提報給技術支援部門。
定義問題
解決問題的第一步是清楚定義問題。
下表提供定義問題時可能收集的資訊類型範例:
| 問題 | 回應範例 | 
|---|---|
什麼是不執行的功能?StorageGRID其症狀為何?  | 
用戶端應用程式回報物件無法擷取至 StorageGRID 。  | 
問題從何時開始?  | 
2020年1月8日、約14:50時、物件擷取遭到拒絕。  | 
您第一次注意到問題的方式為何?  | 
用戶端應用程式通知。也收到警示電子郵件通知。  | 
問題是否一致發生、或只是偶爾發生?  | 
問題持續發生。  | 
如果問題經常發生、會發生哪些步驟  | 
每次用戶端嘗試擷取物件時都會發生問題。  | 
如果問題間歇性發生、何時會發生?記錄您所察覺的每個事件的時間。  | 
問題不是間歇性的。  | 
您以前是否曾遇到過這個問題?您過去有多常發生此問題?  | 
這是我第一次看到這個問題。  | 
評估系統的風險與影響
在您定義問題之後、請評估問題對StorageGRID VMware系統的風險和影響。例如、關鍵警示的存在並不代表系統不提供核心服務。
下表摘要說明範例問題對系統作業的影響:
| 問題 | 回應範例 | 
|---|---|
這個系統能否擷取內容?StorageGRID  | 
不可以  | 
用戶端應用程式可以擷取內容嗎?  | 
有些物件可以擷取、有些則無法擷取。  | 
資料是否有風險?  | 
不可以  | 
經營業務的能力是否受到嚴重影響?  | 
是的、因為用戶端應用程式無法將物件儲存至 StorageGRID 系統、因此無法一致地擷取資料。  | 
收集資料
在您定義問題並評估其風險與影響之後、請收集資料以供分析。最適合收集的資料類型取決於問題的本質。
| 要收集的資料類型 | 為什麼要收集這個資料 | 說明 | 
|---|---|---|
建立最近變更的時間表  | 
變更您的系統、其組態或環境可能會導致新的行為。StorageGRID  | 
|
檢閱警示和警示  | 
警示和警示可提供重要的線索、說明可能造成問題的潛在問題、協助您快速判斷問題的根本原因。 檢閱目前警示和警示清單、查看StorageGRID 是否已找出問題的根本原因。 檢閱過去觸發的警示和警示、以取得更多深入見解。  | 
|
監控事件  | 
事件包括節點的任何系統錯誤或故障事件、包括網路錯誤等錯誤。監控事件以深入瞭解問題或協助疑難排解。  | 
|
使用圖表和文字報告來識別趨勢  | 
趨勢可提供有關問題首次出現的寶貴線索、並可協助您瞭解事情的變化速度。  | 
|
建立基準  | 
收集各種作業值的正常層級資訊。這些基準值和偏離這些基準值、可提供寶貴的線索。  | 
|
執行擷取和擷取測試  | 
若要疑難排解擷取和擷取的效能問題、請使用工作站來儲存和擷取物件。比較使用用戶端應用程式時的結果。  | 
|
檢閱稽核訊息  | 
檢閱稽核訊息StorageGRID 以詳細追蹤各項功能。稽核訊息中的詳細資料可用於疑難排解許多類型的問題、包括效能問題。  | 
|
檢查物件位置和儲存設備完整性  | 
如果您遇到儲存問題、請確認物件放置在您預期的位置。檢查儲存節點上物件資料的完整性。  | 
|
收集技術支援資料  | 
技術支援可能會要求您收集資料或檢閱特定資訊、以協助疑難排解問題。  | 
建立最近變更的時間表
發生問題時、您應該考慮最近發生的變更、以及變更發生的時間。
- 
變更您的系統、其組態或環境可能會導致新的行為。StorageGRID
 - 
變更時間表可協助您找出可能導致問題的變更、以及每項變更可能如何影響問題的開發。
 
建立系統最近變更的表格、其中包含每項變更發生時間的相關資訊、以及變更的相關詳細資料、例如變更進行期間發生的其他事項:
| 改變時間 | 變更類型 | 詳細資料 | 
|---|---|---|
例如: 
  | 
發生什麼事了?您是做什麼工作?  | 
記錄變更的相關詳細資料。例如: 
 請務必注意、是否同時發生多項變更。例如、升級進行期間是否進行此變更?  | 
最近重大變更的範例
以下是一些可能發生重大變更的範例:
- 
最近是否安裝、擴充或恢復了這個功能?StorageGRID
 - 
系統最近是否已升級?是否套用了修補程式?
 - 
最近是否有任何硬體已修復或變更?
 - 
ILM原則是否已更新?
 - 
用戶端工作負載是否已變更?
 - 
用戶端應用程式或其行為是否有所變更?
 - 
您是否已變更負載平衡器、或新增或移除管理節點或閘道節點的高可用度群組?
 - 
是否有任何可能需要很長時間才能完成的工作?範例包括:
- 
恢復故障的儲存節點
 - 
儲存節點汰換
 
 - 
 - 
是否已對使用者驗證進行任何變更、例如新增租戶或變更LDAP組態?
 - 
資料移轉是否正在進行?
 - 
平台服務最近是否啟用或變更?
 - 
最近是否啟用法規遵循?
 - 
是否已新增或移除雲端儲存池?
 - 
儲存壓縮或加密是否有任何變更?
 - 
網路基礎架構是否有任何變更?例如、VLAN、路由器或DNS。
 - 
NTP來源是否有任何變更?
 - 
Grid、管理或用戶端網路介面是否有任何變更?
 - 
是否已對歸檔節點進行任何組態變更?
 - 
是否對StorageGRID 此系統或其環境進行任何其他變更?
 
建立基準
您可以記錄各種作業值的正常層級、為系統建立基準。未來您可以比較目前值與這些基準、以協助偵測並解決異常值。
| 屬性 | 價值 | 如何取得 | 
|---|---|---|
平均儲存使用量  | 
每天消耗GB 每日使用百分比  | 
前往Grid Manager。在「節點」頁面上、選取整個網格或站台、然後前往「儲存」索引標籤。 在「使用的儲存設備-物件資料」圖表中、找出該行相當穩定的期間。將游標放在圖表上、以預估每天使用多少儲存設備 您可以針對整個系統或特定資料中心收集此資訊。  | 
平均中繼資料使用量  | 
每天消耗GB 每日使用百分比  | 
前往Grid Manager。在「節點」頁面上、選取整個網格或站台、然後前往「儲存」索引標籤。 在「使用的儲存設備-物件中繼資料」圖表中、找出該行相當穩定的期間。將游標放在圖表上、以估計每天使用多少中繼資料儲存設備 您可以針對整個系統或特定資料中心收集此資訊。  | 
S3/Swift作業速度  | 
作業/秒  | 
在 Grid Manager 儀表板上、選取 * 效能 * > * S3 作業 * 或 * 效能 * > * Swift 作業 * 。 若要查看特定站台或節點的擷取和擷取速率及計數、請選取* nodes >*站台或Storage Node_>* Objects*。將游標放在 S3 或 Swift 的「內嵌及擷取」圖表上。  | 
S3/Swift作業失敗  | 
營運  | 
選取*支援*>*工具*>*網格拓撲*。在「API作業」區段的「總覽」索引標籤上、檢視「S3作業-失敗」或「Swift作業-失敗」的值。  | 
ILM評估率  | 
物件數/秒  | 
從「節點」頁面選取「網格_>* ILM *」。 在ILM佇列圖表中、找出線路相當穩定的期間。將游標放在圖表上、以預估系統 * 評估率 * 的基準值。  | 
ILM掃描率  | 
物件數/秒  | 
選擇*節點*>*網格_*>* ILM *。 在ILM佇列圖表中、找出線路相當穩定的期間。將游標放在圖表上、以預估系統 * 掃描速率 * 的基準值。  | 
從用戶端作業排入佇列的物件  | 
物件數/秒  | 
選擇*節點*>*網格_*>* ILM *。 在ILM佇列圖表中、找出線路相當穩定的期間。將游標放在圖表上、以預估系統的 * 物件佇列(從用戶端作業) * 的基準值。  | 
平均查詢延遲  | 
毫秒  | 
選擇*節點*>*儲存節點*>*物件*。在查詢表中、檢視平均延遲的值。  | 
分析資料
請使用您收集的資訊來判斷問題的原因和可能的解決方案。
分析是問題相依的、但一般而言:
- 
使用警示找出故障點和瓶頸。
 - 
使用警示記錄和圖表來重建問題記錄。
 - 
使用圖表找出異常狀況、並將問題情況與正常作業進行比較。
 
提報資訊檢查清單
如果您無法自行解決問題、請聯絡技術支援部門。聯絡技術支援人員之前、請先收集下表所列的資訊、以利解決問題。
![]()  | 
項目 | 附註 | 
|---|---|---|
問題陳述  | 
問題症狀為何?問題從何時開始?是否持續或間歇性發生?如果是間歇性的、發生的時間為何?  | 
|
影響評估  | 
問題的嚴重性為何?對用戶端應用程式有何影響? 
  | 
|
系統ID StorageGRID  | 
選擇*維護*>*系統*>*授權*。顯示的是目前授權的一部分。StorageGRID  | 
|
軟體版本  | 
從Grid Manager頂端、選取說明圖示、然後選取*關於*以查看StorageGRID 此版本。  | 
|
自訂  | 
概述StorageGRID 如何設定您的系統。例如、請列出下列項目: 
  | 
|
記錄檔和系統資料  | 
收集系統的記錄檔和系統資料。選擇*支援*>*工具*>*記錄*。 您可以收集整個網格或所選節點的記錄。 如果您只收集所選節點的記錄、請務必包含至少一個具有ADC服務的儲存節點。(站台的前三個儲存節點包括了「ADC」服務。)  | 
|
基礎資訊  | 
收集有關擷取作業、擷取作業和儲存使用量的基礎資訊。  | 
|
最近變更的時間表  | 
建立時間軸、摘要說明系統或其環境最近的任何變更。  | 
|
診斷問題的歷史記錄  | 
如果您已自行診斷或疑難排解問題、請務必記錄您所採取的步驟和結果。  | 
