對StorageGRID系統進行故障排除
如果您在使用StorageGRID系統時遇到問題,請參閱本節中的提示和指南,以協助確定和解決問題。
通常,您可以自行解決問題;但是,您可能需要將某些問題上報給技術支援。
定義問題
解決問題的第一步是明確定義問題。
下表提供了您可能收集的用於定義問題的資訊類型的範例:
| 問題 | 範例回應 |
|---|---|
StorageGRID系統正在做什麼或不做什麼?它的症狀是什麼? |
客戶端應用程式報告無法將物件提取到StorageGRID中。 |
問題何時開始的? |
對象攝取首次被拒絕是在 2020 年 1 月 8 日 14:50 左右。 |
您是如何第一次注意到這個問題的? |
由客戶端應用程式通知。也收到了警報電子郵件通知。 |
該問題是持續發生還是只是偶爾發生? |
問題仍在繼續。 |
如果問題經常發生,哪些步驟會導致該問題發生 |
每次客戶端嘗試攝取物件時都會發生問題。 |
如果問題間歇性發生,那麼它何時發生?記錄您所知道的每個事件的時間。 |
問題不是間歇性的。 |
您以前見過這個問題嗎?您過去多久遇到一次這個問題? |
這是我第一次看到這個問題。 |
評估風險和對系統的影響
定義問題後,評估其風險和對StorageGRID系統的影響。例如,出現嚴重警報並不一定意味著系統沒有提供核心服務。
下表總結了範例問題對系統操作的影響:
| 問題 | 範例回應 |
|---|---|
StorageGRID系統可以擷取內容嗎? |
不。 |
客戶端應用程式可以檢索內容嗎? |
有些物件可以檢索,有些則不能。 |
數據有風險嗎? |
不。 |
開展業務的能力是否受到嚴重影響? |
是的,因為客戶端應用程式無法將物件儲存到StorageGRID系統,並且無法一致地檢索資料。 |
收集數據
定義問題並評估其風險和影響後,收集數據進行分析。收集最有用的資料類型取決於問題的性質。
| 要收集的資料類型 | 為什麼要收集這些數據 | 指示 |
|---|---|---|
建立最近更改的時間軸 |
對StorageGRID系統、其配置或環境的變更可能會導致新的行為。 |
|
查看警報 |
警報可以提供有關可能導致問題的根本問題的重要線索,從而幫助您快速確定問題的根本原因。 查看目前警示列表,了解StorageGRID是否已為您確定問題的根本原因。 審查過去觸發的警報以獲取更多見解。 |
|
監視事件 |
事件包括節點的任何系統錯誤或故障事件,包括網路錯誤等錯誤。監控事件以了解有關問題的更多資訊或協助進行故障排除。 |
|
使用圖表和文字報告識別趨勢 |
趨勢可以提供有關問題首次出現時間的寶貴線索,並可以幫助您了解事物變化的速度。 |
|
建立基線 |
收集有關各種操作值的正常水平的資訊。這些基線值以及與這些基線的偏差可以提供有價值的線索。 |
|
執行攝取和檢索測試 |
若要解決攝取和檢索的效能問題,請使用工作站來儲存和檢索物件。將結果與使用客戶端應用程式時看到的結果進行比較。 |
|
審查審計訊息 |
查看審計訊息以詳細追蹤StorageGRID操作。審計訊息中的詳細資訊對於解決許多類型的問題(包括效能問題)很有用。 |
|
檢查物件位置和儲存完整性 |
如果您遇到儲存問題,請驗證物件是否放置在您預期的位置。檢查儲存節點上物件資料的完整性。 |
|
收集數據以提供技術支援 |
技術支援可能會要求您收集資料或查看特定資訊以協助解決問題。 |
建立最近更改的時間軸
當出現問題時,您應該考慮最近發生了什麼變化以及何時發生這些變化。
-
對StorageGRID系統、其配置或環境的變更可能會導致新的行為。
-
變更的時間軸可以幫助您確定哪些變更可能導致問題,以及每個變更可能如何影響問題的發展。
建立一個系統最近更改的表格,其中包括每個更改發生的時間資訊以及有關更改的任何相關詳細信息,例如有關更改進行過程中發生的其他情況的信息:
| 變革的時間 | 變更類型 | 細節 |
|---|---|---|
例如:
|
發生了什麼事?你做了什麼? |
記錄有關變更的任何相關細節。例如:
請務必注意是否同時發生多項變更。例如,此更改是在升級過程中進行的嗎? |
近期重大變化的例子
以下是一些可能產生重大變化的例子:
-
StorageGRID系統是否最近安裝、擴充或復原?
-
最近系統有升級嗎?是否應用了修補程式?
-
最近是否有任何硬體被修理或更換?
-
ILM 政策是否已更新?
-
客戶的工作量有改變嗎?
-
客戶端應用程式或其行為是否發生了變化?
-
您是否更改了負載平衡器,或新增或刪除了管理節點或網關節點的高可用性群組?
-
是否已開始任何可能需要很長時間才能完成的任務?範例包括:
-
故障儲存節點的復原
-
儲存節點退役
-
-
使用者驗證是否發生了任何變化,例如新增租用戶或更改 LDAP 配置?
-
是否正在進行資料遷移?
-
平台服務最近是否啟用或更改?
-
最近是否啟用了合規性?
-
雲端儲存池是否已新增或刪除?
-
儲存壓縮或加密有任何變化嗎?
-
網路基礎設施有任何變化嗎?例如,VLAN、路由器或 DNS。
-
NTP 源有任何變化嗎?
-
網格、管理或客戶端網路介面是否有任何變更?
-
StorageGRID系統或其環境是否進行了任何其他變更?
建立基線
您可以透過記錄各種操作值的正常水平來為您的系統建立基線。將來,您可以將當前值與這些基線進行比較,以幫助檢測和解決異常值。
| 財產 | 價值 | 如何獲取 |
|---|---|---|
平均儲存消耗 |
每日消耗 GB 每日消耗百分比 |
轉到網格管理器。在「節點」頁面上,選擇整個網格或站點,然後前往「儲存」標籤。 在「已使用儲存 - 物件資料」圖表上,找到線條相當穩定的時期。將遊標放在圖表上,估算每天消耗的儲存空間 您可以為整個系統或特定資料中心收集此資訊。 |
平均元數據消耗 |
每日消耗 GB 每日消耗百分比 |
轉到網格管理器。在「節點」頁面上,選擇整個網格或站點,然後前往「儲存」標籤。 在「已使用儲存 - 物件元資料」圖表上,找到線條相當穩定的時期。將遊標放在圖表上,估算每天消耗多少元資料儲存空間 您可以為整個系統或特定資料中心收集此資訊。 |
S3/Swift 操作率 |
每秒運算元 |
在網格管理器儀表板上,選擇*效能* > S3 操作*或*效能 > Swift 操作。 若要查看特定網站或節點的擷取和擷取速率和計數,請選擇 NODES > site 或 Storage Node > Objects。將遊標放在 S3 的「提取和檢索」圖表上。 |
S3/Swift 操作失敗 |
營運 |
選擇*支援* > 工具 > 網格拓撲。在 API 操作部分的概覽標籤上,查看 S3 操作 - 失敗或 Swift 操作 - 失敗的值。 |
ILM 評估率 |
對象/秒 |
從節點頁面中,選擇 grid > ILM。 在 ILM 隊列圖上,找出線路相當穩定的時期。將遊標放在圖表上以估算系統的*評估率*的基線值。 |
ILM 掃描速率 |
對象/秒 |
選擇 NODES > grid > ILM。 在 ILM 隊列圖上,找出線路相當穩定的時期。將遊標放在圖表上以估算系統的*掃描率*的基線值。 |
來自客戶端操作的排隊對象 |
對象/秒 |
選擇 NODES > grid > ILM。 在 ILM 隊列圖上,找出線路相當穩定的時期。將遊標放在圖表上,以估算系統的*排隊物件(來自用戶端操作)*的基線值。 |
平均查詢延遲 |
毫秒 |
選擇 NODES > Storage Node > Objects。在查詢表中,查看平均延遲的值。 |
分析數據
使用您收集的資訊來確定問題的原因和潛在的解決方案。
分析取決於具體問題,但一般來說:
-
使用警報定位故障點和瓶頸。
-
使用警報歷史和圖表重建問題歷史。
-
使用圖表尋找異常並將問題狀況與正常操作進行比較。
升級資訊清單
如果您無法自行解決問題,請聯絡技術支援。在聯絡技術支援之前,請收集下表中列出的資訊以便於解決問題。
![]() |
物品 | 筆記 |
|---|---|---|
問題陳述 |
問題症狀是什麼?問題何時開始的?它是持續發生還是間歇性發生?如果是間歇性的,發生過幾次? |
|
影響評估 |
問題的嚴重性如何?對客戶端應用程式有何影響?
|
|
StorageGRID系統 ID |
選擇*維護* > 系統 > 許可證。StorageGRID系統 ID 顯示為目前授權的一部分。 |
|
軟體版本 |
從網格管理器的頂部,選擇幫助圖示並選擇*關於*以查看StorageGRID版本。 |
|
客製化 |
總結您的StorageGRID系統的設定方式。例如,列出以下內容:
|
|
日誌檔案和系統數據 |
收集系統的日誌檔案和系統資料。選擇 支援 > 工具 > 日誌。 您可以收集整個網格或選定節點的日誌。 如果您僅收集選定節點的日誌,請確保至少包含一個具有 ADC 服務的儲存節點。(站點的前三個儲存節點包括 ADC 服務。) |
|
基線資訊 |
收集有關攝取操作、檢索操作和儲存消耗的基線資訊。 |
|
近期變化的時間表 |
建立一個時間線,總結系統或其環境的任何近期變化。 |
|
診斷問題的努力歷史 |
如果您已採取措施自行診斷或解決問題,請務必記錄您採取的步驟和結果。 |
