Skip to main content
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

疑難排解StorageGRID 作業系統

貢獻者

如果您在使用StorageGRID 無法修復的系統時遇到問題、請參閱本節中的秘訣與準則、以協助您判斷及解決問題。

問題判斷總覽

如果您遇到問題 管理StorageGRID 一套系統、您可以使用本圖所述的程序來識別及分析問題。在許多情況下、您可以自行解決問題;不過、您可能需要將某些問題提報給技術支援。

流程圖顯示問題判斷程序的主要步驟

定義問題

解決問題的第一步是清楚定義問題。

下表提供定義問題時可能收集的資訊類型範例:

問題 回應範例

什麼是不執行的功能?StorageGRID其症狀為何?

用戶端應用程式回報無法將物件擷取到StorageGRID 物件中。

問題從何時開始?

2020年1月8日、約14:50時、物件擷取遭到拒絕。

您第一次注意到問題的方式為何?

用戶端應用程式通知。也收到警示電子郵件通知。

問題是否一致發生、或只是偶爾發生?

問題持續發生。

如果問題經常發生、會發生哪些步驟

每次用戶端嘗試擷取物件時都會發生問題。

如果問題間歇性發生、何時會發生?記錄您所察覺的每個事件的時間。

問題不是間歇性的。

您以前是否曾遇到過這個問題?您過去有多常發生此問題?

這是我第一次看到這個問題。

評估系統的風險與影響

在您定義問題之後、請評估問題對StorageGRID VMware系統的風險和影響。例如、關鍵警示的存在並不代表系統不提供核心服務。

下表摘要說明範例問題對系統作業的影響:

問題 回應範例

這個系統能否擷取內容?StorageGRID

不可以

用戶端應用程式可以擷取內容嗎?

有些物件可以擷取、有些則無法擷取。

資料是否有風險?

不可以

經營業務的能力是否受到嚴重影響?

是的、因為用戶端應用程式無法將物件儲存到StorageGRID 這個功能區、因此無法一致地擷取資料。

收集資料

在您定義問題並評估其風險與影響之後、請收集資料以供分析。最適合收集的資料類型取決於問題的本質。

要收集的資料類型 為什麼要收集這個資料 說明

建立最近變更的時間表

變更您的系統、其組態或環境可能會導致新的行為。StorageGRID

檢閱警示和警示

警示和警示可提供重要的線索、說明可能造成問題的潛在問題、協助您快速判斷問題的根本原因。

檢閱目前警示和警示清單、查看StorageGRID 是否已找出問題的根本原因。

檢閱過去觸發的警示和警示、以取得更多深入見解。

監控事件

事件包括節點的任何系統錯誤或故障事件、包括網路錯誤等錯誤。監控事件以深入瞭解問題或協助疑難排解。

使用圖表和文字報告來識別趨勢

趨勢可提供有關問題首次出現的寶貴線索、並可協助您瞭解事情的變化速度。

建立基準

收集各種作業值的正常層級資訊。這些基準值和偏離這些基準值、可提供寶貴的線索。

執行擷取和擷取測試

若要疑難排解擷取和擷取的效能問題、請使用工作站來儲存和擷取物件。比較使用用戶端應用程式時的結果。

檢閱稽核訊息

檢閱稽核訊息StorageGRID 以詳細追蹤各項功能。稽核訊息中的詳細資料可用於疑難排解許多類型的問題、包括效能問題。

檢查物件位置和儲存設備完整性

如果您遇到儲存問題、請確認物件放置在您預期的位置。檢查儲存節點上物件資料的完整性。

收集技術支援資料

技術支援可能會要求您收集資料或檢閱特定資訊、以協助疑難排解問題。

建立最近變更的時間表

發生問題時、您應該考慮最近發生的變更、以及變更發生的時間。

  • 變更您的系統、其組態或環境可能會導致新的行為。StorageGRID

  • 變更時間表可協助您找出可能導致問題的變更、以及每項變更可能如何影響問題的開發。

建立系統最近變更的表格、其中包含每項變更發生時間的相關資訊、以及變更的相關詳細資料、例如變更進行期間發生的其他事項:

改變時間 變更類型 詳細資料

例如:

  • 您何時開始恢復節點?

  • 軟體升級何時完成?

  • 您是否中斷此程序?

發生什麼事了?您是做什麼工作?

記錄變更的相關詳細資料。例如:

  • 網路變更的詳細資料。

  • 安裝了哪個修補程式。

  • 用戶端工作負載的變更方式。

請務必注意、是否同時發生多項變更。例如、升級進行期間是否進行此變更?

最近重大變更的範例

以下是一些可能發生重大變更的範例:

  • 最近是否安裝、擴充或恢復了這個功能?StorageGRID

  • 系統最近是否已升級?是否套用了修補程式?

  • 最近是否有任何硬體已修復或變更?

  • ILM原則是否已更新?

  • 用戶端工作負載是否已變更?

  • 用戶端應用程式或其行為是否有所變更?

  • 您是否已變更負載平衡器、或新增或移除管理節點或閘道節點的高可用度群組?

  • 是否有任何可能需要很長時間才能完成的工作?範例包括:

    • 恢復故障的儲存節點

    • 儲存節點汰換

  • 是否已對使用者驗證進行任何變更、例如新增租戶或變更LDAP組態?

  • 資料移轉是否正在進行?

  • 平台服務最近是否啟用或變更?

  • 最近是否啟用法規遵循?

  • 是否已新增或移除雲端儲存池?

  • 儲存壓縮或加密是否有任何變更?

  • 網路基礎架構是否有任何變更?例如、VLAN、路由器或DNS。

  • NTP來源是否有任何變更?

  • Grid、管理或用戶端網路介面是否有任何變更?

  • 是否已對歸檔節點進行任何組態變更?

  • 是否對StorageGRID 此系統或其環境進行任何其他變更?

[[INESD_Baselines(建立基準)]建立基準

您可以記錄各種作業值的正常層級、為系統建立基準。未來您可以比較目前值與這些基準、以協助偵測並解決異常值。

屬性 價值 如何取得

平均儲存使用量

每天消耗GB

每日使用百分比

前往Grid Manager。在「節點」頁面上、選取整個網格或站台、然後前往「儲存」索引標籤。

在「使用的儲存設備-物件資料」圖表中、找出該行相當穩定的期間。將游標停留在圖表上、以預估每天使用多少儲存設備

您可以針對整個系統或特定資料中心收集此資訊。

平均中繼資料使用量

每天消耗GB

每日使用百分比

前往Grid Manager。在「節點」頁面上、選取整個網格或站台、然後前往「儲存」索引標籤。

在「使用的儲存設備-物件中繼資料」圖表中、找出該行相當穩定的期間。將游標停留在圖表上、以預估每天使用的中繼資料儲存量

您可以針對整個系統或特定資料中心收集此資訊。

S3/Swift作業速度

作業/秒

前往Grid Manager中的儀表板。在「傳輸協定作業」區段中、檢視S3速率和Swift速率的值。

若要查看特定站台或節點的擷取和擷取速率及計數、請選取* nodes >*站台或Storage Node_>* Objects*。將游標暫留在「內嵌」上、然後擷取S3或Swift的圖表。

S3/Swift作業失敗

營運

選取*支援*>*工具*>*網格拓撲*。在「API作業」區段的「總覽」索引標籤上、檢視「S3作業-失敗」或「Swift作業-失敗」的值。

ILM評估率

物件數/秒

從「節點」頁面選取「網格_>* ILM *」。

在ILM佇列圖表中、找出線路相當穩定的期間。將游標停留在圖表上、以預估系統的*評估率*基準值。

ILM掃描率

物件數/秒

選擇*節點*>*網格_*>* ILM *。

在ILM佇列圖表中、找出線路相當穩定的期間。將游標暫留在圖表上、以預估系統的*掃描速率*基準值。

從用戶端作業排入佇列的物件

物件數/秒

選擇*節點*>*網格_*>* ILM *。

在ILM佇列圖表中、找出線路相當穩定的期間。將游標停留在圖表上、以預估系統的*佇列物件(來自用戶端作業)*基準值。

平均查詢延遲

毫秒

選擇*節點*>*儲存節點*>*物件*。在查詢表中、檢視平均延遲的值。

分析資料

請使用您收集的資訊來判斷問題的原因和可能的解決方案。

分析是問題相依的、但一般而言:

  • 使用警示找出故障點和瓶頸。

  • 使用警示記錄和圖表來重建問題記錄。

  • 使用圖表找出異常狀況、並將問題情況與正常作業進行比較。

提報資訊檢查清單

如果您無法自行解決問題、請聯絡技術支援部門。聯絡技術支援人員之前、請先收集下表所列的資訊、以利解決問題。

核取符號 項目 附註

問題陳述

問題症狀為何?問題從何時開始?是否持續或間歇性發生?如果是間歇性的、發生的時間為何?

影響評估

問題的嚴重性為何?對用戶端應用程式有何影響?

  • 用戶端之前是否已成功連線?

  • 用戶端是否可以擷取、擷取及刪除資料?

系統ID StorageGRID

選擇*維護*>*系統*>*授權*。顯示的是目前授權的一部分。StorageGRID

軟體版本

從Grid Manager頂端、選取說明圖示、然後選取*關於*以查看StorageGRID 此版本。

自訂

概述StorageGRID 如何設定您的系統。例如、請列出下列項目:

  • 網格是否使用儲存壓縮、儲存加密或法規遵循?

  • ILM是否製作複寫或銷毀編碼物件?ILM是否確保站台備援?ILM規則是否使用嚴格、平衡或雙重承諾擷取行為?

記錄檔和系統資料

收集系統的記錄檔和系統資料。選擇*支援*>*工具*>*記錄*。

您可以收集整個網格或所選節點的記錄。

如果您只收集所選節點的記錄、請務必包含至少一個具有ADC服務的儲存節點。(站台的前三個儲存節點包括了「ADC」服務。)

基礎資訊

收集有關擷取作業、擷取作業和儲存使用量的基礎資訊。

最近變更的時間表

建立時間軸、摘要說明系統或其環境最近的任何變更。

診斷問題的歷史記錄

如果您已自行診斷或疑難排解問題、請務必記錄您所採取的步驟和結果。