本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

警示參考資料

貢獻者

下表列出所有預設StorageGRID 的資訊提示。您可以視需要建立自訂警示規則、以符合系統管理方法。

請參閱相關資訊 常用的Prometheus指標 以瞭解這些警示中使用的度量。

警示名稱 說明與建議行動

應用裝置電池已過期

應用裝置儲存控制器中的電池已過期。

  1. 更換電池。更換儲存控制器的程序中包含移除和更換電池的步驟。請參閱儲存應用裝置的說明:

  2. 如果此警示持續存在、請聯絡技術支援部門。

應用裝置電池故障

應用裝置儲存控制器中的電池故障。

  1. 更換電池。更換儲存控制器的程序中包含移除和更換電池的步驟。請參閱儲存應用裝置的說明:

  2. 如果此警示持續存在、請聯絡技術支援部門。

應用裝置電池記憶體容量不足

應用裝置儲存控制器中的電池記憶容量不足。

  1. 更換電池。更換儲存控制器的程序中包含移除和更換電池的步驟。請參閱儲存應用裝置的說明:

  2. 如果此警示持續存在、請聯絡技術支援部門。

應用裝置電池即將過期

產品儲存控制器中的電池即將過期。

  1. 請儘快更換電池。更換儲存控制器的程序中包含移除和更換電池的步驟。請參閱儲存應用裝置的說明:

  2. 如果此警示持續存在、請聯絡技術支援部門。

已取出應用裝置電池

產品儲存控制器中的電池遺失。

  1. 安裝電池。更換儲存控制器的程序中包含移除和更換電池的步驟。請參閱儲存應用裝置的說明:

  2. 如果此警示持續存在、請聯絡技術支援部門。

應用裝置電池過熱

產品儲存控制器中的電池過熱。

  1. 判斷是否有其他警示會影響此節點。當您解決其他警示時、此警示可能會解決。

  2. 調查溫度升高的可能原因、例如風扇或暖通空調故障。

  3. 如果此警示持續存在、請聯絡技術支援部門。

應用裝置BMC通訊錯誤

與基板管理控制器(BMC)的通訊中斷。

  1. 確認BMC正常運作。選取*節點*、然後選取應用裝置節點的*硬體*索引標籤。找到運算控制器BMC IP欄位、然後瀏覽至該IP。

  2. 將節點置於維護模式、然後關閉設備電源再重新開啟、藉此嘗試還原BMC通訊。請參閱本產品的說明:

  3. 如果此警示持續存在、請聯絡技術支援部門。

應用裝置快取備份裝置故障

持續快取備份裝置故障。

  1. 判斷是否有其他警示會影響此節點。當您解決其他警示時、此警示可能會解決。

  2. 聯絡技術支援。

應用裝置快取備份裝置容量不足

快取備份裝置容量不足。

聯絡技術支援。

應用裝置快取備份裝置具有寫入保護

快取備份裝置具有寫入保護。

聯絡技術支援。

應用裝置快取記憶體大小不相符

應用裝置中的兩個控制器具有不同的快取大小。

聯絡技術支援。

應用裝置運算控制器機箱溫度過高

在一個應用不支援的應用環境中、StorageGRID 運算控制器的溫度已超過一個標稱臨界值。

  1. 檢查硬體元件是否過熱、並遵循建議的行動:

    • 如果您擁有SG100、SG1000或SG6000、請使用BMC。

    • 如果您擁有SG5600或SG5700、請使用SANtricity 《Suse System Manager》(《系統管理程式》)。

  2. 如有必要、請更換元件。請參閱本產品的說明:

應用裝置運算控制器CPU溫度過高

在一個應用程式中、運算控制器中的CPU溫度StorageGRID 已超過正常臨界值。

  1. 檢查硬體元件是否過熱、並遵循建議的行動:

    • 如果您擁有SG100、SG1000或SG6000、請使用BMC。

    • 如果您擁有SG5600或SG5700、請使用SANtricity 《Suse System Manager》(《系統管理程式》)。

  2. 如有必要、請更換元件。請參閱本產品的說明:

應用裝置運算控制器需要注意

在應用程式的運算控制器中偵測到硬體故障StorageGRID 。

  1. 檢查硬體元件是否有錯誤、並遵循建議的行動:

    • 如果您擁有SG100、SG1000或SG6000、請使用BMC。

    • 如果您擁有SG5600或SG5700、請使用SANtricity 《Suse System Manager》(《系統管理程式》)。

  2. 如有必要、請更換元件。請參閱本產品的說明:

應用裝置運算控制器電源供應器A發生問題

運算控制器中的電源供應器A發生問題。此警示可能表示電源供應器故障或提供電源時發生問題。

  1. 檢查硬體元件是否有錯誤、並遵循建議的行動:

    • 如果您擁有SG100、SG1000或SG6000、請使用BMC。

    • 如果您擁有SG5600或SG5700、請使用SANtricity 《Suse System Manager》(《系統管理程式》)。

  2. 如有必要、請更換元件。請參閱本產品的說明:

應用裝置運算控制器電源供應器B發生問題

運算控制器的電源供應器B發生問題。

此警示可能表示電源供應器故障、或是供電時發生問題。

  1. 檢查硬體元件是否有錯誤、並遵循建議的行動:

    • 如果您擁有SG100、SG1000或SG6000、請使用BMC。

    • 如果您擁有SG5600或SG5700、請使用SANtricity 《Suse System Manager》(《系統管理程式》)。

  2. 如有必要、請更換元件。請參閱本產品的說明:

應用裝置運算硬體監控服務停止

監控儲存硬體狀態的服務已停止報告資料。

  1. 在基礎作業系統中檢查EOS系統狀態服務的狀態。

  2. 如果服務處於停止或錯誤狀態、請重新啟動服務。

  3. 如果此警示持續存在、請聯絡技術支援部門。

偵測到應用裝置光纖通道故障

偵測到應用裝置儲存控制器與運算控制器之間的光纖通道連結問題。

此警示可能表示應用裝置中的儲存設備與運算控制器之間的光纖通道連線發生問題。

  1. 檢查硬體元件是否有錯誤(節點>*應用裝置節點_*>*硬體*)。如果任何元件的狀態不是「名義」、請採取下列行動:

    1. 確認控制器之間的光纖通道纜線已完全連接。

    2. 確保光纖通道纜線沒有過度的彎曲。

    3. 確認SFP+模組已正確安裝。

      附註: StorageGRID 如果此問題持續發生、則無法連線的問題可能會自動離線。

  2. 如有必要、請更換元件。請參閱本產品的說明:

應用裝置Fibre Channel HBA連接埠故障

Fibre Channel HBA連接埠故障或故障。

聯絡技術支援。

應用裝置快閃快取磁碟機非最佳化

用於SSD快取的磁碟機並非最佳。

  1. 更換SSD快取磁碟機。請參閱本產品的說明:

  2. 如果此警示持續存在、請聯絡技術支援部門。

已移除應用裝置互連/電池箱

互連/電池箱遺失。

  1. 更換電池。更換儲存控制器的程序中包含移除和更換電池的步驟。請參閱儲存應用裝置的說明。

  2. 如果此警示持續存在、請聯絡技術支援部門。

設備LACP連接埠遺失

一個連接埠StorageGRID 位於一個不屬於LACP連結的應用裝置上。

  1. 檢查交換器的組態。確保介面設定在正確的連結集合群組中。

  2. 如果此警示持續存在、請聯絡技術支援部門。

應用裝置整體電源供應器降級

不推薦的操作電壓已偏離了產品的功能StorageGRID 。

  1. 檢查電源供應器A和B的狀態、以判斷哪些電源供應器運作異常、並遵循建議的動作:

    • 如果您擁有SG100、SG1000或SG6000、請使用BMC。

    • 如果您擁有SG5600或SG5700、請使用SANtricity 《Suse System Manager》(《系統管理程式》)。

  2. 如有必要、請更換元件。請參閱本產品的說明:

應用裝置儲存控制器A故障

儲存控制器A StorageGRID 在一個應用程式中故障。

  1. 使用「系統管理程式」檢查硬體元件、並遵循建議的行動。SANtricity

  2. 如有必要、請更換元件。請參閱本產品的說明:

應用裝置儲存控制器B故障

無法在應用程式中使用StorageGRID 儲存控制器B。

  1. 使用「系統管理程式」檢查硬體元件、並遵循建議的行動。SANtricity

  2. 如有必要、請更換元件。請參閱本產品的說明:

應用裝置儲存控制器磁碟機故障

一個或多個StorageGRID 驅動器在一個應用程式中故障或不是最佳的。

  1. 使用「系統管理程式」檢查硬體元件、並遵循建議的行動。SANtricity

  2. 如有必要、請更換元件。請參閱本產品的說明:

應用裝置儲存控制器硬體問題

該軟件報告說某個元件「需要注意」在一個應用程式中。SANtricity StorageGRID

  1. 使用「系統管理程式」檢查硬體元件、並遵循建議的行動。SANtricity

  2. 如有必要、請更換元件。請參閱本產品的說明:

應用裝置儲存控制器電源供應器故障

供應器A StorageGRID 的電源供應器已偏離建議的操作電壓。

  1. 使用「系統管理程式」檢查硬體元件、並遵循建議的行動。SANtricity

  2. 如有必要、請更換元件。請參閱本產品的說明:

應用裝置儲存控制器電源供應器B故障

供應器B StorageGRID 的電源供應器已偏離建議的操作電壓。

  1. 使用「系統管理程式」檢查硬體元件、並遵循建議的行動。SANtricity

  2. 如有必要、請更換元件。請參閱本產品的說明:

應用裝置儲存硬體監控服務停止

監控儲存硬體狀態的服務已停止報告資料。

  1. 在基礎作業系統中檢查EOS系統狀態服務的狀態。

  2. 如果服務處於停止或錯誤狀態、請重新啟動服務。

  3. 如果此警示持續存在、請聯絡技術支援部門。

應用裝置儲存櫃降級

儲存設備儲存櫃中其中一個元件的狀態會降級。

  1. 使用「系統管理程式」檢查硬體元件、並遵循建議的行動。SANtricity

  2. 如有必要、請更換元件。請參閱本產品的說明:

應用裝置溫度超過上限

產品儲存控制器的名義或最高溫度已超過上限。

  1. 判斷是否有其他警示會影響此節點。當您解決其他警示時、此警示可能會解決。

  2. 調查溫度升高的可能原因、例如風扇或暖通空調故障。

  3. 如果此警示持續存在、請聯絡技術支援部門。

已移除應用裝置溫度感測器

已移除溫度感測器。聯絡技術支援。

Cassandra自動執行元件錯誤

Cassandra自動執行元件發生錯誤。

Cassandra自動執行元件存在於所有儲存節點上、可管理Cassandra資料庫的大小、以覆寫及刪除繁重的工作負載。雖然這種情況持續存在、但某些工作負載將會意外感受到中繼資料使用量過高的情況。

  1. 判斷是否有其他警示會影響此節點。當您解決其他警示時、此警示可能會解決。

  2. 聯絡技術支援。

稽核記錄正在新增至記憶體內的佇列

節點無法將記錄傳送至本機syslog伺服器、而且記憶體內的佇列已滿。

  1. 確保rsyslog服務正在節點上執行。

  2. 如有必要、請使用命令「service rsyslog rrestart」在節點上重新啟動rsyslog服務。

  3. 如果無法重新啟動rsyslog服務、而且您未將稽核訊息儲存在管理節點上、請聯絡技術支援部門。如果未修正此狀況、稽核記錄將會遺失。

Cassandra自動執行元件度量資料已過期

介紹Cassandra自動執行元件的指標已過時。

Cassandra自動執行元件存在於所有儲存節點上、可管理Cassandra資料庫的大小、以覆寫及刪除繁重的工作負載。雖然此警示持續存在、但某些工作負載會意外地感受到中繼資料使用量過高的情況。

  1. 判斷是否有其他警示會影響此節點。當您解決其他警示時、此警示可能會解決。

  2. 聯絡技術支援。

Cassandra通訊錯誤

執行Cassandra服務的節點無法彼此通訊。

此警示表示某個項目正在干擾節點對節點的通訊。可能發生網路問題、或一個或多個儲存節點上的Cassandra服務可能已關閉。

  1. 判斷是否有其他警示會影響一或多個儲存節點。當您解決其他警示時、此警示可能會解決。

  2. 檢查可能影響一或多個儲存節點的網路問題。

  3. 選取*支援*>*工具*>*網格拓撲*。

  4. 針對系統中的每個儲存節點、選取* S要*>*服務*。確認Cassandra服務的狀態為「執行中」。

  5. 如果Cassandra未執行、請依照的步驟執行 啟動或重新啟動服務

  6. 如果Cassandra服務的所有執行個體都在執行中、而且警示仍未解決、請聯絡技術支援部門。

Cassandra相容性過載

Cassandra壓縮程序過載。

如果壓實程序過載、讀取效能可能會降級、RAM可能會被佔用。Cassandra服務也可能變得無回應或當機。

  1. 依照的步驟重新啟動Cassandra服務 重新啟動服務

  2. 如果此警示持續存在、請聯絡技術支援部門。

Cassandra修復指標已過期

說明Cassandra修復工作的指標已過時。如果此情況持續超過48小時、客戶查詢(例如庫存清單)可能會顯示刪除的資料。

  1. 重新啟動節點。在Grid Manager中、移至* nodes *、選取節點、然後選取「Tasks(工作)」索引標籤。

  2. 如果此警示持續存在、請聯絡技術支援部門。

Cassandra修復進度緩慢

Cassandra資料庫修復的進度緩慢。

資料庫修復速度緩慢時、Cassandra資料一致性作業會受到阻礙。如果此情況持續超過48小時、客戶查詢(例如庫存清單)可能會顯示刪除的資料。

  1. 確認所有儲存節點均已上線、且沒有與網路相關的警示。

  2. 監控此警示達2天、查看問題是否自行解決。

  3. 如果資料庫維修繼續緩慢進行、請聯絡技術支援部門。

Cassandra修復服務無法使用

Cassandra修復服務無法使用。

Cassandra修復服務存在於所有儲存節點上、並為Cassandra資料庫提供重要的修復功能。如果此情況持續超過48小時、客戶查詢(例如庫存清單)可能會顯示刪除的資料。

  1. 選取*支援*>*工具*>*網格拓撲*。

  2. 針對系統中的每個儲存節點、選取* S要*>*服務*。確認Cassandra Reaper服務的狀態為「執行中」。

  3. 如果Cassandra Reaper未執行、請依照的步驟執行 啟動或重新啟動服務

  4. 如果Cassandra Reaper服務的所有執行個體都在執行中、而且警示仍未解決、請聯絡技術支援部門。

Cassandra表格毀損

Cassandra偵測到表格毀損。

如果Cassandra偵測到表格毀損、就會自動重新啟動。

聯絡技術支援。

雲端儲存資源池連線錯誤

Cloud Storage Pool的健全狀況檢查偵測到一或多個新錯誤。

  1. 前往「儲存資源池」頁面的「雲端儲存資源池」區段。

  2. 查看「Last錯誤」(最後一個錯誤)欄、判斷哪個Cloud Storage Pool發生錯誤。

  3. 請參閱的說明 利用資訊生命週期管理來管理物件

DHCP租用已過期

網路介面上的DHCP租用已過期。如果DHCP租用已過期、請遵循建議的行動:

  1. 確保此節點與受影響介面上的DHCP伺服器之間有連線。

  2. 請確定DHCP伺服器上受影響的子網路中有可用的IP位址可供指派。

  3. 確保DHCP伺服器中設定的IP位址有永久保留。或者、使用StorageGRID 「靜態變更IP」工具、在DHCP位址集區之外指派靜態IP位址。請參閱 恢復與維護指示

DHCP租約即將到期

網路介面上的DHCP租用即將到期。

若要防止DHCP租用到期、請遵循建議的動作:

  1. 確保此節點與受影響介面上的DHCP伺服器之間有連線。

  2. 請確定DHCP伺服器上受影響的子網路中有可用的IP位址可供指派。

  3. 確保DHCP伺服器中設定的IP位址有永久保留。或者、使用StorageGRID 「靜態變更IP」工具、在DHCP位址集區之外指派靜態IP位址。請參閱 恢復與維護指示

DHCP伺服器無法使用

DHCP伺服器無法使用。

此節點無法聯絡您的DHCP伺服器StorageGRID 。無法驗證節點IP位址的DHCP租用。

  1. 確保此節點與受影響介面上的DHCP伺服器之間有連線。

  2. 請確定DHCP伺服器上受影響的子網路中有可用的IP位址可供指派。

  3. 確保DHCP伺服器中設定的IP位址有永久保留。或者、使用StorageGRID 「靜態變更IP」工具、在DHCP位址集區之外指派靜態IP位址。請參閱 恢復與維護指示

磁碟I/O非常緩慢

磁碟I/O速度非常慢、可能會影響StorageGRID 到效能不佳。

  1. 如果問題與儲存應用裝置節點有關、請使用SANtricity 「支援系統管理程式」檢查故障的磁碟機、有預測故障的磁碟機、或正在進行的磁碟機修復。此外、請檢查應用裝置運算與儲存控制器之間的光纖通道或SAS連結狀態、查看是否有任何連結中斷或顯示過多錯誤率。

  2. 檢查裝載此節點磁碟區的儲存系統、以判斷並修正I/O緩慢的根本原因

  3. 如果此警示持續存在、請聯絡技術支援部門。

*附註:*受影響的節點可能會停用服務並自行重新開機、以避免影響整體網格效能。當清除基礎條件、且這些節點偵測到正常I/O效能時、它們會自動返回完整服務。

EC重新平衡故障

使用者在儲存節點之間重新平衡銷毀編碼資料的工作失敗或已暫停。

  1. 確保要重新平衡的站台上的所有儲存節點均已上線且可供使用。

  2. 請確定站台上沒有要重新平衡的磁碟區故障。如果有、請終止EC重新平衡工作、以便您執行修復工作。

    「「資料終止平衡-工作ID <ID>」

  3. 確保站台上沒有要重新平衡的服務故障。如果服務未執行、請依照恢復與維護指示中的步驟啟動或重新啟動服務。

  4. 解決任何問題之後、請在主要管理節點上執行下列命令、以重新啟動工作:

    「「重新平衡資料開始-工作ID <ID>」

  5. 如果您無法解決問題、請聯絡技術支援部門。

EC修復失敗

銷毀編碼資料的修復工作失敗或已停止。

  1. 請確定有足夠的可用儲存節點或磁碟區來取代故障的儲存節點或磁碟區。

  2. 確保有足夠的可用儲存節點來滿足使用中的ILM原則。

  3. 確保沒有網路連線問題。

  4. 解決任何問題之後、請在主要管理節點上執行下列命令、以重新啟動工作:

    「'repire-data start-ec-node-repair --repair id <ID>'」

  5. 如果您無法解決問題、請聯絡技術支援部門。

EC修復停止

銷毀編碼資料的修復工作已停止。

  1. 請確定有足夠的可用儲存節點或磁碟區來取代故障的儲存節點或磁碟區。

  2. 確保沒有網路連線問題。

  3. 解決任何問題之後、請檢查警示是否已解決。若要查看更詳細的修復進度報告、請在主要管理節點上執行下列命令:

    「'repair資料show-ec-repair狀態—​repair ID <ID>'」

  4. 如果您無法解決問題、請聯絡技術支援部門。

電子郵件通知失敗

無法傳送警示的電子郵件通知。

當警示電子郵件通知失敗或測試電子郵件(從*警示*>*電子郵件設定*頁面傳送)無法傳送時、就會觸發此警示。

  1. 從警示*站台/節點*欄中所列的管理節點登入Grid Manager。

  2. 前往*警示*>*電子郵件設定*頁面、檢查設定、並視需要變更設定。

  3. 按一下*傳送測試電子郵件*、然後查看測試收件者的收件匣中是否有電子郵件。如果無法傳送測試電子郵件、可能會觸發此警示的新執行個體。

  4. 如果無法傳送測試電子郵件、請確認您的電子郵件伺服器已連線。

  5. 如果伺服器正常運作、請選取*支援*>*工具*>*記錄*、然後收集管理節點的記錄。指定警示時間前後15分鐘的時間段。

  6. 擷取下載的歸檔資料、並檢閱「Prometheus.log」(_/GID<gid><time_stim>//<site_node>/<time_stim>/cates/Prometheus.log)」的內容。

  7. 如果您無法解決問題、請聯絡技術支援部門。

在「憑證」頁面上設定的用戶端憑證過期

在「憑證」頁面上設定的一或多個用戶端憑證即將過期。

  1. 在Grid Manager中、選取*組態*>*安全性*>*憑證*、然後選取*用戶端*索引標籤。

  2. 選取即將到期的憑證。

  3. 選擇*附加新憑證*至 上傳或產生新的憑證

  4. 針對即將到期的每個憑證重複這些步驟。

負載平衡器端點憑證過期

一個或多個負載平衡器端點憑證即將過期。

  1. 選擇*組態*>*網路*>*負載平衡器端點*。

  2. 選取憑證即將到期的端點。

  3. 選取*編輯端點*以上傳或產生新的憑證。

  4. 針對每個憑證過期或即將到期的端點、重複這些步驟。

如需管理負載平衡器端點的詳細資訊、請參閱 關於管理StorageGRID 功能的說明

管理介面的伺服器憑證過期

用於管理介面的伺服器憑證即將過期。

  1. 選擇*組態*>*安全性*>*憑證*。

  2. 在* Global*索引標籤上、選取*管理介面認證*。

  3. 上傳新的管理介面認證。

S3和Swift API的全域伺服器憑證過期

用於存取儲存API端點的伺服器憑證即將過期。

  1. 選擇*組態*>*安全性*>*憑證*。

  2. 在* Global*索引標籤上、選取* S3和Swift API認證*。

  3. 上傳新的S3和Swift API認證。

外部syslog CA憑證過期

用於簽署外部syslog伺服器憑證的憑證授權單位(CA)憑證即將過期。

  1. 更新外部syslog伺服器上的CA憑證。

  2. 取得更新的CA憑證複本。

  3. 在Grid Manager中、移至*組態*>*監控*>*稽核與系統記錄伺服器*。

  4. 選擇*編輯外部syslog伺服器*。

  5. 選取*瀏覽*上傳新憑證。

  6. 完成組態精靈以儲存新的憑證和金鑰。

外部syslog用戶端憑證過期

外部syslog伺服器的用戶端憑證即將過期。

  1. 在Grid Manager中、移至*組態*>*監控*>*稽核與系統記錄伺服器*。

  2. 選擇*編輯外部syslog伺服器*。

  3. 選取*瀏覽*上傳新憑證。

  4. 選取*瀏覽*上傳新的私密金鑰。

  5. 完成組態精靈以儲存新的憑證和金鑰。

外部syslog伺服器憑證過期

外部syslog伺服器提供的伺服器憑證即將過期。

  1. 更新外部syslog伺服器上的伺服器憑證。

  2. 如果您先前使用Grid Manager API提供伺服器憑證以進行憑證驗證、請使用API上傳更新的伺服器憑證。

外部syslog伺服器轉送錯誤

節點無法將記錄轉送至外部syslog伺服器。

  1. 在Grid Manager中、移至*組態*>*監控*>*稽核與系統記錄伺服器*。

  2. 選擇*編輯外部syslog伺服器*。

  3. 繼續執行組態精靈、直到您能夠選取*傳送測試訊息*為止。

  4. 選取*傳送測試訊息*以判斷為何無法將記錄轉送到外部syslog伺服器。

  5. 解決任何回報的問題。

Grid Network MTU不符

網格網路介面(eth0)的最大傳輸單元(MTU)設定、在網格的各個節點之間會有顯著差異。

MTU設定的差異可能代表部分(但並非全部)eth0網路已設定為使用巨型框架。MTU大小不相符的值大於1000、可能會導致網路效能問題。

請參閱中的Grid Network MTU不相符警示說明 疑難排解網路、硬體及平台問題

高Java堆使用率

正在使用大量的Java堆空間。

如果Java堆填滿、中繼資料服務可能無法使用、用戶端要求可能會失敗。

  1. 檢閱儀表板上的ILM活動。ILM工作負載減少時、此警示可能會自行解決。

  2. 判斷是否有其他警示會影響此節點。當您解決其他警示時、此警示可能會解決。

  3. 如果此警示持續存在、請聯絡技術支援部門。

中繼資料查詢的高延遲

Cassandra中繼資料查詢的平均時間過長。

查詢延遲增加可能是因為硬體變更所致、例如更換磁碟、工作負載變更(例如突然增加擷取)、或是網路變更(例如節點與站台之間的通訊問題)。

  1. 判斷查詢延遲增加時是否發生任何硬體、工作負載或網路變更。

  2. 如果您無法解決問題、請聯絡技術支援部門。

身分識別聯盟同步失敗

無法同步處理來自身分識別來源的聯盟群組和使用者。

  1. 確認已設定的LDAP伺服器已上線且可供使用。

  2. 檢閱「身分識別聯盟」頁面上的設定。確認所有值均為最新值。請參閱 使用身分識別聯盟 在管理StorageGRID 過程中。

  3. 按一下*測試連線*以驗證LDAP伺服器的設定。

  4. 如果您無法解決問題、請聯絡技術支援部門。

租戶的身分識別聯盟同步處理失敗

無法從租戶設定的身分識別來源同步處理聯盟群組和使用者。

  1. 登入租戶管理程式。

  2. 確認租戶設定的LDAP伺服器已上線且可供使用。

  3. 檢閱「身分識別聯盟」頁面上的設定。確認所有值均為最新值。請參閱 使用身分識別聯盟 使用租戶帳戶的說明。

  4. 按一下*測試連線*以驗證LDAP伺服器的設定。

  5. 如果您無法解決問題、請聯絡技術支援部門。

ILM放置無法實現

ILM規則中的放置指示無法針對特定物件執行。

此警示表示放置指示所需的節點無法使用、或ILM規則設定錯誤。例如、規則可能會指定比儲存節點更多的複寫複本。

  1. 確保所有節點均處於線上狀態。

  2. 如果所有節點都在線上、請檢閱所有使用中ILM原則的ILM規則中的放置指示。確認所有物件都有有效的指示。請參閱 使用資訊生命週期管理來管理物件的指示

  3. 視需要更新規則設定並啟動新原則。

    *注意:*警示可能需要1天才能清除。

  4. 如果問題持續發生、請聯絡技術支援部門。

*附註:*此警示可能會在升級期間出現、升級成功完成後可能會持續一天。當升級觸發此警示時、系統會自行清除。

ILM掃描期間過長

掃描、評估物件及套用ILM所需的時間太長。

如果完成所有物件完整ILM掃描的預估時間過長(請參閱儀表板上的*掃描期間-預估*)、則使用中的ILM原則可能不會套用至新擷取的物件。ILM原則的變更可能不會套用至現有的物件。

  1. 判斷是否有其他警示會影響此節點。當您解決其他警示時、此警示可能會解決。

  2. 確認所有儲存節點均已上線。

  3. 暫時減少用戶端流量。例如、從Grid Manager中選取*組態*>*網路*>*流量分類*、然後建立限制頻寬或要求數量的原則。

  4. 如果磁碟I/O或CPU過載、請嘗試減少負載或增加資源。

  5. 如有必要、請更新ILM規則以使用同步放置(StorageGRID 預設適用於在還原11.3之後建立的規則)。

  6. 如果此警示持續存在、請聯絡技術支援部門。

ILM掃描率過低

ILM掃描速率設定為每秒不到100個物件。

此警示表示有人已將系統的ILM掃描速率變更為每秒不到100個物件(預設值:每秒400個物件)。使用中的ILM原則可能不會套用至新擷取的物件。後續的ILM原則變更將不會套用至現有物件。

  1. 判斷是否在持續的支援調查中、暫時變更ILM掃描速度。

  2. 聯絡技術支援。

重要 在未聯絡技術支援人員的情況下、切勿變更ILM掃描率。

KMS CA憑證過期

用於簽署金鑰管理伺服器(KMS)憑證的憑證授權單位(CA)憑證即將過期。

  1. 使用KMS軟體更新金鑰管理伺服器的CA憑證。

  2. 從Grid Manager中選擇*組態*>*安全性*>*金鑰管理伺服器*。

  3. 選取具有憑證狀態警告的KMS。

  4. 選擇*編輯*。

  5. 選擇* Next*(下一步*)前往步驟2(上傳伺服器憑證)。

  6. 選取*瀏覽*上傳新憑證。

  7. 選擇*保存*。

KMS用戶端憑證過期

金鑰管理伺服器的用戶端憑證即將過期。

  1. 從Grid Manager中選擇*組態*>*安全性*>*金鑰管理伺服器*。

  2. 選取具有憑證狀態警告的KMS。

  3. 選擇*編輯*。

  4. 選取*「Next*」(下一步*)以移至步驟3(「上傳用戶端憑證」)。

  5. 選取*瀏覽*上傳新憑證。

  6. 選取*瀏覽*上傳新的私密金鑰。

  7. 選擇*保存*。

無法載入kms組態

金鑰管理伺服器的組態存在、但無法載入。

  1. 判斷是否有其他警示會影響此節點。當您解決其他警示時、此警示可能會解決。

  2. 如果此警示持續存在、請聯絡技術支援部門。

KMS連線錯誤

應用裝置節點無法連線至其站台的金鑰管理伺服器。

  1. 從Grid Manager中選擇*組態*>*安全性*>*金鑰管理伺服器*。

  2. 確認連接埠和主機名稱項目正確無誤。

  3. 確認伺服器憑證、用戶端憑證及用戶端憑證私密金鑰正確無誤且未過期。

  4. 確保防火牆設定允許應用裝置節點與指定的KMS通訊。

  5. 修正任何網路或DNS問題。

  6. 如果您需要協助或此警示持續存在、請聯絡技術支援部門。

找不到kms加密金鑰名稱

設定的金鑰管理伺服器沒有符合所提供名稱的加密金鑰。

  1. 確認指派給網站的KMS使用正確名稱作為加密金鑰及任何先前版本。

  2. 如果您需要協助或此警示持續存在、請聯絡技術支援部門。

KMS加密金鑰旋轉失敗

所有應用裝置磁碟區都已解密、但一個或多個磁碟區無法旋轉至最新的金鑰。請聯絡技術支援部門。

未設定公里

此站台不存在金鑰管理伺服器。

  1. 從Grid Manager中選擇*組態*>*安全性*>*金鑰管理伺服器*。

  2. 新增此網站的KMS或新增預設KMS。

KMS金鑰無法解密應用裝置磁碟區

裝置上啟用節點加密的一或多個磁碟區無法使用目前的KMS金鑰解密。

  1. 判斷是否有其他警示會影響此節點。當您解決其他警示時、此警示可能會解決。

  2. 確保金鑰管理伺服器(KMS)具有已設定的加密金鑰和任何先前的金鑰版本。

  3. 如果您需要協助或此警示持續存在、請聯絡技術支援部門。

KMS伺服器憑證過期

金鑰管理伺服器(KMS)所使用的伺服器憑證即將過期。

  1. 使用KMS軟體、更新金鑰管理伺服器的伺服器憑證。

  2. 如果您需要協助或此警示持續存在、請聯絡技術支援部門。

大型稽核佇列

稽核訊息的磁碟佇列已滿。

  1. 檢查系統負載-如果有大量交易、警示應會隨時間自行解決、您可以忽略警示。

  2. 如果警示持續且嚴重性增加、請檢視佇列大小的圖表。如果數在數小時或數天內持續增加、則稽核負載可能超過系統的稽核容量。

  3. 將用戶端寫入和用戶端讀取的稽核層級變更為「錯誤」或「關閉」(組態>*監控*>*稽核和syslog伺服器*)、以降低用戶端作業率或減少記錄的稽核訊息數。

偵測到舊版CLB負載平衡器活動

有些用戶端可能會使用預設的S3和Swift API憑證連線至已過時的CLB負載平衡器服務。

  1. 若要簡化未來的升級作業、請在「憑證」頁面的「全域」索引標籤上安裝自訂S3和Swift API憑證。然後、確認所有連線至舊版CLB的S3或Swift用戶端都有新的憑證。

  2. 建立一個或多個負載平衡器端點。然後、將所有現有的S3和Swift用戶端導向這些端點。如需重新對應用戶端連接埠、請聯絡技術支援部門。

其他活動可能會觸發此警示、包括連接埠掃描。若要判斷目前是否正在使用已過時的CLB服務、請檢視「儲存格RID_Private、CLB_http、connection_ested_Successful」Prometheus度量。

必要時、如果不再使用CLB服務、請將此警示規則設為靜音或停用。

正在將記錄新增至磁碟上佇列

節點無法將記錄轉送至外部syslog伺服器、而且磁碟上的佇列已滿。

  1. 在Grid Manager中、移至*組態*>*監控*>*稽核與系統記錄伺服器*。

  2. 選擇*編輯外部syslog伺服器*。

  3. 繼續執行組態精靈、直到您能夠選取*傳送測試訊息*為止。

  4. 選取*傳送測試訊息*以判斷為何無法將記錄轉送到外部syslog伺服器。

  5. 解決任何回報的問題。

稽核記錄磁碟容量過低

稽核記錄可用空間不足。

  1. 監控此警示、查看問題是否自行解決、磁碟空間是否再次可用。

  2. 如果可用空間持續減少、請聯絡技術支援。

可用節點記憶體不足

節點上可用的RAM量很低。

低可用RAM可能表示工作負載發生變更、或是一個或多個節點發生記憶體洩漏。

  1. 監控此警示、查看問題是否自行解決。

  2. 如果可用記憶體低於主要警示臨界值、請聯絡技術支援。

儲存資源池可用空間不足

儲存資源池中儲存物件資料的可用空間量很低。

  1. 選擇* ILM > Storage Pools*。

  2. 選取警示中所列的儲存資源池、然後選取*檢視詳細資料*。

  3. 判斷需要額外儲存容量的位置。您可以將儲存節點新增至儲存資源池中的每個站台、或將儲存磁碟區(LUN)新增至一或多個現有的儲存節點。

  4. 執行擴充程序以增加儲存容量。

安裝的節點記憶體不足

節點上安裝的記憶體容量過低。

增加虛擬機器或Linux主機可用的RAM量。檢查主要警示的臨界值、以判斷StorageGRID 預設的支援節點最低需求。請參閱您平台的安裝說明:

低中繼資料儲存

用於儲存物件中繼資料的空間不足。

重大警示

  1. 停止擷取物件。

  2. 立即在擴充程序中新增儲存節點。

重大警示

立即在擴充程序中新增儲存節點。

次要警示

  1. 監控物件中繼資料空間使用率。選取*節點*>*儲存節點*>*儲存設備*、然後檢視使用的儲存設備-物件中繼資料圖表。

  2. 在中新增儲存節點 擴充程序 越快越好。

新增儲存節點之後、系統會自動在所有儲存節點之間重新平衡物件中繼資料、並清除警示。

請參閱中的低中繼資料儲存警示指示 疑難排解中繼資料問題

低度量磁碟容量

度量資料庫可用空間不足。

  1. 監控此警示、查看問題是否自行解決、磁碟空間是否再次可用。

  2. 如果可用空間持續減少、請聯絡技術支援。

低物件資料儲存

用於儲存物件資料的空間不足。

執行擴充程序。您可以將儲存磁碟區(LUN)新增至現有的儲存節點、也可以新增儲存節點。

低唯讀浮水印會置換

儲存Volume軟式唯讀浮點覆寫低於儲存節點的最佳化浮點下限。

若要瞭解如何解決此警示、請前往 疑難排解低唯讀浮水印會覆寫警示

低根磁碟容量

根磁碟可用空間不足。

  1. 監控此警示、查看問題是否自行解決、磁碟空間是否再次可用。

  2. 如果可用空間持續減少、請聯絡技術支援。

低系統資料容量

在「/var/local'」檔案系統上、可供資料不全的空間StorageGRID 不足。

  1. 監控此警示、查看問題是否自行解決、磁碟空間是否再次可用。

  2. 如果可用空間持續減少、請聯絡技術支援。

低溫度目錄可用空間

/tmp目錄中的可用空間不足。

  1. 監控此警示、查看問題是否自行解決、磁碟空間是否再次可用。

  2. 如果可用空間持續減少、請聯絡技術支援。

節點網路連線錯誤

在節點之間傳輸資料時發生錯誤。

網路連線錯誤可能會在不需手動介入的情況下清除。如果錯誤不清楚、請聯絡技術支援部門。

請參閱中的網路接收錯誤(NERR)警示說明 疑難排解網路、硬體及平台問題

節點網路接收框架錯誤

節點接收到的網路框架有很大比例發生錯誤。

此警示可能表示硬體問題、例如乙太網路連線任一端的纜線不良或收發器故障。

  1. 如果您使用的是應用裝置、請嘗試逐一更換每個SFP+或SFP28收發器和纜線、以查看警示是否清除。

  2. 如果此警示持續存在、請聯絡技術支援部門。

節點未與NTP伺服器同步

節點的時間與網路時間傳輸協定(NTP)伺服器不同步。

  1. 請確認您已指定至少四個外部NTP伺服器、每個伺服器都提供階層3或更好的參考資料。

  2. 檢查所有NTP伺服器是否正常運作。

  3. 確認連線至NTP伺服器。請確定防火牆並未封鎖它們。

節點未被NTP伺服器鎖定

節點未鎖定至網路時間傳輸協定(NTP)伺服器。

  1. 請確認您已指定至少四個外部NTP伺服器、每個伺服器都提供階層3或更好的參考資料。

  2. 檢查所有NTP伺服器是否正常運作。

  3. 確認連線至NTP伺服器。請確定防火牆並未封鎖它們。

非應用裝置節點網路中斷

一或多個網路裝置當機或中斷連線。此警示表示無法存取安裝在虛擬機器或Linux主機上之節點的網路介面(eth)。

聯絡技術支援。

物件存在檢查失敗

物件存在檢查工作失敗。

  1. 選取*維護>物件存在檢查*。

  2. 記下錯誤訊息。執行適當的修正行動:

    無法啟動失去連線不明錯誤

    1. 確保工作中所含的儲存節點和磁碟區均已上線且可供使用。

    2. 確保儲存節點上沒有任何服務或磁碟區故障。如果服務未執行、請啟動或重新啟動服務。請參閱 恢復與維護指示

    3. 確保可滿足所選的一致性控制。

    4. 解決任何問題後、請選取*重試*。工作將從上次有效狀態恢復。

      磁碟區中發生嚴重儲存錯誤

    5. 恢復故障磁碟區。請參閱 恢復與維護指示

    6. 選擇*重試*。

    7. 工作完成後、請為節點上的剩餘磁碟區建立另一個工作、以檢查是否有其他錯誤。

  3. 如果您無法解決問題、請聯絡技術支援部門。

物件存在檢查停止

物件存在檢查工作已停止。

物件存在檢查工作無法繼續。工作中包含的一或多個儲存節點或磁碟區已離線或無回應、或是由於太多節點關閉或無法使用、所選的一致性控制無法再滿足。

  1. 確保所有要檢查的儲存節點和磁碟區均已上線且可供使用(請選取* nodes *)。

  2. 請確保有足夠的儲存節點在線上、並可供使用、以允許目前的協調器節點使用所選的一致性控制項來讀取物件中繼資料。如有必要、請啟動或重新啟動服務。請參閱 恢復與維護指示

    當您解決步驟1和2時、工作會自動從離開處開始。

  3. 如果無法滿足所選的一致性控制、請取消工作、並使用較低的一致性控制來啟動另一個工作。

  4. 如果您無法解決問題、請聯絡技術支援部門。

物件遺失

一個或多個物件已從網格中遺失。

此警示可能表示資料已永久遺失、無法擷取。

  1. 請立即調查此警示。您可能需要採取行動、以避免進一步的資料遺失。如果您採取提示動作、也可能可以還原遺失的物件。

  2. 解決基礎問題後、請重設計數器:

    1. 選取*支援*>*工具*>*網格拓撲*。

    2. 對於發出警示的儲存節點、請選取*站台_*>*網格節點_*>* LdR*>*資料儲存區*>*組態*>*主節點*。

    3. 選擇*重設遺失物件數*、然後按一下*套用變更*。

平台服務無法使用

有太少的儲存節點與站台上正在執行或可用的RSM服務。

請確定受影響站台擁有RSM服務的大部分儲存節點都在執行中、且處於非錯誤狀態。

請參閱中的「疑難排解平台服務」 關於管理StorageGRID 功能的說明

S3將物件大小設得太大

S3用戶端嘗試執行的「放置物件」作業超過S3大小限制。

  1. 使用警示詳細資料中顯示的租戶ID來識別租戶帳戶。

  2. 請移至* Support*>* Tools >* LogS*、並收集警示詳細資料中所示之儲存節點的應用程式記錄。指定警示時間前後15分鐘的時間段。

  3. 擷取下載的歸檔、然後瀏覽至「bycast.log」()(「/GID<GRID_id>_<Time_stim>//<site_nod>/「/grid / bycast」)的位置。

  4. 在「bycast.log」的內容中搜尋「method=PUT」、並查看「clientIP」欄位、找出S3用戶端的IP位址。

  5. 通知所有用戶端使用者、「放置物件大小上限」為5 GiB。

  6. 對於大於5 GiB的物件、請使用多部份上傳。

管理網路連接埠1上的服務應用裝置連結中斷

應用裝置上的管理網路連接埠1已關閉或中斷連線。

  1. 檢查連接至管理網路連接埠1的纜線和實體連線。

  2. 解決任何連線問題。請參閱應用裝置硬體的安裝與維護說明。

  3. 如果此連接埠的目的是中斷連線、請停用此規則。從Grid Manager中選擇* alerts > Rules 、選取規則、然後按一下 Edit rRule 。然後取消核取「*已啟用」核取方塊。

管理網路(或用戶端網路)上的服務應用裝置連結

管理網路(eth1)或用戶端網路(eth2)的應用裝置介面關閉或中斷連線。

  1. 檢查連接StorageGRID 至該網路的纜線、SFP和實體連線。

  2. 解決任何連線問題。請參閱應用裝置硬體的安裝與維護說明。

  3. 如果此連接埠的目的是中斷連線、請停用此規則。從Grid Manager中選擇* alerts > Rules 、選取規則、然後按一下 Edit rRule 。然後取消核取「*已啟用」核取方塊。

服務應用裝置會在網路連接埠1、2、3或4上向下連結

裝置上的網路連接埠1、2、3或4已關閉或中斷連線。

  1. 檢查連接StorageGRID 至該網路的纜線、SFP和實體連線。

  2. 解決任何連線問題。請參閱應用裝置硬體的安裝與維護說明。

  3. 如果此連接埠的目的是中斷連線、請停用此規則。從Grid Manager中選擇* alerts > Rules 、選取規則、然後按一下 Edit rRule 。然後取消核取「*已啟用」核取方塊。

服務應用裝置儲存連線能力降級

服務應用裝置中的兩個SSD之一發生故障或無法與另一個SSD同步。

應用裝置功能不受影響、但您應立即解決此問題。如果兩個磁碟機都故障、裝置將無法再運作。

  1. 從Grid Manager中選擇* node*>services appliage,然後選擇"Hardware硬體)"索引標籤。

  2. 請檢閱「儲存RAID模式」欄位中的訊息。

  3. 如果訊息顯示重新同步作業的進度、請等待作業完成、然後確認警示已解決。重新同步訊息表示SSD最近被更換、或是因為其他原因而重新同步。

  4. 如果訊息指出其中一個SSD故障、請盡快更換故障磁碟機。

    如需如何在服務應用裝置中更換磁碟機的說明、請參閱SG100和SG1000應用裝置安裝與維護指南。

儲存應用裝置連結至管理網路連接埠1

應用裝置上的管理網路連接埠1已關閉或中斷連線。

  1. 檢查連接至管理網路連接埠1的纜線和實體連線。

  2. 解決任何連線問題。請參閱應用裝置硬體的安裝與維護說明。

  3. 如果此連接埠的目的是中斷連線、請停用此規則。從Grid Manager中選擇* alerts > Rules 、選取規則、然後按一下 Edit rRule 。然後取消核取「*已啟用」核取方塊。

管理網路(或用戶端網路)上的儲存應用裝置連結中斷

管理網路(eth1)或用戶端網路(eth2)的應用裝置介面關閉或中斷連線。

  1. 檢查連接StorageGRID 至該網路的纜線、SFP和實體連線。

  2. 解決任何連線問題。請參閱應用裝置硬體的安裝與維護說明。

  3. 如果此連接埠的目的是中斷連線、請停用此規則。從Grid Manager中選擇* alerts > Rules 、選取規則、然後按一下 Edit rRule 。然後取消核取「*已啟用」核取方塊。

儲存應用裝置會在網路連接埠1、2、3或4上向下連結

裝置上的網路連接埠1、2、3或4已關閉或中斷連線。

  1. 檢查連接StorageGRID 至該網路的纜線、SFP和實體連線。

  2. 解決任何連線問題。請參閱應用裝置硬體的安裝與維護說明。

  3. 如果此連接埠的目的是中斷連線、請停用此規則。從Grid Manager中選擇* alerts > Rules 、選取規則、然後按一下 Edit rRule 。然後取消核取「*已啟用」核取方塊。

儲存應用裝置儲存設備連線能力降級

運算控制器與儲存控制器之間的一或多個連線發生問題。

  1. 前往產品檢查連接埠指示燈。

  2. 如果連接埠的指示燈關閉、請確認纜線已正確連接。視需要更換纜線。

  3. 等待最多五分鐘。

    *附註:*如果需要更換第二條纜線、請勿拔下至少5分鐘。否則、根磁碟區可能會變成唯讀、需要重新啟動硬體。

  4. 從Grid Manager中選取* nodes *。然後、選取發生問題之節點的「硬體」索引標籤。確認警示條件已解決。

儲存設備無法存取

無法存取儲存設備。

此警示表示由於基礎儲存設備發生問題、所以無法掛載或存取磁碟區。

  1. 檢查用於節點的所有儲存設備的狀態:

    • 如果節點安裝在虛擬機器或Linux主機上、請依照作業系統的指示執行硬體診斷或執行檔案系統檢查。

    • 如果節點安裝在SG100、SG1000或SG6000應用裝置上、請使用BMC。

    • 如果節點安裝在SG5600或SG5700應用裝置上、請使用SANtricity 「系統管理程式」。

  2. 如有必要、請更換元件。請參閱本產品的說明:

租戶配額使用量高

使用的租戶配額空間百分比很高。如果租戶超過配額、新的擷取便會遭到拒絕。

*注意:*此警示規則預設為停用、因為它可能會產生許多通知。

  1. 從Grid Manager中選取*租戶*。

  2. 依*配額使用率*排序表格。

  3. 選取配額使用率接近100%的租戶。

  4. 請執行下列任一或兩項操作:

    • 選取*編輯*以增加租戶的儲存配額。

    • 通知租戶他們的配額使用率很高。

無法與節點通訊

一個或多個服務沒有回應、或無法連線至節點。

此警示表示節點因為不明原因而中斷連線。例如、節點上的服務可能會停止、或是節點因為停電或非預期的停電而失去網路連線。

監控此警示、查看問題是否自行解決。如果問題持續發生:

  1. 判斷是否有其他警示會影響此節點。當您解決其他警示時、此警示可能會解決。

  2. 確認此節點上的所有服務都在執行中。如果服務停止、請嘗試啟動。請參閱 恢復與維護指示

  3. 確認節點的主機已開啟電源。如果不是、請啟動主機。

    *附註:*如果有多部主機關機、請參閱 恢復與維護指示

  4. 確定此節點與管理節點之間是否存在網路連線問題。

  5. 如果您無法解決警示、請聯絡技術支援部門。

非預期的節點重新開機

節點在過去24小時內意外重新開機。

  1. 監控此警示。警示將在24小時後清除。但是、如果節點再次意外重新開機、則會再次觸發此警示。

  2. 如果您無法解決警示、可能是硬體故障。聯絡技術支援。

偵測到不明毀損的物件

在複寫的物件儲存設備中找到無法識別為複寫物件的檔案。

  1. 判斷儲存節點上的基礎儲存設備是否有任何問題。例如、執行硬體診斷或執行檔案系統檢查。

  2. 解決任何儲存問題之後、 執行物件存在檢查 以判斷是否缺少ILM原則所定義的任何複寫複本。

  3. 監控此警示。警示會在24小時後清除、但如果問題仍未解決、則會再次觸發。

  4. 如果您無法解決警示、請聯絡技術支援部門。