Skip to main content
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

更換 DIMM - AFF A1K

貢獻者

當儲存系統遇到錯誤時、您必須更換控制器中的 DIMM 、例如根據健全狀況監視器警示或不可修正的 ECC 錯誤(可修正的錯誤修正碼)過多、通常是由於單一 DIMM 故障而導致、導致儲存系統無法開機 ONTAP 。

開始之前

系統中的所有其他元件都必須正常運作;否則、您必須聯絡技術支援部門。

您必須使用從供應商處收到的替換FRU元件來更換故障元件。

步驟1:關閉受損的控制器

使用下列其中一個選項來關閉或接管受損的控制器。

選項1:大多數系統

若要關閉受損的控制器、您必須判斷控制器的狀態、並在必要時接管控制器、以便健全的控制器繼續從受損的控制器儲存設備提供資料。

關於這項工作
  • 如果您有 SAN 系統,則必須檢查故障控制器 SCSI 刀鋒的事件訊息 cluster kernel-service show。 `cluster kernel-service show`命令(從 priv 進階模式)會顯示節點名稱、"仲裁狀態"該節點的可用度狀態、以及該節點的作業狀態。

    每個SCSI刀鋒處理序都應與叢集中的其他節點處於仲裁狀態。任何問題都必須先解決、才能繼續進行更換。

  • 如果叢集有兩個以上的節點、則叢集必須處於仲裁狀態。如果叢集未達到法定人數、或健全的控制器顯示為「假」、表示符合資格和健全狀況、則您必須在關閉受損的控制器之前修正問題;請參閱 "將節點與叢集同步"

步驟
  1. 如果啟用 AutoSupport 、請叫用 AutoSupport 訊息來隱藏自動建立個案: system node autosupport invoke -node * -type all -message MAINT=<# of hours>h

    下列AutoSupport 資訊不顯示自動建立案例兩小時: cluster1:> system node autosupport invoke -node * -type all -message MAINT=2h

  2. 停用健全控制器主控台的自動恢復功能:「torage容錯移轉修改–節點本機-自動恢復錯誤」

    註 當您看到_是否要停用自動恢復?_時、請輸入「y」。
  3. 將受損的控制器移至載入器提示:

    如果受損的控制器正在顯示…​ 然後…​

    載入程式提示

    前往下一步。

    正在等待恢復…​

    按Ctrl-C、然後在出現提示時回應「y」。

    系統提示或密碼提示

    從正常控制器接管或停止受損的控制器:「torage容錯移轉接管-節點_受損節點_節點名稱_」

    當受損的控制器顯示正在等待恢復…​時、請按Ctrl-C、然後回應「y」。

選項2:控制器位於MetroCluster 一個不二之處

若要關閉受損的控制器、您必須判斷控制器的狀態、並在必要時接管控制器、以便健全的控制器繼續從受損的控制器儲存設備提供資料。

  • 如果叢集有兩個以上的節點、則叢集必須處於仲裁狀態。如果叢集未達到法定人數、或健全的控制器顯示為「假」、表示符合資格和健全狀況、則您必須在關閉受損的控制器之前修正問題;請參閱 "將節點與叢集同步"

  • 您必須已確認 MetroCluster 組態狀態已設定、且節點處於啟用和正常狀態(metrocluster node show)。

步驟
  1. 如果啟用了此功能、請叫用下列訊息來抑制自動建立案例:「System Node現象叫用節點*-type all -Message MAn=number_of_hs_Downh」AutoSupport AutoSupport AutoSupport

    下列AutoSupport 資訊不顯示自動建立案例兩小時的訊息:「cluster1:>系統節點AutoSupport 、叫用節點-輸入ALL -Message MAn=2h」

  2. 停用健全控制器主控台的自動恢復功能:「torage容錯移轉修改–節點本機-自動恢復錯誤」

  3. 將受損的控制器移至載入器提示:

    如果受損的控制器正在顯示…​ 然後…​

    載入程式提示

    前往下一節。

    正在等待恢復…​

    按Ctrl-C、然後在出現提示時回應「y」。

    系統提示或密碼提示(輸入系統密碼)

    從正常控制器接管或停止受損的控制器:「torage容錯移轉接管-節點_受損節點_節點名稱_」

    當受損的控制器顯示正在等待恢復…​時、請按Ctrl-C、然後回應「y」。

步驟2:移除控制器模組

更換控制器模組或更換控制器模組內的元件時、您必須從機箱中移除控制器模組。

  1. 檢查系統插槽 4/5 中的 NVRAM 狀態 LED 。控制器模組前面板上也有 NVRAM LED 。尋找 NV 圖示:

    NVRAM 注意與狀態 LED 位置圖

    編號 1

    NVRAM 狀態 LED

    編號 2

    NVRAM 注意 LED

    註 如果 NVRAM 狀態 LED 閃爍、可能表示控制器模組未正確接管或停止(未認可的資料)。如果合作夥伴控制器模組未成功接管受損的控制器模組、請先聯絡 "NetApp支援" 、再繼續執行此程序。

    故障控制器模組上 NVRAM 狀態 LED 的一般行為如下:

    • 從控制器模組拔下電源、控制器模組處於「等待恢復」狀態、或控制器模組未正確接管或停止(未認可的資料)時、 NVRAM 狀態 LED 會閃爍。

    • 從機箱中移除控制器模組時、 NVRAM 狀態 LED 會閃爍、這可能表示控制器模組未正確接管或停止(未認可的資料)。確認已由合作夥伴控制器模組完全接管控制器模組、或顯示受損控制器模組 waiting for giveback。然後、可以忽略閃爍的 LED (並從機箱中移除控制器)。

  2. 如果您尚未接地、請正確接地。

  3. 在裝置正面、將手指勾入鎖定凸輪的孔中、壓緊凸輪桿上的彈片、然後輕輕地同時將兩個鎖條牢牢地朝您的方向旋轉。

    控制器模組會稍微移出機箱。

    控制器移除圖形

    編號 1

    鎖定凸輪栓鎖

  4. 將控制器模組滑出機箱、然後放在平坦穩定的表面上。

    將控制器模組滑出機箱時、請務必支撐控制器模組的底部。

步驟3:更換DIMM

當系統報告該 DIMM 的永久性故障狀況時、您必須更換 DIMM 。

  1. 如果您尚未接地、請正確接地。

  2. 打開控制器頂端的控制器通風管。

    1. 將手指插入通風管遠端的凹處。

    2. 提起通風管、並將其向上旋轉至最遠的位置。

  3. 找到控制器模組上的 DIMM 、並識別要更換的 DIMM 。

  4. 緩慢地將DIMM兩側的兩個DIMM彈出彈片分開、然後將DIMM從插槽中滑出、藉此將DIMM從插槽中退出。

    重要 小心拿住DIMM的邊緣、避免對DIMM電路板上的元件施加壓力。
    更換 DIMM

    編號 1

    DIMM和DIMM彈出卡舌

  5. 從防靜電包裝袋中取出備用DIMM、拿住DIMM的邊角、然後將其對準插槽。

    DIMM插針之間的槽口應與插槽中的卡舌對齊。

  6. 確定連接器上的DIMM彈出彈片處於開啟位置、然後將DIMM正面插入插槽。

    DIMM可緊密插入插槽、但應該很容易就能裝入。如果沒有、請重新將DIMM與插槽對齊、然後重新插入。

    重要 目視檢查DIMM、確認其對齊並完全插入插槽。
  7. 在DIMM頂端邊緣小心地推入、但穩固地推入、直到彈出彈出彈片卡入DIMM兩端的槽口。

  8. 關閉控制器通風管。

步驟4:安裝控制器

重新安裝控制器模組並將其開機。

  1. 如果您尚未這麼做、請關閉通風管。

  2. 將控制器模組的末端與機箱中的開口對齊、然後將控制器模組滑入機箱、並將控制桿從系統正面旋轉。

  3. 一旦控制器模組停止滑動、請向內旋轉 CAM 把手、直到卡入風扇下方

    註 將控制器模組滑入機箱時、請勿過度施力、以免損壞連接器。

    一旦控制器模組完全插入機箱中、就會開始開機。

  4. 將功能受損的控制器恢復正常運作,只需歸還其儲存設備 storage failover giveback -ofnode impaired_node_name:。

  5. 如果已停用自動恢復功能、請重新啟用: storage failover modify -node local -auto-giveback true

  6. 如果啟用 AutoSupport 、則還原 / 恢復自動建立個案: system node autosupport invoke -node * -type all -message MAINT=END

步驟5:將故障零件歸還給NetApp

如套件隨附的RMA指示所述、將故障零件退回NetApp。如 "零件退貨與更換"需詳細資訊、請參閱頁面。