更換 DIMM - AFF A1K
如果偵測到過度的可修正或不可修正的記憶體錯誤,請更換 AFF A1K 系統中的 DIMM 。此類錯誤可能會導致儲存系統無法開機 ONTAP 。更換程序包括關閉受損的控制器,將其移除,更換 DIMM ,重新安裝控制器,然後將故障零件退回 NetApp 。
-
請確定系統中的所有其他元件都正常運作;如果沒有、您必須聯絡技術支援部門。
-
請務必使用您從 NetApp 收到的替換元件來更換故障的元件。
步驟1:關閉受損的控制器
使用下列其中一個選項來關閉或接管受損的控制器。
若要關閉受損的控制器、您必須判斷控制器的狀態、並在必要時接管控制器、以便健全的控制器繼續從受損的控制器儲存設備提供資料。
-
如果您有 SAN 系統,則必須檢查故障控制器 SCSI 刀鋒的事件訊息
cluster kernel-service show
。 `cluster kernel-service show`命令(從 priv 進階模式)會顯示節點名稱、"仲裁狀態"該節點的可用度狀態、以及該節點的作業狀態。每個SCSI刀鋒處理序都應與叢集中的其他節點處於仲裁狀態。任何問題都必須先解決、才能繼續進行更換。
-
如果叢集有兩個以上的節點、則叢集必須處於仲裁狀態。如果叢集未達到法定人數、或健全的控制器顯示為「假」、表示符合資格和健全狀況、則您必須在關閉受損的控制器之前修正問題;請參閱 "將節點與叢集同步"。
-
如果啟用了「支援」功能、請叫用下列消息來禁止自動建立個案AutoSupport AutoSupport :
system node autosupport invoke -node * -type all -message MAINT=<# of hours>h
下列AutoSupport 資訊不顯示自動建立案例兩小時:
cluster1:> system node autosupport invoke -node * -type all -message MAINT=2h
-
停用自動交還:
-
從健康控制器的控制台輸入以下命令:
storage failover modify -node impaired_node_name -auto-giveback false
-
進入 `y`當您看到提示「您是否要停用自動回饋?」時
-
-
將受損的控制器移至載入器提示:
如果受損的控制器正在顯示… 然後… 載入程式提示
前往下一步。
正在等待恢復…
按Ctrl-C、然後在出現提示時回應「y」。
系統提示或密碼提示
從健全的控制器接管或停止受損的控制器:
storage failover takeover -ofnode impaired_node_name -halt true
--halt true_ 參數會帶您進入 Loader 提示字元。
若要關閉受損的控制器、您必須判斷控制器的狀態、並在必要時接管控制器、以便健全的控制器繼續從受損的控制器儲存設備提供資料。
-
如果叢集有兩個以上的節點、則叢集必須處於仲裁狀態。如果叢集未達到法定人數、或健全的控制器顯示為「假」、表示符合資格和健全狀況、則您必須在關閉受損的控制器之前修正問題;請參閱 "將節點與叢集同步"。
-
您必須確認已設定 MetroCluster 組態狀態,且節點處於啟用和正常狀態:
metrocluster node show
-
如果啟用了「支援」功能、請叫用下列消息來禁止自動建立個案AutoSupport AutoSupport :
system node autosupport invoke -node * -type all -message MAINT=number_of_hours_downh
下列AutoSupport 資訊不顯示自動建立案例兩小時:
cluster1:*> system node autosupport invoke -node * -type all -message MAINT=2h
-
停用自動交還:
-
從健康控制器的控制台輸入以下命令:
storage failover modify -node local -auto-giveback false
-
進入 `y`當您看到提示「您是否要停用自動回饋?」時
-
-
將受損的控制器移至載入器提示:
如果受損的控制器正在顯示… 然後… 載入程式提示
前往下一節。
正在等待恢復…
按Ctrl-C、然後在出現提示時回應「y」。
系統提示或密碼提示(輸入系統密碼)
從健全的控制器接管或停止受損的控制器:
storage failover takeover -ofnode impaired_node_name -halt true
--halt true_ 參數會帶您進入 Loader 提示字元。
步驟2:移除控制器模組
更換控制器模組或更換控制器模組內的元件時、您必須從機箱中移除控制器模組。
-
檢查系統插槽 4/5 中的 NVRAM 狀態 LED 。控制器模組前面板上也有 NVRAM LED 。尋找 NV 圖示:
NVRAM 狀態 LED
NVRAM 注意 LED
-
如果 NV LED 熄滅、請前往下一步。
-
如果 NV LED 閃爍、請等待閃爍停止。如果持續閃爍超過 5 分鐘、請聯絡技術支援部門尋求協助。
-
-
如果您尚未接地、請正確接地。
-
在裝置正面、將手指勾入鎖定凸輪的孔中、壓緊凸輪桿上的彈片、然後輕輕地同時將兩個鎖條牢牢地朝您的方向旋轉。
控制器模組會稍微移出機箱。
鎖定凸輪栓鎖
-
將控制器模組滑出機箱、然後放在平坦穩定的表面上。
將控制器模組滑出機箱時、請務必支撐控制器模組的底部。
步驟3:更換DIMM
當系統報告該 DIMM 的永久性故障狀況時、您必須更換 DIMM 。
-
如果您尚未接地、請正確接地。
-
打開控制器頂端的控制器通風管。
-
將手指插入通風管遠端的凹處。
-
提起通風管、並將其向上旋轉至最遠的位置。
-
-
找到控制器模組上的 DIMM 、並識別要更換的 DIMM 。
使用控制器通風管上的 FRU 對應圖來找出 DIMM 插槽。
-
緩慢地將DIMM兩側的兩個DIMM彈出彈片分開、然後將DIMM從插槽中滑出、藉此將DIMM從插槽中退出。
小心拿住DIMM的邊緣、避免對DIMM電路板上的元件施加壓力。 DIMM和DIMM彈出卡舌
-
從防靜電包裝袋中取出備用DIMM、拿住DIMM的邊角、然後將其對準插槽。
DIMM插針之間的槽口應與插槽中的卡舌對齊。
-
確定連接器上的DIMM彈出彈片處於開啟位置、然後將DIMM正面插入插槽。
DIMM可緊密插入插槽、但應該很容易就能裝入。如果沒有、請重新將DIMM與插槽對齊、然後重新插入。
目視檢查DIMM、確認其對齊並完全插入插槽。 -
在DIMM頂端邊緣小心地推入、但穩固地推入、直到彈出彈出彈片卡入DIMM兩端的槽口。
-
關閉控制器通風管。
步驟4:安裝控制器
重新安裝控制器模組並將其開機。
-
將通風管往下轉動、以確保通風管完全關閉。
它必須與控制器模組金屬板齊平。
-
將控制器模組的末端與機箱中的開口對齊、然後將控制器模組滑入機箱、並將控制桿從系統正面旋轉。
-
一旦控制器模組停止滑動、請向內旋轉 CAM 把手、直到卡入風扇下方
將控制器模組滑入機箱時、請勿過度施力、以免損壞連接器。 一旦控制器模組完全插入機箱中、就會開始開機。
-
將功能受損的控制器恢復正常運作,只需歸還其儲存設備
storage failover giveback -ofnode impaired_node_name
:。 -
如果已停用自動恢復功能、請重新啟用:
storage failover modify -node local -auto-giveback true
。 -
如果啟用 AutoSupport 、則還原 / 恢復自動建立個案:
system node autosupport invoke -node * -type all -message MAINT=END
。
步驟5:將故障零件歸還給NetApp
如套件隨附的RMA指示所述、將故障零件退回NetApp。如 "零件退貨與更換"需詳細資訊、請參閱頁面。