Skip to main content
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

更換 DIMM - AFF A70 和 AFF A90

貢獻者 netapp-jsnyder dougthomp netapp-martyh

如果偵測到過度的可修正或不可修正的記憶體錯誤,請更換 AFF A70 或 AFF A90 系統中的 DIMM 。此類錯誤可能會導致儲存系統無法開機 ONTAP 。更換程序包括關閉受損的控制器,將其移除,更換 DIMM ,重新安裝控制器,然後將故障零件退回 NetApp 。

開始之前
  • 請確定系統中的所有其他元件都正常運作;如果沒有、您必須聯絡技術支援部門。

  • 請務必使用您從 NetApp 收到的替換元件來更換故障的元件。

步驟1:關閉受損的控制器

使用下列其中一個選項來關閉或接管受損的控制器。

選項1:大多數系統

若要關閉受損的控制器、您必須判斷控制器的狀態、並在必要時接管控制器、以便健全的控制器繼續從受損的控制器儲存設備提供資料。

關於這項工作
  • 如果您有 SAN 系統,則必須檢查故障控制器 SCSI 刀鋒的事件訊息 cluster kernel-service show。 `cluster kernel-service show`命令(從 priv 進階模式)會顯示節點名稱、"仲裁狀態"該節點的可用度狀態、以及該節點的作業狀態。

    每個SCSI刀鋒處理序都應與叢集中的其他節點處於仲裁狀態。任何問題都必須先解決、才能繼續進行更換。

  • 如果叢集有兩個以上的節點、則叢集必須處於仲裁狀態。如果叢集未達到法定人數、或健全的控制器顯示為「假」、表示符合資格和健全狀況、則您必須在關閉受損的控制器之前修正問題;請參閱 "將節點與叢集同步"

步驟
  1. 如果啟用了「支援」功能、請叫用下列消息來禁止自動建立個案AutoSupport AutoSupport :

    system node autosupport invoke -node * -type all -message MAINT=<# of hours>h

    下列AutoSupport 資訊不顯示自動建立案例兩小時:

    cluster1:> system node autosupport invoke -node * -type all -message MAINT=2h

  2. 停用自動交還:

    1. 從健康控制器的控制台輸入以下命令:

      storage failover modify -node impaired_node_name -auto-giveback false

    2. 進入 `y`當您看到提示「您是否要停用自動回饋?」時

  3. 將受損的控制器移至載入器提示:

    如果受損的控制器正在顯示…​ 然後…​

    載入程式提示

    前往下一步。

    正在等待恢復…​

    按Ctrl-C、然後在出現提示時回應「y」。

    系統提示或密碼提示

    從健全的控制器接管或停止受損的控制器:

    storage failover takeover -ofnode impaired_node_name -halt true

    --halt true_ 參數會帶您進入 Loader 提示字元。

選項2:控制器位於MetroCluster 一個不二之處

若要關閉受損的控制器、您必須判斷控制器的狀態、並在必要時接管控制器、以便健全的控制器繼續從受損的控制器儲存設備提供資料。

  • 如果叢集有兩個以上的節點、則叢集必須處於仲裁狀態。如果叢集未達到法定人數、或健全的控制器顯示為「假」、表示符合資格和健全狀況、則您必須在關閉受損的控制器之前修正問題;請參閱 "將節點與叢集同步"

  • 您必須確認已設定 MetroCluster 組態狀態,且節點處於啟用和正常狀態:

    metrocluster node show

步驟
  1. 如果啟用了「支援」功能、請叫用下列消息來禁止自動建立個案AutoSupport AutoSupport :

    system node autosupport invoke -node * -type all -message MAINT=number_of_hours_downh

    下列AutoSupport 資訊不顯示自動建立案例兩小時:

    cluster1:*> system node autosupport invoke -node * -type all -message MAINT=2h

  2. 停用自動交還:

    1. 從健康控制器的控制台輸入以下命令:

      storage failover modify -node local -auto-giveback false

    2. 進入 `y`當您看到提示「您是否要停用自動回饋?」時

  3. 將受損的控制器移至載入器提示:

    如果受損的控制器正在顯示…​ 然後…​

    載入程式提示

    前往下一節。

    正在等待恢復…​

    按Ctrl-C、然後在出現提示時回應「y」。

    系統提示或密碼提示(輸入系統密碼)

    從健全的控制器接管或停止受損的控制器:

    storage failover takeover -ofnode impaired_node_name -halt true

    --halt true_ 參數會帶您進入 Loader 提示字元。

步驟2:移除控制器模組

更換控制器模組或更換控制器模組內部的元件時、您必須從機箱中移除控制器模組。

步驟
  1. 請用拇指推動每個磁碟機,直到您感覺到正向停止為止,以確保機箱中的所有磁碟機都穩固地安裝在中間背板上。

    安裝磁碟機
  2. 檢查故障控制器模組背面插槽 4/5 中的琥珀色 NVRAM 狀態 LED 是否熄滅。尋找 NV 圖示。

    NVRAM 注意與狀態 LED 位置圖

    編號 1

    NVRAM 狀態 LED

    編號 2

    NVRAM 注意 LED

    • 如果 NV LED 熄滅、請前往下一步。

    • 如果 NV LED 閃爍、請等待閃爍停止。如果持續閃爍超過 5 分鐘、請聯絡技術支援部門尋求協助。

  3. 如果您尚未接地、請正確接地。

  4. 從控制器模組電源供應器( PSU )拔下控制器模組電源供應器纜線。

    註 如果您的系統有直流電源、請從 PSU 拔下電源區塊。
  5. 從控制器模組拔下系統纜線、 SFP 和 QSFP 模組(如有需要)、並追蹤纜線的連接位置。

    將纜線留在纜線管理裝置中、以便在重新安裝纜線管理裝置時、整理好纜線。

  6. 從控制器模組中取出纜線管理裝置。

  7. 向下按兩個鎖定栓、然後同時向下轉動兩個鎖條。

    控制器模組會稍微移出機箱。

    控制器移除圖形

    編號 1

    鎖定鎖定

    編號 2

    鎖定銷

  8. 將控制器模組滑出機箱、然後放在平穩的表面上。

    將控制器模組滑出機箱時、請確定您支援控制器模組的底部。

步驟3:更換DIMM

若要更換 DIMM ,請在控制器內找到 DIMM ,然後依照特定步驟順序進行。

步驟
  1. 如果您尚未接地、請正確接地。

  2. 打開控制器頂端的控制器通風管。

    1. 將手指插入通風管遠端的凹處。

    2. 提起通風管、並將其向上旋轉至最遠的位置。

  3. 找到控制器模組上的 DIMM 、並識別目標 DIMM 。

    使用控制器通風管上的 FRU 對應圖來找出 DIMM 插槽。

  4. 緩慢地將DIMM兩側的兩個DIMM彈出彈片分開、然後將DIMM從插槽中滑出、藉此將DIMM從插槽中退出。

    重要 小心拿住DIMM的邊緣、避免對DIMM電路板上的元件施加壓力。
    更換 DIMM

    編號 1

    DIMM和DIMM彈出卡舌

  5. 從防靜電包裝袋中取出備用DIMM、拿住DIMM的邊角、然後將其對準插槽。

    DIMM插針之間的槽口應與插槽中的卡舌對齊。

  6. 確定連接器上的DIMM彈出彈片處於開啟位置、然後將DIMM正面插入插槽。

    DIMM可緊密插入插槽、但應該很容易就能裝入。如果沒有、請重新將DIMM與插槽對齊、然後重新插入。

    重要 目視檢查DIMM、確認其對齊並完全插入插槽。
  7. 在DIMM頂端邊緣小心地推入、但穩固地推入、直到彈出彈出彈片卡入DIMM兩端的槽口。

  8. 關閉控制器通風管。

步驟4:重新安裝控制器模組

重新安裝控制器模組、然後重新啟動。

步驟
  1. 將通風管往下轉動、以確保通風管完全關閉。

    它必須與控制器模組金屬板齊平。

  2. 將控制器模組的一端與機箱的開口對齊、然後將控制器模組輕推至系統的一半。

    註 在指示之前、請勿將控制器模組完全插入機箱。
  3. 視需要重新設定儲存系統。

    如果您移除收發器( QSFP 或 SFP )、請記得在使用光纖纜線時重新安裝。

    請確定主控台纜線已連接至修復的控制器模組、以便在重新開機時接收主控台訊息。修復後的控制器會從正常運作的控制器接收電力、並在完全裝入機箱後立即開始重新開機。

  4. 完成控制器模組的重新安裝:

    1. 將控制器模組穩固地推入機箱、直到它與中間板完全接入。

      控制器模組完全就位時、鎖定鎖條會上升。

    將控制器模組滑入機箱時、請勿過度施力、以免損壞連接器。

    1. 將鎖定閂向上旋轉至鎖定位置。

  5. 將電源線插入電源供應器。一旦電源恢復,控制器就會重新啟動。

    如果您有直流電源、請在控制器模組完全插入機箱後、將電源區塊重新連接至電源供應器。

  6. 將受損的控制器歸還其儲存設備、使其恢復正常運作:

    storage failover giveback -ofnode impaired_node_name

  7. 如果自動恢復已停用、請重新啟用:

    storage failover modify -node local -auto-giveback true

  8. 如果啟用 AutoSupport ,則還原 / 恢復自動建立個案:

    system node autosupport invoke -node * -type all -message MAINT=END

步驟5:將故障零件歸還給NetApp

如套件隨附的RMA指示所述、將故障零件退回NetApp。如 "零件退貨與更換"需詳細資訊、請參閱頁面。