Skip to main content
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

更換DIMM AFF - VA900

貢獻者

當儲存系統遇到錯誤時、您必須更換控制器中的 DIMM 、例如根據健全狀況監視器警示或不可修正的 ECC 錯誤(可修正的錯誤修正碼)過多、通常是由於單一 DIMM 故障而導致、導致儲存系統無法開機 ONTAP 。

開始之前

系統中的所有其他元件都必須正常運作;否則、您必須聯絡技術支援部門。

您必須使用從供應商處收到的替換FRU元件來更換故障元件。

步驟1:關閉受損的控制器

使用下列其中一個選項來關閉或接管受損的控制器。

選項1:大多數系統

若要關閉受損的控制器、您必須判斷控制器的狀態、並在必要時接管控制器、以便健全的控制器繼續從受損的控制器儲存設備提供資料。

關於這項工作
  • 如果您有 SAN 系統,則必須檢查故障控制器 SCSI 刀鋒的事件訊息 cluster kernel-service show。 `cluster kernel-service show`命令(從 priv 進階模式)會顯示節點名稱、"仲裁狀態"該節點的可用度狀態、以及該節點的作業狀態。

    每個SCSI刀鋒處理序都應與叢集中的其他節點處於仲裁狀態。任何問題都必須先解決、才能繼續進行更換。

  • 如果叢集有兩個以上的節點、則叢集必須處於仲裁狀態。如果叢集未達到法定人數、或健全的控制器顯示為「假」、表示符合資格和健全狀況、則您必須在關閉受損的控制器之前修正問題;請參閱 "將節點與叢集同步"

步驟
  1. 如果啟用 AutoSupport 、請叫用 AutoSupport 訊息來隱藏自動建立個案: system node autosupport invoke -node * -type all -message MAINT=<# of hours>h

    下列AutoSupport 資訊不顯示自動建立案例兩小時: cluster1:> system node autosupport invoke -node * -type all -message MAINT=2h

  2. 停用健康控制器主控台的自動恢復: storage failover modify -node local -auto-giveback false

    註 當您看到_是否要停用自動恢復?_時、請輸入「y」。
  3. 將受損的控制器移至載入器提示:

    如果受損的控制器正在顯示…​ 然後…​

    載入程式提示

    前往下一步。

    正在等待恢復…​

    按Ctrl-C、然後在出現提示時回應「y」。

    系統提示或密碼提示

    從正常控制器接管或停止受損的控制器:「torage容錯移轉接管-節點_受損節點_節點名稱_」

    當受損的控制器顯示正在等待恢復…​時、請按Ctrl-C、然後回應「y」。

選項2:控制器位於MetroCluster 一個不二之處
註 如果您的系統採用雙節點MetroCluster 的功能、請勿使用此程序。

若要關閉受損的控制器、您必須判斷控制器的狀態、並在必要時接管控制器、以便健全的控制器繼續從受損的控制器儲存設備提供資料。

  • 如果叢集有兩個以上的節點、則叢集必須處於仲裁狀態。如果叢集未達到法定人數、或健全的控制器顯示為「假」、表示符合資格和健全狀況、則您必須在關閉受損的控制器之前修正問題;請參閱 "將節點與叢集同步"

  • 如果您使用MetroCluster 的是功能不全的組態、則必須確認MetroCluster 已設定「功能不全」狀態、且節點處於啟用且正常的狀態(「MetroCluster 功能不全」)。

步驟
  1. 如果啟用了此功能、請叫用下列訊息來抑制自動建立案例:「System Node現象叫用節點*-type all -Message MAn=number_of_hs_Downh」AutoSupport AutoSupport AutoSupport

    下列AutoSupport 資訊不顯示自動建立案例兩小時的訊息:「cluster1:>系統節點AutoSupport 、叫用節點-輸入ALL -Message MAn=2h」

  2. 停用健全控制器主控台的自動恢復功能:「torage容錯移轉修改–節點本機-自動恢復錯誤」

  3. 將受損的控制器移至載入器提示:

    如果受損的控制器正在顯示…​ 然後…​

    載入程式提示

    前往下一步。

    正在等待恢復…​

    按Ctrl-C、然後在出現提示時回應「y」。

    系統提示或密碼提示(輸入系統密碼)

    從正常控制器接管或停止受損的控制器:「torage容錯移轉接管-節點_受損節點_節點名稱_」

    當受損的控制器顯示正在等待恢復…​時、請按Ctrl-C、然後回應「y」。

步驟2:移除控制器模組

若要存取控制器內部的元件、您必須先從系統中移除控制器模組、然後移除控制器模組上的護蓋。

  1. 如果您尚未接地、請正確接地。

  2. 從受損的控制器模組拔下纜線、並追蹤纜線的連接位置。

  3. 將CAM把手上的Terra cotta按鈕向下推、直到解鎖為止。

    動畫-移除控制器
    釋放控制器

    編號 1

    CAM握把釋放鈕

    編號 2

    CAM握把

  4. 旋轉CAM握把、使其完全脫離機箱的控制器模組、然後將控制器模組滑出機箱。

    將控制器模組滑出機箱時、請確定您支援控制器模組的底部。

  5. 將控制器模組蓋面朝上放置在穩固的平面上、按下機箱蓋上的藍色按鈕、將機箱蓋滑到控制器模組的背面、然後向上轉動機箱蓋、將其從控制器模組中取出。

    將主機蓋從控制器模組抬起取出

    編號 1

    控制器模組護蓋鎖定按鈕

步驟3:更換DIMM

若要更換DIMM、請在控制器內找到DIMM、然後依照特定的步驟順序進行。

註 Ver2 控制器的 DIMM 插槽較少。DIMM 插槽編號並未減少支援的 DIMM 數量或變更。將 DIMM 移至新的控制器模組時、請將 DIMM 安裝至與受損控制器模組相同的插槽編號 / 位置。 請參閱 Ver2 控制器模組上的 FRU 對應圖、瞭解 DIMM 插槽位置。
  1. 如果您尚未接地、請正確接地。

  2. 找到控制器模組上的DIMM。

    DIMM 位置地圖
  3. 緩慢地將DIMM兩側的兩個DIMM彈出彈片分開、然後將DIMM從插槽中滑出、藉此將DIMM從插槽中退出。

    重要 小心拿住DIMM的邊緣、避免對DIMM電路板上的元件施加壓力。
    動畫-更換DIMM
    卸下 DIMM

    編號 1

    DIMM推出式彈片

    編號 2

    DIMM

  4. 從防靜電包裝袋中取出備用DIMM、拿住DIMM的邊角、然後將其對準插槽。

    DIMM插針之間的槽口應與插槽中的卡舌對齊。

  5. 確定連接器上的DIMM彈出彈片處於開啟位置、然後將DIMM正面插入插槽。

    DIMM可緊密插入插槽、但應該很容易就能裝入。如果沒有、請重新將DIMM與插槽對齊、然後重新插入。

    重要 目視檢查DIMM、確認其對齊並完全插入插槽。
  6. 在DIMM頂端邊緣小心地推入、但穩固地推入、直到彈出彈出彈片卡入DIMM兩端的槽口。

  7. 合上控制器模組護蓋。

步驟4:安裝控制器

將元件安裝到控制器模組之後、您必須將控制器模組裝回系統機箱、然後啟動作業系統。

對於同一機箱中有兩個控制器模組的HA配對、安裝控制器模組的順序特別重要、因為當您將控制器模組完全裝入機箱時、它會嘗試重新開機。

  1. 如果您尚未接地、請正確接地。

  2. 如果您尚未更換控制器模組的護蓋、請將其裝回。

    將主機蓋從控制器模組抬起取出

    編號 1

    控制器模組護蓋鎖定按鈕

  3. 將控制器模組的一端與機箱的開口對齊、然後將控制器模組輕推至系統的一半。

    動畫-安裝控制器
    釋放控制器

    編號 1

    CAM握把釋放鈕

    編號 2

    CAM握把

    註 在指示之前、請勿將控制器模組完全插入機箱。
  4. 僅連接管理連接埠和主控台連接埠、以便存取系統以執行下列各節中的工作。

    註 您將在本程序稍後將其餘纜線連接至控制器模組。
  5. 完成控制器模組的重新安裝:

    1. 如果您尚未重新安裝纜線管理裝置、請重新安裝。

    2. 將控制器模組穩固地推入機箱、直到它與中間板完全接入。

      控制器模組完全就位時、鎖定鎖條會上升。

      重要 將控制器模組滑入機箱時、請勿過度施力、以免損壞連接器。

    控制器模組一旦完全插入機箱、就會開始開機。準備好中斷開機程序。

    1. 向上轉動鎖定栓、將其傾斜、使其從鎖定銷中取出、然後將其放低至鎖定位置。

    2. 當您看到「Press Ctrl-C for Boot Menu」(按Ctrl-C進入開機功能表)時、請按「Ctrl-C」來中斷開機程序。

    3. 從顯示的功能表中選取要開機至維護模式的選項。

步驟5:執行系統層級診斷

安裝新的DIMM之後、您應該執行診斷程式。

您的系統必須處於載入器提示狀態、才能啟動系統層級診斷。

診斷程序中的所有命令都是由要更換元件的控制器發出。

  1. 如果要維修的控制器未出現載入程式提示、請執行下列步驟:

    1. 從顯示的功能表中選取「維護模式」選項。

    2. 控制器開機至維護模式後、停止控制器: halt

      發出命令之後、您應該等到系統在載入程式提示字元停止。

      重要 在開機過程中、您可以安全回應 y 提示。
      • 如果出現提示、警告您在HA組態中進入維護模式時、必須確保健全的控制器保持停機狀態。

  2. 在載入程式提示下、存取專為系統層級診斷所設計的特殊驅動程式、以正常運作: boot_diags

    在開機過程中、您可以安全回應 y 直到出現維護模式提示( * > )為止的提示。

  3. 在系統記憶體上執行診斷: sldiag device run -dev mem

  4. 確認更換 DIMM 後沒有硬體問題: sldiag device status -dev mem -long -state failed

    如果沒有測試失敗、系統層級的診斷會返回提示、或列出測試元件所導致的故障完整狀態。

  5. 根據上述步驟的結果繼續進行:

    如果系統層級的診斷測試…​ 然後…​

    已完成、沒有任何故障

    1. 清除狀態記錄: sldiag device clearstatus

    2. 確認記錄已清除: sldiag device status

      畫面會顯示下列預設回應:

      SLDIAG:沒有記錄訊息。

    3. 退出維護模式:「halt」

      控制器會顯示載入器提示。

    4. 從載入程式提示字元啟動控制器: bye

    5. 使控制器恢復正常運作:

    如果您的控制器位於…​ 然後…​

    HA配對

    執行回饋: storage failover giveback -ofnode replacement_node_name * 注意: * 如果您停用自動恢復功能、請使用儲存容錯移轉修改命令重新啟用。

    導致某些測試失敗

    判斷問題的原因:

    1. 退出維護模式:「halt」

      發出命令後、請等待系統在載入程式提示字元停止。

    2. 確認您已注意到執行系統層級診斷所需的所有考量事項、纜線是否穩固連接、以及硬體元件是否已正確安裝在儲存系統中。

    3. 啟動您正在維修的控制器模組、按下以中斷開機 Ctrl-C 當系統提示您進入開機功能表時:

      • 如果機箱中有兩個控制器模組、請將您要維修的控制器模組完全裝入機箱。

        控制器模組完全就位時會開機。

      • 如果機箱中有一個控制器模組、請連接電源供應器、然後將其開啟。

    4. 從功能表中選取開機至維護模式。

    5. 輸入下列命令以結束維護模式: halt

      發出命令後、請等待系統在載入程式提示字元停止。

    6. 重新執行系統層級的診斷測試。

步驟6:將故障零件歸還給NetApp

如套件隨附的RMA指示所述、將故障零件退回NetApp。如 "零件退貨與更換"需詳細資訊、請參閱頁面。