本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

更換DIMM - FAS8200

當系統登錄的可修正錯誤修正碼(ECC)數量不斷增加時、您必須更換控制器模組中的DIMM;否則會導致系統嚴重錯誤。

系統中的所有其他元件都必須正常運作;否則、您必須聯絡技術支援部門。

您必須使用從供應商處收到的替換FRU元件來更換故障元件。

步驟1:關閉受損的控制器

根據儲存系統硬體組態的不同、您可以使用不同的程序來關閉或接管受損的控制器。

選項1:大多數組態

若要關閉受損的控制器、您必須判斷控制器的狀態、並在必要時接管控制器、以便健全的控制器繼續從受損的控制器儲存設備提供資料。

關於這項工作
  • 如果您使用NetApp儲存加密、則必須依照《NetApp ONTAP 加密電源指南》_的「將SED恢復為未受保護模式」一節中的指示、重設MSID。

  • 如果您使用SAN系統、則必須檢查受損控制器SCSI刀鋒的事件訊息(「事件記錄顯示」)。

    每個SCSI刀鋒處理序都應與叢集中的其他節點處於仲裁狀態。任何問題都必須先解決、才能繼續進行更換。

  • 如果叢集有兩個以上的節點、則叢集必須處於仲裁狀態。如果叢集未達到法定人數、或健全的控制器顯示為「假」、表示符合資格和健全狀況、則您必須在關閉受損的控制器之前修正問題;請參閱 "使用CLI進行系統管理總覽"

  • 如果您使用MetroCluster 的是功能不全的組態、則必須確認MetroCluster 已設定「功能不全」狀態、且節點處於啟用且正常的狀態(「MetroCluster 功能不全」)。

步驟
  1. 如果啟用了此功能、請叫用下列訊息來抑制自動建立案例:「System Node現象叫用節點*-type all -Message MAn=number_of_hs_Downh」AutoSupport AutoSupport AutoSupport

    下列AutoSupport 資訊不顯示自動建立案例兩小時的訊息:「cluster1:>系統節點AutoSupport 、叫用節點-輸入ALL -Message MAn=2h」

  2. 停用健全控制器主控台的自動恢復功能:「torage容錯移轉修改–節點本機-自動恢復錯誤」

  3. 將受損的控制器移至載入器提示:

    如果受損的控制器正在顯示…​ 然後…​

    載入程式提示

    移至「移除控制器模組」。

    正在等待恢復…​

    按Ctrl-C、然後在出現提示時回應「y」。

    系統提示或密碼提示(輸入系統密碼)

    從正常控制器接管或停止受損的控制器:「torage容錯移轉接管-節點_受損節點_節點名稱_」

    當受損的控制器顯示正在等待恢復…​時、請按Ctrl-C、然後回應「y」。

選項2:控制器位於雙節點MetroCluster 的不二

若要關閉受損的控制器、您必須判斷控制器的狀態、並在必要時切換控制器、使健全的控制器繼續從受損的控制器儲存設備提供資料。

關於這項工作
  • 如果您使用NetApp儲存加密、則必須依照的「將FIPS磁碟機或SED恢復為未受保護模式」一節中的指示、重設MSID "使用CLI進行NetApp加密總覽"

  • 您必須在本程序結束時保持電源供應器開啟、才能為健全的控制器提供電力。

步驟
  1. 檢查MetroCluster 「不正常」狀態、判斷受損的控制器是否已自動切換至「正常」控制器MetroCluster :「不正常」

  2. 視是否發生自動切換而定、請根據下表繼續進行:

    如果控制器受損…​ 然後…​

    已自動切換

    繼續下一步。

    尚未自動切換

    從健全的控制器執行計畫性的切換作業MetroCluster :「『交換切換’」

    尚未自動切換、您嘗試使用MetroCluster 「還原切換」命令進行切換、切換遭到否決

    請檢閱否決訊息、如有可能、請解決此問題、然後再試一次。如果您無法解決問題、請聯絡技術支援部門。

  3. 從MetroCluster 存續的叢集執行「f恢復 階段Aggregate」命令、以重新同步資料集合體。

    controller_A_1::> metrocluster heal -phase aggregates
    [Job 130] Job succeeded: Heal Aggregates is successful.

    如果治療被否決、您可以選擇MetroCluster 使用「-overre-etoes」參數重新發出「還原」命令。如果您使用此選用參數、系統將會置換任何軟質否決、以防止修復作業。

  4. 使用MetroCluster flexoperationshow命令確認作業已完成。

    controller_A_1::> metrocluster operation show
        Operation: heal-aggregates
          State: successful
    Start Time: 7/25/2016 18:45:55
       End Time: 7/25/2016 18:45:56
         Errors: -
  5. 使用「shorage Aggregate show」命令來檢查集合體的狀態。

    controller_A_1::> storage aggregate show
    Aggregate     Size Available Used% State   #Vols  Nodes            RAID Status
    --------- -------- --------- ----- ------- ------ ---------------- ------------
    ...
    aggr_b2    227.1GB   227.1GB    0% online       0 mcc1-a2          raid_dp, mirrored, normal...
  6. 使用「MetroCluster f恢復 階段根集合體」命令來修復根集合體。

    mcc1A::> metrocluster heal -phase root-aggregates
    [Job 137] Job succeeded: Heal Root Aggregates is successful

    如果修復被否決、您可以選擇使用MetroCluster -overrover-etoes參數重新發出「還原」命令。如果您使用此選用參數、系統將會置換任何軟質否決、以防止修復作業。

  7. 在MetroCluster 目的地叢集上使用「停止作業show」命令、確認修復作業已完成:

    mcc1A::> metrocluster operation show
      Operation: heal-root-aggregates
          State: successful
     Start Time: 7/29/2016 20:54:41
       End Time: 7/29/2016 20:54:42
         Errors: -
  8. 在受損的控制器模組上、拔下電源供應器。

步驟2:開啟控制器模組

若要存取控制器內部的元件、您必須先從系統中移除控制器模組、然後移除控制器模組上的護蓋。

  1. 如果您尚未接地、請正確接地。

  2. 解開將纜線綁定至纜線管理裝置的掛勾和迴圈帶、然後從控制器模組拔下系統纜線和SFP(如有需要)、並追蹤纜線的連接位置。

    將纜線留在纜線管理裝置中、以便在重新安裝纜線管理裝置時、整理好纜線。

  3. 從控制器模組的左側和右側移除纜線管理裝置、並將其放在一邊。

    DRW 32xx cbl管理ARM
  4. 旋鬆控制器模組CAM握把上的指旋螺絲。

    DRW 8020 CAM握把指旋螺絲

    指旋螺絲

    CAM握把

  5. 向下拉CAM把手上、開始將控制器模組從機箱中滑出。

    將控制器模組滑出機箱時、請確定您支援控制器模組的底部。

步驟3:更換DIMM

若要更換DIMM、請在控制器內找到DIMM、然後依照特定的步驟順序進行。

  1. 檢查控制器模組上的NVMEM LED。

    在更換系統元件之前、您必須執行乾淨的系統關機、以避免在非揮發性記憶體(NVMEM)中遺失未寫入的資料。LED位於控制器模組背面。尋找下列圖示:

    DRW硬體NVRAM圖示
  2. 如果NVMEM LED未更新、則在NVMEM中沒有任何內容;您可以跳過下列步驟、繼續執行本程序中的下一個工作。

  3. 拔下電池:

    附註 當您停止系統時、NVMEM LED會在將內容降級至快閃記憶體時閃爍。完成轉出後、LED會關閉。
    • 如果電源中斷而未完全關機、則NVMEM LED會持續閃燈直到卸電量完成、然後LED會關閉。

    • 如果LED亮起且電源開啟、則未寫入的資料會儲存在NVMEM上。

      這通常發生在Data ONTAP 不受控制的關機過程中、因為已成功開機。

      1. 打開CPU通風管、找到NVMEM電池。

        rw rxl nvmem電池

    NVMEM電池鎖定索引標籤

    NVMEM電池

    1. 找到電池插塞、並將電池插塞正面的固定夾壓下、以從插槽釋放插塞、然後從插槽拔下電池纜線。

    2. 等待幾秒鐘、然後將電池插回插槽。

  4. 檢查控制器模組上的NVMEM LED。

  5. 找到控制器模組上的DIMM。

    附註 每個系統記憶體DIMM的每個DIMM插槽旁邊、主機板上都有一個LED。故障的LED每兩秒會閃爍一次。
  6. 請注意插槽中的DIMM方向、以便您以適當的方向插入替換的DIMM。

  7. 緩慢地將DIMM兩側的兩個DIMM彈出彈片分開、然後將DIMM從插槽中滑出、藉此將DIMM從插槽中退出。

    附註 小心拿住DIMM的邊緣、避免對DIMM電路板上的元件施加壓力。

    系統DIMM的數量和位置取決於您的系統機型。

    下圖顯示系統DIMM的位置:

    DRW rxl DIMM
  8. 從防靜電包裝袋中取出備用DIMM、拿住DIMM的邊角、然後將其對準插槽。

    DIMM插針之間的槽口應與插槽中的卡舌對齊。

  9. 確定連接器上的DIMM彈出彈片處於開啟位置、然後將DIMM正面插入插槽。

    DIMM可緊密插入插槽、但應該很容易就能裝入。如果沒有、請重新將DIMM與插槽對齊、然後重新插入。

    附註 目視檢查DIMM、確認其對齊並完全插入插槽。
  10. 在DIMM頂端邊緣小心地推入、但穩固地推入、直到彈出彈出彈片卡入DIMM兩端的槽口。

  11. 找到NVMEM電池插頭插槽、然後擠壓電池纜線插頭正面的固定夾、將其插入插槽。

    請確定插頭鎖定在控制器模組上。

  12. 合上控制器模組護蓋。

步驟4:重新安裝控制器

更換控制器模組中的元件之後、您必須在系統機箱中重新安裝控制器模組、並將其開機至可在更換的元件上執行診斷測試的狀態。

  1. 將控制器模組的一端與機箱的開口對齊、然後將控制器模組輕推至系統的一半。

    附註 在指示之前、請勿將控制器模組完全插入機箱。
  2. 視需要重新安裝系統。

    如果您移除媒體轉換器(QSFP或SFP)、請記得在使用光纖纜線時重新安裝。

  3. 完成控制器模組的重新安裝:

    控制器模組一旦完全插入機箱、就會開始開機。準備好中斷開機程序。

    1. 將CAM握把置於開啟位置時、將控制器模組穩固推入、直到它與中間背板接觸並完全就位、然後將CAM握把關閉至鎖定位置。

      附註 將控制器模組滑入機箱時、請勿過度施力、以免損壞連接器。
    2. 鎖緊控制器模組背面CAM握把上的指旋螺絲。

    3. 如果您尚未重新安裝纜線管理裝置、請重新安裝。

    4. 使用掛勾和迴圈固定帶將纜線綁定至纜線管理裝置。

    5. 當每個控制器開始開機時、當您看到「Press Ctrl-C for Boot Menu(按Ctrl-C進入開機功能表)」訊息時、請按「Ctrl-C」來中斷開機程序。

    6. 從顯示的功能表中選取要開機至維護模式的選項。

步驟5:執行系統層級診斷

安裝新的DIMM之後、您應該執行診斷程式。

您的系統必須處於載入器提示狀態、才能啟動系統層級診斷。

診斷程序中的所有命令都是由要更換元件的控制器發出。

  1. 如果要維修的控制器未出現載入程式提示、請執行下列步驟:

    1. 從顯示的功能表中選取「維護模式」選項。

    2. 控制器開機至維護模式後、停止控制器:「halt(停止)」

      發出命令之後、您應該等到系統在載入程式提示字元停止。

      附註 在開機過程中、您可以安全地回應「y」提示:
      • 當您在HA組態中進入維護模式時、必須確保健全的控制器保持停機狀態的提示警告。

  2. 在載入程式提示字元下、存取專為系統層級診斷所設計的特殊驅動程式、以正常運作:「boot_diags'(boot_diags')

    在開機過程中、您可以安全地回應提示「y」、直到出現「維護模式」提示(*>)為止。

  3. 對系統記憶體執行診斷:「ldiag設備執行-devmem」

  4. 驗證更換DIMM後是否未發生硬體問題:「ldiag設備狀態-devmem -long -stStatus fected'(L診斷 設備狀態-devmem -long狀態失敗)」

    如果沒有測試失敗、系統層級的診斷會返回提示、或列出測試元件所導致的故障完整狀態。

  5. 根據上述步驟的結果繼續進行:

    如果系統層級的診斷測試…​ 然後…​

    已完成、沒有任何故障

    1. 清除狀態記錄:「ldiag」裝置的清除狀態

    2. 確認記錄已清除:「ldiag設備狀態」

      畫面會顯示下列預設回應:

      SLDIAG:沒有記錄訊息。

    3. 退出維護模式:「halt」

      控制器會顯示載入器提示。

    4. 從載入程式提示字元「bye」開機控制器

    5. 使控制器恢復正常運作:

    如果您的控制器位於…​ 然後…​

    HA配對

    執行回饋:「儲存容錯移轉回傳-ofnode_replace_node_name_」

    附註 如果停用自動還原、請使用儲存容錯移轉修改命令重新啟用。

    雙節點MetroCluster 的不全功能組態

    繼續下一步。更新程序的下一項工作是執行此程序。MetroCluster

    獨立組態

    繼續下一步。無需採取任何行動。您已完成系統層級的診斷。

    導致某些測試失敗

    判斷問題的原因:

    1. 退出維護模式:「halt」

      發出命令後、請等待系統在載入程式提示字元停止。

    2. 根據機箱中的控制器模組數量、關閉或離開電源供應器:

      • 如果機箱中有兩個控制器模組、請讓電源供應器保持開啟狀態、以便為其他控制器模組提供電力。

      • 如果機箱中有一個控制器模組、請關閉電源供應器、然後從電源插座拔下它們。

    3. 確認您已注意到執行系統層級診斷所需的所有考量事項、纜線是否穩固連接、以及硬體元件是否已正確安裝在儲存系統中。

    4. 引導您正在維修的控制器模組、並在系統提示您進入「Boot(開機)」功能表時按「Ctrl-C」中斷開機:

      • 如果機箱中有兩個控制器模組、請將您要維修的控制器模組完全裝入機箱。

        控制器模組完全就位時會開機。

      • 如果機箱中有一個控制器模組、請連接電源供應器、然後將其開啟。

    5. 從功能表中選取開機至維護模式。

    6. 輸入以下命令退出維護模式:「halt(停止)」

      發出命令後、請等待系統在載入程式提示字元停止。

    7. 重新執行系統層級的診斷測試。

步驟6(MetroCluster 僅限雙節點):切換回Aggregate

完成雙節點MetroCluster 的故障恢復組態中的FRU更換之後、您就可以執行MetroCluster 還原還原作業。這會將組態恢復至正常運作狀態、使先前受損站台上的同步來源儲存虛擬機器(SVM)現在處於作用中狀態、並從本機磁碟集區提供資料。

此工作僅適用於雙節點MetroCluster 的不完整組態。

步驟
  1. 驗證所有節點是否都處於「啟用」狀態:MetroCluster 「顯示節點」

    cluster_B::>  metrocluster node show
    
    DR                           Configuration  DR
    Group Cluster Node           State          Mirroring Mode
    ----- ------- -------------- -------------- --------- --------------------
    1     cluster_A
                  controller_A_1 configured     enabled   heal roots completed
          cluster_B
                  controller_B_1 configured     enabled   waiting for switchback recovery
    2 entries were displayed.
  2. 確認所有SVM上的重新同步已完成:MetroCluster 「Svserver show」

  3. 驗證修復作業所執行的任何自動LIF移轉是否已成功完成:「MetroCluster 還原檢查LIF show」

  4. 從存續叢集中的任何節點使用「MetroCluster 還原」命令執行切換。

  5. 確認切換作業已完成:MetroCluster 「不顯示」

    當叢集處於「等待切換」狀態時、切換回復作業仍在執行中:

    cluster_B::> metrocluster show
    Cluster              Configuration State    Mode
    --------------------	------------------- 	---------
     Local: cluster_B configured       	switchover
    Remote: cluster_A configured       	waiting-for-switchback

    當叢集處於「正常」狀態時、即可完成切換作業:

    cluster_B::> metrocluster show
    Cluster              Configuration State    Mode
    --------------------	------------------- 	---------
     Local: cluster_B configured      		normal
    Remote: cluster_A configured      		normal

    如果切換需要很長時間才能完成、您可以使用「MetroCluster show config-repl複 寫res同步 狀態show」命令來檢查進行中的基準狀態。

  6. 重新建立任何SnapMirror或SnapVault 不完整的組態。

步驟7:將故障零件歸還給NetApp

如套件隨附的RMA指示所述、將故障零件退回NetApp。請參閱 "產品退貨安培;更換" 頁面以取得更多資訊。