Skip to main content
Die deutsche Sprachversion wurde als Serviceleistung für Sie durch maschinelle Übersetzung erstellt. Bei eventuellen Unstimmigkeiten hat die englische Sprachversion Vorrang.

Hot-Swap eines für Cluster- und HA-Verkehr verwendeten E/A-Moduls – AFF A20, AFF A30 und AFF A50

Beitragende netapp-lisa

Das Cluster- und HA-E/A-Modul unterstützt Interconnects für Clustering und Hochverfügbarkeit. Sie können das Modul in Ihrem AFF A20-, AFF A30- oder AFF A50-Speichersystem im laufenden Betrieb austauschen, wenn das Modul ausfällt und Ihr Speichersystem bestimmte Anforderungen erfüllt.

Um ein Modul im laufenden Betrieb auszutauschen, stellen Sie sicher, dass Ihr Speichersystem die Verfahrensanforderungen erfüllt, bereiten Sie das Speichersystem und das E/A-Modul in Steckplatz 4 vor, tauschen Sie das ausgefallene Modul im laufenden Betrieb gegen ein gleichwertiges aus, bringen Sie das Ersatzmodul online, stellen Sie den Normalbetrieb des Speichersystems wieder her und senden Sie das ausgefallene Modul an NetApp zurück.

Über diese Aufgabe
  • Durch Hot-Swapping des Clusters und des HA-E/A-Moduls müssen Sie keine manuelle Übernahme durchführen; der beeinträchtigte Controller (der Controller mit dem ausgefallenen Cluster und HA-E/A-Modul) hat automatisch den fehlerfreien Controller übernommen.

    Wenn der beeinträchtigte Controller den fehlerfreien Controller übernommen hat, besteht die einzige Möglichkeit zur Wiederherstellung ohne Ausfall darin, das Modul im laufenden Betrieb auszutauschen.

  • Es ist wichtig, die Befehle auf den richtigen Controller anzuwenden, wenn Sie den Cluster und das HA-E/A-Modul im laufenden Betrieb austauschen:

    • Der beeinträchtigte Controller ist der Controller, auf dem Sie den Cluster und das HA-E/A-Modul im laufenden Betrieb austauschen, und es ist der Controller, der den fehlerfreien Controller übernommen hat.

    • Der gesunde Controller ist der HA-Partner des beeinträchtigten Controllers und es handelt sich um den Controller, der vom beeinträchtigten Controller übernommen wurde.

  • Bei Bedarf können Sie die LEDs des Speichersystems (blau) einschalten, um das betroffene Speichersystem physisch zu lokalisieren. Melden Sie sich über SSH bei der BMC an und geben Sie den Befehl ein system location-led on.

    Ein Speichersystem verfügt über drei Standort-LEDs: Eine auf dem Bedienfeld und eine auf jedem Controller. Die Standort-LEDs leuchten 30 Minuten lang.

    Sie können sie deaktivieren, indem Sie den Befehl eingeben system location-led off. Wenn Sie sich nicht sicher sind, ob die LEDs leuchten oder nicht, können Sie ihren Status überprüfen, indem Sie den Befehl eingeben system location-led show.

Schritt 1: Sicherstellen, dass das Speichersystem die Verfahrensanforderungen erfüllt

Um dieses Verfahren zu verwenden, stellen Sie sicher, dass Ihr Speichersystem alle Anforderungen erfüllt.

Hinweis Wenn Ihr Speichersystem nicht alle Anforderungen erfüllt, müssen Sie die"Vorgehensweise zum Ersetzen eines E/A-Moduls" .
  • Auf Ihrem Speichersystem muss ONTAP 9.17.1 oder höher ausgeführt werden.

  • Bei dem ausgefallenen E/A-Modul muss es sich um ein Cluster- und HA-E/A-Modul in Steckplatz 4 handeln und Sie müssen es durch ein gleichwertiges Cluster- und HA-E/A-Modul ersetzen. Der E/A-Modultyp kann nicht geändert werden.

  • Ihre Speichersystemkonfiguration darf nur über ein Cluster- und HA-E/A-Modul in Steckplatz 4 verfügen, nicht über zwei Cluster- und HA-E/A-Module.

  • Ihr Speichersystem muss eine Clusterkonfiguration mit zwei Knoten (ohne oder mit Switch) sein.

  • Der Controller mit dem ausgefallenen Cluster und HA-E/A-Modul (der beeinträchtigte Controller) muss den fehlerfreien Partnercontroller bereits übernommen haben. Die Übernahme sollte automatisch erfolgen, wenn das E/A-Modul ausgefallen ist.

    Bei Clustern mit zwei Knoten kann das Speichersystem nicht erkennen, welcher Controller das ausgefallene E/A-Modul enthält. Daher kann jeder der beiden Controller die Übernahme einleiten. Der Hot-Swap-Vorgang für Cluster- und HA-E/A-Module wird nur unterstützt, wenn der Controller mit dem ausgefallenen E/A-Modul (der beeinträchtigte Controller) den fehlerfreien Controller übernommen hat.

    Sie können überprüfen, ob der beeinträchtigte Controller den fehlerfreien Controller erfolgreich übernommen hat, indem Sie Folgendes eingeben: storage failover show Befehl.

    Wenn Sie nicht sicher sind, bei welchem Controller sich das fehlerhafte E/A-Modul befindet, wenden Sie sich an "NetApp Support" .

  • Alle anderen Komponenten des Speichersystems müssen ordnungsgemäß funktionieren. Falls nicht, wenden Sie sich an "NetApp Support", bevor Sie mit diesem Verfahren fortfahren.

Schritt 2: Speichersystem und I/O-Modulsteckplatz 4 vorbereiten

Bereiten Sie das Speichersystem und den E/A-Modulsteckplatz 4 vor, sodass der ausgefallene Cluster und das HA-E/A-Modul sicher entfernt werden können:

Schritte
  1. Richtig gemahlen.

  2. Trennen Sie die Kabel vom ausgefallenen Cluster und HA-E/A-Modul.

    Denken Sie daran, die Kabel zu beschriften, damit Sie sie später in diesem Vorgang wieder an dieselben Anschlüsse anschließen können.

  3. Wenn AutoSupport aktiviert ist, unterdrücken Sie die automatische Erstellung eines Cases durch Aufrufen einer AutoSupport Meldung:

    system node autosupport invoke -node * -type all -message MAINT=<number of hours down>h

    Beispielsweise unterdrückt die folgende AutoSupport Meldung die automatische Fallerstellung für zwei Stunden:

    node2::> system node autosupport invoke -node * -type all -message MAINT=2h

  4. Automatische Rückgabe deaktivieren:

    1. Geben Sie den folgenden Befehl von der Konsole des beeinträchtigten Controllers ein:

      storage failover modify -node local -auto-giveback false

    2. Eingeben y wenn die Eingabeaufforderung Möchten Sie die automatische Rückgabe deaktivieren? angezeigt wird

  5. Bereiten Sie den ausgefallenen Cluster und das HA-Modul in Steckplatz 4 für die Entfernung vor, indem Sie es außer Betrieb nehmen und ausschalten:

    1. Geben Sie den folgenden Befehl ein:

      system controller slot module remove -node impaired_node_name -slot slot_number

    2. Eingeben y wenn die Eingabeaufforderung Möchten Sie fortfahren? angezeigt wird

      Beispielsweise bereitet der folgende Befehl das Modul in Steckplatz 4 auf Knoten 2 (dem beeinträchtigten Controller) zum Entfernen vor und zeigt eine Meldung an, dass das Entfernen sicher ist:

    node2::> system controller slot module remove -node node2 -slot 4
    
    Warning: IO_2X_100GBE_NVDA_NIC module in slot 4 of node node2 will be powered off for removal.
    
    Do you want to continue? {y|n}: y
    
    The module has been successfully removed from service and powered off. It can now be safely removed.
  6. Überprüfen Sie, ob der ausgefallene Cluster und das HA-Modul in Steckplatz 4 ausgeschaltet sind:

    system controller slot module show

    Die Ausgabe sollte zeigen powered-off in der Statusspalte für das ausgefallene Modul in Steckplatz 4.

Schritt 3: Ersetzen Sie den ausgefallenen Cluster und das HA-E/A-Modul

Ersetzen Sie den ausgefallenen Cluster und das HA-E/A-Modul in Steckplatz 4 durch ein gleichwertiges E/A-Modul:

Schritte
  1. Wenn Sie nicht bereits geerdet sind, sollten Sie sich richtig Erden.

  2. Entfernen Sie den ausgefallenen Cluster und das HA-E/A-Modul vom beeinträchtigten Controller:

    Hotswap-Cluster und HA-E/A-Modul in Steckplatz 4
    Legende Nummer 1

    Drehen Sie die Flügelschraube des E/A-Moduls gegen den Uhrzeigersinn, um sie zu lösen.

    Legende Nummer 2

    Ziehen Sie das E/A-Modul mithilfe der Anschlussbeschriftungslasche links und der Rändelschraube rechts aus dem Controller.

  3. Installieren Sie den Ersatzcluster und das HA-E/A-Modul in Steckplatz 4:

    1. Richten Sie das E/A-Modul an den Kanten des Schlitzes aus.

    2. Drücken Sie das E/A-Modul vorsichtig ganz in den Steckplatz und achten Sie darauf, dass das E/A-Modul richtig im Anschluss sitzt.

      Zum Eindrücken des I/O-Moduls können Sie die Lasche links und die Rändelschraube rechts verwenden.

    3. Drehen Sie die Rändelschraube im Uhrzeigersinn, um sie festzuziehen.

  4. Verkabeln Sie den Cluster und das HA-E/A-Modul.

Schritt 4: Bringen Sie den Ersatzcluster und das HA-E/A-Modul online

Bringen Sie den Ersatzcluster und das HA-E/A-Modul in Steckplatz 4 online, überprüfen Sie, ob die Modulports erfolgreich initialisiert wurden, überprüfen Sie, ob Steckplatz 4 eingeschaltet ist, und überprüfen Sie dann, ob das Modul online ist und erkannt wird.

Schritte
  1. Bringen Sie den Ersatzcluster und das HA-E/A-Modul online:

    1. Geben Sie den folgenden Befehl ein:

      system controller slot module insert -node impaired_node_name -slot slot_name

    2. Eingeben y wenn die Eingabeaufforderung „Möchten Sie fortfahren?“ angezeigt wird

      Die Ausgabe sollte bestätigen, dass der Cluster und das HA-E/A-Modul erfolgreich online geschaltet wurden (eingeschaltet, initialisiert und in Betrieb genommen).

      Beispielsweise bringt der folgende Befehl Steckplatz 4 auf Knoten 2 (den beeinträchtigten Controller) online und zeigt eine Meldung an, dass der Vorgang erfolgreich war:

    node2::> system controller slot module insert -node node2 -slot 4
    
    Warning: IO_2X_100GBE_NVDA_NIC module in slot 4 of node node2 will be powered on and initialized.
    
    Do you want to continue? {y|n}: `y`
    
    The module has been successfully powered on, initialized and placed into service.
  2. Überprüfen Sie, ob alle Ports im Cluster und HA-E/A-Modul erfolgreich initialisiert wurden:

    event log show -event *hotplug.init*

    Hinweis Es kann mehrere Minuten dauern, bis alle erforderlichen Firmware-Updates und die Port-Initialisierung durchgeführt werden.

    Die Ausgabe sollte ein hotplug.init.success EMS-Ereignis anzeigen, das für jeden Port im Cluster und HA-E/A-Modul protokolliert wurde mit hotplug.init.success: im Event Spalte.

    Die folgende Ausgabe zeigt beispielsweise, dass die Initialisierung für die Cluster- und HA-E/A-Modulports e4b und e4a erfolgreich war:

    node2::> event log show -event *hotplug.init*
    
    Time                Node             Severity      Event
    
    ------------------- ---------------- ------------- ---------------------------
    
    7/11/2025 16:04:06  node2      NOTICE        hotplug.init.success: Initialization of ports "e4b" in slot 4 succeeded
    
    7/11/2025 16:04:06  node2      NOTICE        hotplug.init.success: Initialization of ports "e4a" in slot 4 succeeded
    
    2 entries were displayed.
  3. Überprüfen Sie, ob der E/A-Modulsteckplatz 4 eingeschaltet und betriebsbereit ist:

    system controller slot module show

    Die Ausgabe sollte den Status von Steckplatz 4 wie folgt anzeigen: powered-on und somit betriebsbereit für den Ersatzcluster und das HA-E/A-Modul.

  4. Überprüfen Sie, ob der Ersatzcluster und das HA-E/A-Modul online sind und erkannt werden.

    Geben Sie den Befehl von der Konsole des beeinträchtigten Controllers ein:

    system controller config show -node local -slot4

    Wenn der Ersatzcluster und das HA-E/A-Modul erfolgreich online geschaltet wurden und erkannt werden, zeigt die Ausgabe E/A-Modulinformationen, einschließlich Portinformationen, für Steckplatz 4 an.

    Sie sollten beispielsweise eine Ausgabe ähnlich der folgenden sehen:

    node2::> system controller config show -node local -slot 4
    
    Node: node2
    Sub- Device/
    Slot slot Information
    ---- ---- -----------------------------
       4    - Dual 40G/100G Ethernet Controller CX6-DX
                      e4a MAC Address: d0:39:ea:59:69:74 (auto-100g_cr4-fd-up)
                              QSFP Vendor:        CISCO-BIZLINK
                              QSFP Part Number:   L45593-D218-D10
                              QSFP Serial Number: LCC2807GJFM-B
                      e4b MAC Address: d0:39:ea:59:69:75 (auto-100g_cr4-fd-up)
                              QSFP Vendor:        CISCO-BIZLINK
                              QSFP Part Number:   L45593-D218-D10
                              QSFP Serial Number: LCC2809G26F-A
                      Device Type:        CX6-DX PSID(NAP0000000027)
                      Firmware Version:   22.44.1700
                      Part Number:        111-05341
                      Hardware Revision:  20
                      Serial Number:      032403001370

Schritt 5: Wiederherstellen des Normalbetriebs des Speichersystems

Stellen Sie den Normalbetrieb Ihres Speichersystems wieder her, indem Sie dem fehlerfreien Controller Speicher zurückgeben, die automatische Rückgabe wiederherstellen und die automatische Fallerstellung von AutoSupport erneut aktivieren.

Schritte
  1. Bringen Sie den fehlerfreien Controller (den Controller, der übernommen wurde) wieder in den Normalbetrieb, indem Sie seinen Speicher zurückgeben:

    storage failover giveback -ofnode healthy_node_name

  2. Stellen Sie die automatische Rückgabe von der Konsole des beeinträchtigten Controllers (des Controllers, der den intakten Controller übernommen hat) wieder her:

    storage failover modify -node local -auto-giveback true

  3. Wenn AutoSupport aktiviert ist, stellen Sie die automatische Fallerstellung wieder her:

    system node autosupport invoke -node * -type all -message MAINT=end

Schritt 6: Senden Sie das fehlgeschlagene Teil an NetApp zurück

Senden Sie das fehlerhafte Teil wie in den dem Kit beiliegenden RMA-Anweisungen beschrieben an NetApp zurück. "Rückgabe und Austausch von Teilen"Weitere Informationen finden Sie auf der Seite.