Die deutsche Sprachversion wurde als Serviceleistung für Sie durch maschinelle Übersetzung erstellt. Bei eventuellen Unstimmigkeiten hat die englische Sprachversion Vorrang.

Wiederherstellung nach einem Ausfall eines Controllers

06/09/2025 Beitragende

PDFs

Nachdem die Systeme am Disaster-Standort Wartungsarbeiten oder Ersatz durchgeführt wurden, jedoch keine Controller ausgetauscht wurden, können Sie mit dem Prozess beginnen, die MetroCluster Konfiguration in einen vollständig redundanten Zustand zurückzusetzen. Dazu gehört auch die Reparatur der Konfiguration (zunächst die Daten-Aggregate und dann die Root-Aggregate) und das Durchführen des Switchback-Vorgangs.

Bevor Sie beginnen

Alle MetroCluster-Hardware im Disaster-Cluster muss funktionsfähig sein.
Die MetroCluster-Gesamtkonfiguration muss umschalten.
In einer Fabric-Attached MetroCluster-Konfiguration muss die ISL zwischen den MetroCluster-Standorten verfügbar sein und betrieben werden.

Aktivieren Sie die Konsolenprotokollierung

NetApp empfiehlt dringend, die Konsolenprotokollierung auf den von Ihnen verwendeten Geräten zu aktivieren und folgende Aktionen durchzuführen:

Lassen Sie AutoSupport während der Wartung aktiviert.
Lösen Sie vor und nach der Wartung eine Wartungs-AutoSupport-Meldung aus, um die Case-Erstellung für die Dauer der Wartungsaktivität zu deaktivieren.

Siehe Knowledge Base-Artikel "Wie kann die automatische Case-Erstellung während geplanter Wartungszeiträume unterdrückt werden".
Aktivieren Sie die Sitzungsprotokollierung für jede CLI-Sitzung. Anweisungen zum Aktivieren der Sitzungsprotokollierung finden Sie im Abschnitt „Protokollierung der Sitzungsausgabe“ im Knowledge Base-Artikel "So konfigurieren Sie PuTTY für optimale Konnektivität zu ONTAP-Systemen".

Reparatur der Konfiguration in einer MetroCluster-Konfiguration

In MetroCluster FC-Konfigurationen führen Sie die Heilungsvorgänge in einer bestimmten Reihenfolge aus, um die MetroCluster-Funktion nach einer Umschaltung wiederherzustellen.

In MetroCluster IP-Konfigurationen sollten die Heilungsvorgänge nach einer Umschaltung automatisch gestartet werden. Wenn dies nicht der Fall ist, können Sie die Heilungsoperationen manuell durchführen.

Bevor Sie beginnen

Eine Umschaltung muss durchgeführt worden sein und der überlebende Standort muss Daten bereitstellen.
Nodes am Disaster-Standort müssen angehalten oder deaktiviert werden.

Sie dürfen während des Heilungsprozesses nicht vollständig gestartet werden.
Storage am Disaster-Standort muss zugänglich sein (Shelfs werden hochgefahren, funktionieren und sind zugänglich).
In Fabric-Attached MetroCluster-Konfigurationen müssen Inter-Switch-Links (ISLs) in Betrieb sein.
In MetroCluster-Konfigurationen mit vier Nodes dürfen sich Nodes im verbleibenden Standort nicht im HA-Failover-Zustand befinden (alle Nodes müssen für jedes HA-Paar in Betrieb sein).

Über diese Aufgabe

Die Reparatur muss zunächst auf den Datenaggregaten und anschließend auf den Root-Aggregaten durchgeführt werden.

Reparieren der Datenaggregate

Die Datenaggregate müssen nach der Reparatur und dem Austausch beliebiger Hardware am Disaster-Standort repariert und ausgetauscht werden. In diesem Prozess werden die Datenaggregate neu synchronisiert und der (jetzt reparierte) Disaster-Standort wird auf den normalen Betrieb vorbereitet. Die Datenaggregate müssen vor dem Healing der Root-Aggregate repariert werden.

Über diese Aufgabe

Das folgende Beispiel zeigt eine erzwungene Umschaltung, um das Switchover-Aggregat online zu schalten. Alle Konfigurationsaktualisierungen im Remote-Cluster konnten erfolgreich auf das lokale Cluster repliziert werden. Im Rahmen dieses Verfahrens schalten Sie den Storage am Disaster Standort ein, jedoch nicht und dürfen die Controller-Module am DR-Standort nicht hochfahren.

Schritte

Überprüfen Sie, ob die Umschaltung abgeschlossen wurde:

metrocluster operation show

controller_A_1::> metrocluster operation show
  Operation: switchover
      State: successful
 Start Time: 7/25/2014 20:01:48
   End Time: 7/25/2014 20:02:14
     Errors: -

Synchronisieren Sie die Datenaggregate neu, indem Sie den folgenden Befehl vom verbleibenden Cluster ausführen:

metrocluster heal -phase aggregates
```
controller_A_1::> metrocluster heal -phase aggregates
[Job 130] Job succeeded: Heal Aggregates is successful.
```
Wenn die Heilung ein Vetorecht ist, haben Sie die Möglichkeit, das zurückzugeben metrocluster heal Befehl mit dem --override-vetoes Parameter. Wenn Sie diesen optionalen Parameter verwenden, überschreibt das System alle weichen Vetos, die die Heilung verhindern.

Vergewissern Sie sich, dass der Vorgang abgeschlossen ist:

metrocluster operation show

controller_A_1::> metrocluster operation show
    Operation: heal-aggregates
      State: successful
Start Time: 7/25/2014 18:45:55
   End Time: 7/25/2014 18:45:56
     Errors: -

Überprüfen Sie den Status der Aggregate:

storage aggregate show Befehl.

controller_A_1::> storage aggregate show
Aggregate Size     Available Used% State   #Vols  Nodes        RAID Status
--------- -------- --------- ----- ------- ------ ------------ ------------
...
aggr_b2   227.1GB  227.1GB   0%    online  0      mcc1-a2      raid_dp, mirrored, normal...

Wenn Storage am Disaster Standort ausgetauscht wurde, müssen eventuell die Aggregate neu gespiegelt werden.

Reparatur der Root-Aggregate nach einem Ausfall

Nachdem die Datenaggregate geheilt wurden, müssen Sie die Root-Aggregate heilen, um den Switchback-Betrieb zu ermöglichen.

Bevor Sie beginnen

Die Datenaggregationsphase des MetroCluster-Heilungsprozesses muss erfolgreich abgeschlossen sein.

Schritte

Wechseln Sie die gespiegelten Aggregate zurück:

metrocluster heal -phase root-aggregates
```
mcc1A::> metrocluster heal -phase root-aggregates
[Job 137] Job succeeded: Heal Root Aggregates is successful
```
Wenn die Heilung ein Vetorecht ist, haben Sie die Möglichkeit, das zurückzugeben metrocluster heal Befehl mit dem --override-vetoes Parameter. Wenn Sie diesen optionalen Parameter verwenden, überschreibt das System alle weichen Vetos, die die Heilung verhindern.

Stellen Sie sicher, dass der Heal-Vorgang abgeschlossen ist, indem Sie den folgenden Befehl auf dem Ziel-Cluster ausführen:

metrocluster operation show

mcc1A::> metrocluster operation show
  Operation: heal-root-aggregates
      State: successful
 Start Time: 7/29/2014 20:54:41
   End Time: 7/29/2014 20:54:42
     Errors: -

Überprüfen, ob das System für einen Wechsel bereit ist

Wenn sich Ihr System bereits im Umschaltzustand befindet, können Sie das verwenden -simulate Option, um eine Vorschau der Ergebnisse eines zurückkehrenden Vorgangs anzuzeigen.

Schritte

Schalten Sie jedes Controller-Modul am Disaster-Standort ein.

Wenn die Nodes ausgeschaltet sind:

Schalten Sie die Nodes ein.

Wenn die Eingabeaufforderung des LOADERS für DIE Nodes angezeigt wird:

Führen Sie den Befehl aus: boot_ontap
Überprüfen Sie nach dem Booten des Node, ob die Root-Aggregate gespiegelt sind.
Wenn ein Plex fehlschlägt:
Zerstöre den ausgefallenen Plex:

storage aggregate plex delete -aggregate <aggregate_name> -plex <plex_name>

Stellen Sie die Spiegelbeziehung wieder her, indem Sie den Spiegel neu erstellen:

storage aggregate mirror -aggregate <aggregate-name>
Wenn ein Plex offline ist:

Online der Plex:

storage aggregate plex online -aggregate <aggregate_name> -plex <plex_name>

Wenn beide Plexus vorhanden sind:

Die Neusynchronisierung wird automatisch gestartet.
Simulieren Sie den Switchback-Betrieb:
1. Ändern Sie von der Eingabeaufforderung eines verbleibenden Node auf die erweiterte Berechtigungsebene:
  
  set -privilege advanced
Sie müssen mit reagieren y Wenn Sie dazu aufgefordert werden, den erweiterten Modus fortzusetzen und die Eingabeaufforderung für den erweiterten Modus (*) anzuzeigen.
1. Führen Sie den Umschalttavorgang mit dem aus -simulate Parameter:
  
  metrocluster switchback -simulate
2. Zurück zur Administratorberechtigungsebene:
  
  set -privilege admin
Überprüfen Sie die zurückgegebene Ausgabe.

Die Ausgabe zeigt an, ob der Switchback-Betrieb zu Fehlern führen würde.

Beispiel für Überprüfungsergebnisse

Das folgende Beispiel zeigt die erfolgreiche Überprüfung eines Switchback-Vorgangs:

cluster4::*> metrocluster switchback -simulate
  (metrocluster switchback)
[Job 130] Setting up the nodes and cluster components for the switchback operation...DBG:backup_api.c:327:backup_nso_sb_vetocheck : MetroCluster Switch Back
[Job 130] Job succeeded: Switchback simulation is successful.

cluster4::*> metrocluster op show
  (metrocluster operation show)
  Operation: switchback-simulate
      State: successful
 Start Time: 5/15/2014 16:14:34
   End Time: 5/15/2014 16:15:04
     Errors: -

cluster4::*> job show -name Me*
                            Owning
Job ID Name                 Vserver    Node           State
------ -------------------- ---------- -------------- ----------
130    MetroCluster Switchback
                            cluster4
                                       cluster4-01
                                                      Success
       Description: MetroCluster Switchback Job - Simulation

Zurückwechseln

Nachdem Sie die MetroCluster-Konfiguration repariert haben, können Sie den MetroCluster-Switchback-Vorgang ausführen. Der MetroCluster Switchback-Vorgang gibt die Konfiguration wieder in den normalen Betriebsstatus zurück, wobei die Virtual Machines (SVMs) am Disaster-Standort aktiv sind und die Daten aus den lokalen Festplattenpools bereitstellen.

Bevor Sie beginnen

Der Disaster Cluster muss erfolgreich auf den verbleibenden Cluster umgeschaltet sein.
Mit den Daten und den Root-Aggregaten muss eine Reparatur durchgeführt worden sein.
Die verbleibenden Cluster-Nodes dürfen sich nicht im HA-Failover-Status befinden (alle Nodes müssen für jedes HA-Paar in Betrieb sein).
Die Controller-Module des Disaster-Site-Standorts müssen vollständig gebootet werden und nicht im HA-Übernahmemodus.
Das Root-Aggregat muss gespiegelt werden.
Die Inter-Switch Links (ISLs) müssen online sein.
Alle erforderlichen Lizenzen müssen auf dem System installiert sein.

Schritte

Vergewissern Sie sich, dass sich alle Nodes im Status aktiviert befinden:

metrocluster node show

Im folgenden Beispiel werden die Nodes angezeigt, die sich im Status „aktiviert“ befinden:

cluster_B::>  metrocluster node show

DR                        Configuration  DR
Group Cluster Node        State          Mirroring Mode
----- ------- ----------- -------------- --------- --------------------
1     cluster_A
              node_A_1    configured     enabled   heal roots completed
              node_A_2    configured     enabled   heal roots completed
      cluster_B
              node_B_1    configured     enabled   waiting for switchback recovery
              node_B_2    configured     enabled   waiting for switchback recovery
4 entries were displayed.

Bestätigen Sie, dass die Neusynchronisierung auf allen SVMs abgeschlossen ist:

metrocluster vserver show
Überprüfen Sie, ob alle automatischen LIF-Migrationen, die durch die heilenden Vorgänge durchgeführt werden, erfolgreich abgeschlossen sind:

metrocluster check lif show
Führen Sie den Wechsel zurück durch, indem Sie den folgenden Befehl von einem beliebigen Node im verbleibenden Cluster aus ausführen.

metrocluster switchback

Überprüfen Sie den Fortschritt des Umschalttaschens:

metrocluster show

Der Umkehrvorgang läuft noch, wenn die Ausgabe „Warten auf Umkehren“ anzeigt:

cluster_B::> metrocluster show
Cluster                   Entry Name          State
------------------------- ------------------- -----------
 Local: cluster_B         Configuration state configured
                          Mode                switchover
                          AUSO Failure Domain -
Remote: cluster_A         Configuration state configured
                          Mode                waiting-for-switchback
                          AUSO Failure Domain -

Der Umschalttavorgang ist abgeschlossen, wenn der Ausgang „Normal“ anzeigt:

cluster_B::> metrocluster show
Cluster                   Entry Name          State
------------------------- ------------------- -----------
 Local: cluster_B         Configuration state configured
                          Mode                normal
                          AUSO Failure Domain -
Remote: cluster_A         Configuration state configured
                          Mode                normal
                          AUSO Failure Domain -

Wenn ein Wechsel zurückgreift und lange dauert, können Sie den Status von Basisplänen prüfen, indem Sie den folgenden Befehl auf der erweiterten Berechtigungsebene verwenden.

metrocluster config-replication resync-status show

Wiederherstellung beliebiger SnapMirror oder SnapVault Konfigurationen

In ONTAP 8.3 müssen Sie nach dem Wechsel zum MetroCluster eine verlorene SnapMirror Konfiguration manuell wiederherstellen. In ONTAP 9.0 und höher wird die Beziehung automatisch wiederhergestellt.

Überprüfen eines erfolgreichen Umschalttasches

Nach dem Wechsel zurück möchten Sie sicherstellen, dass alle Aggregate und Storage Virtual Machines (SVMs) zurück und wieder online geschaltet werden.

Schritte

Vergewissern Sie sich, dass die Switched-Data-Aggregate zurückgeschaltet sind:

storage aggregate show

Im folgenden Beispiel ist aggr_b2 an Knoten B2 zurückgeschaltet:
```
node_B_1::> storage aggregate show
Aggregate     Size Available Used% State   #Vols  Nodes            RAID Status
--------- -------- --------- ----- ------- ------ ---------------- ------------
...
aggr_b2    227.1GB   227.1GB    0% online       0 node_B_2   raid_dp,
                                                                   mirrored,
                                                                   normal

node_A_1::> aggr show
Aggregate     Size Available Used% State   #Vols  Nodes            RAID Status
--------- -------- --------- ----- ------- ------ ---------------- ------------
...
aggr_b2          -         -     - unknown      - node_A_1
```
Wenn am Katastrophenstandort nicht gespiegelte Aggregate enthalten sind und die nicht gespiegelten Aggregate nicht mehr vorhanden sind, wird das Aggregat möglicherweise einen „unbekannten“ Zustand in der Ausgabe des angezeigt storage aggregate show Befehl. Wenden Sie sich an den technischen Support, um veraltete Einträge für nicht gespiegelte Aggregate zu entfernen und den Knowledge Base-Artikel zu verweisen "Wie entfernt man veraltete, nicht gespiegelte Aggregate Einträge in einer MetroCluster nach dem Zwischenfall, bei dem Speicher verloren ging."

Vergewissern Sie sich, dass alle SVMs mit synchronen Zielen im verbleibenden Cluster inaktiv sind (mit dem Betriebsstatus „stopped“):

vserver show -subtype sync-destination

node_B_1::> vserver show -subtype sync-destination
                                 Admin    Operational  Root
Vserver       Type    Subtype    State    State        Volume    Aggregate
-----------   ------- ---------- -------- ----------   --------  ----------
...
cluster_A-vs1a-mc data sync-destination
                               running    stopped    vs1a_vol   aggr_b2

Für Sync-Ziel-Aggregate in der MetroCluster-Konfiguration wurde das Suffix „-mc“ automatisch an ihren Namen angehängt, um sie zu identifizieren.

Überprüfen Sie, ob die SVMs im Disaster-Cluster mit synchronisierten Quellen betriebsbereit sind:

vserver show -subtype sync-source

node_A_1::> vserver show -subtype sync-source
                                  Admin    Operational  Root
Vserver        Type    Subtype    State    State        Volume     Aggregate
-----------    ------- ---------- -------- ----------   --------   ----------
...
vs1a           data    sync-source
                                  running  running    vs1a_vol  aggr_b2

Vergewissern Sie sich, dass die Switch-Back-Vorgänge erfolgreich waren:

metrocluster operation show

Wenn die Befehlsausgabe angezeigt wird…

Dann…

Dass der Betriebszustand zurückwechseln erfolgreich ist.

Der Switch-Back-Vorgang ist abgeschlossen, und Sie können den Betrieb des Systems fortsetzen.

Dass der zurückwechseln Betrieb oder switchback-continuation-agent Der Vorgang ist teilweise erfolgreich.

Führen Sie den vorgeschlagenen Fix aus, der in der Ausgabe des angegeben ist metrocluster operation show Befehl.

Nachdem Sie fertig sind

Sie müssen die vorherigen Abschnitte wiederholen, um den Umschalter in die entgegengesetzte Richtung auszuführen. Wenn Site_A die Umschaltung von Site_B durchgeführt hat, muss Site_B die Umschaltung von Site_A durchführen

Löschen von veralteten Aggregat-Auflistungen nach dem Wechsel zurück

Unter Umständen nach dem Wechsel zurück können Sie feststellen, dass veraltete Aggregate vorhanden sind. Veraltete Aggregate sind Aggregate, die aus ONTAP entfernt wurden, deren Informationen jedoch auf der Festplatte gespeichert bleiben. Veraltete Aggregate werden mit dem angezeigt nodeshell aggr status -r Befehl, aber nicht mit dem storage aggregate show Befehl. Sie können diese Datensätze so löschen, dass sie nicht mehr angezeigt werden.

Über diese Aufgabe

Veraltete Aggregate können auftreten, wenn Sie Aggregate verschoben haben, während die MetroCluster Konfiguration in der Umschaltung war. Beispiel:

Standort A schaltet zu Standort B. um
Sie löschen die Spiegelung für ein Aggregat und verschieben das Aggregat zur Lastverteilung von Node_B_1 auf Node_B_2.
Sie führen Aggregatheilung aus.

Zu diesem Zeitpunkt erscheint ein veralteten Aggregat auf Node_B_1, obwohl das eigentliche Aggregat von diesem Node gelöscht wurde. Dieses Aggregat erscheint in der Ausgabe der nodeshell aggr status -r Befehl. Er wird nicht in der Ausgabe von angezeigt storage aggregate show Befehl.

Vergleichen Sie die Ausgabe der folgenden Befehle:

storage aggregate show

run local aggr status -r

Veraltete Aggregate werden im angezeigt run local aggr status -r Ausgabe, aber nicht im storage aggregate show Ausgabe: Beispielsweise könnte das folgende Aggregat im angezeigt werden run local aggr status -r Ausgabe:

Aggregate aggr05 (failed, raid_dp, partial) (block checksums)
Plex /aggr05/plex0 (offline, failed, inactive)
  RAID group /myaggr/plex0/rg0 (partial, block checksums)

 RAID Disk Device  HA  SHELF BAY CHAN Pool Type  RPM  Used (MB/blks)  Phys (MB/blks)
 --------- ------  ------------- ---- ---- ----  ----- --------------  --------------
 dparity   FAILED          N/A                        82/ -
 parity    0b.5    0b    -   -   SA:A   0 VMDISK  N/A 82/169472      88/182040
 data      FAILED          N/A                        82/ -
 data      FAILED          N/A                        82/ -
 data      FAILED          N/A                        82/ -
 data      FAILED          N/A                        82/ -
 data      FAILED          N/A                        82/ -
 data      FAILED          N/A                        82/ -
 Raid group is missing 7 disks.

Entfernen des veralteten Aggregats:
1. Ändern Sie von der Eingabeaufforderung eines Node auf die erweiterte Berechtigungsebene:
  
  set -privilege advanced
Sie müssen mit reagieren y Wenn Sie dazu aufgefordert werden, den erweiterten Modus fortzusetzen und die Eingabeaufforderung für den erweiterten Modus (*) anzuzeigen.
1. Entfernen des veralteten Aggregats:
  
  aggregate remove-stale-record -aggregate aggregate_name
2. Zurück zur Administratorberechtigungsebene:
  
  set -privilege admin
Bestätigen Sie, dass der veraltete Aggregatdatensatz entfernt wurde:

run local aggr status -r

Wiederherstellung nach einem Ausfall eines Controllers

Creating your file...

Aktivieren Sie die Konsolenprotokollierung

Reparatur der Konfiguration in einer MetroCluster-Konfiguration

Reparieren der Datenaggregate

Reparatur der Root-Aggregate nach einem Ausfall

Überprüfen, ob das System für einen Wechsel bereit ist

Beispiel für Überprüfungsergebnisse

Zurückwechseln

Überprüfen eines erfolgreichen Umschalttasches

Löschen von veralteten Aggregat-Auflistungen nach dem Wechsel zurück