Wie sich die NetApp AFX-Architektur von Unified ONTAP unterscheidet
NetApp AFX führt im Vergleich zu unified ONTAP bedeutende architektonische Unterschiede ein, wie Speicher präsentiert wird, wie Knoten mit Festplatten interagieren und wie Kapazität verwaltet wird.
Wir haben zuvor einen allgemeinen Überblick darüber gegeben, wie die Unified ONTAP-Architektur Datei-, Objekt- und Blockdatenspeicherung über direkt verbundene HA-Paare bereitstellt, die jeweils über eigene Festplatten verfügen und physische Kapazität über Festplattenaggregate bereitstellen. In diesem Abschnitt werden wir einige der wichtigsten Unterschiede zwischen Unified ONTAP und NetApp AFX-Architekturen detaillierter erläutern.
Wie man erkennt, ob auf einem System NetApp AFX ausgeführt wird
Die wichtigste Methode, um festzustellen, ob auf Ihrem System NetApp AFX ausgeführt wird, besteht darin, den folgenden Befehl auszuführen:
AFX::> node show -fields personality node personality ---------------- ----------- afx-01 AFX afx-02 AFX
Ein weiterer Hinweis ist die neue Storage Availability Zone, die jedoch auch für NetApp All-SAN Arrays (ASA) verfügbar ist. Ihre Kapazität können Sie über diesen Befehl anzeigen.
AFX::> storage availability-zone show
Availability Zone Name: storage_availability_zone_0
Availability Zone UUID: 545cb59f-32e9-11f1-a2f5-d039eabdd925
Total Size: 69.59TB
Physical Used: 837.1GB
Physical Used Percent: 1%
Available: 68.77TB
Metadata Used: 837.1GB
Log and Recovery Metadata: 834.6GB
Delayed Frees: 2.50GB
Physical User Data Without Snapshot Copies: 17.24MB
Logical User Data Without Snapshot Copies: 17.24MB
Efficiency Ratio Without Snapshot Copies: 1.00:1
Space Full Threshold Percent: 98%
Space Nearly Full Threshold Percent: 95%
Knoten-zu-Festplatte-Beziehungen
In der einheitlichen ONTAP-Architektur werden Lese- und Schreibvorgänge an eine bestimmte Teilmenge von Festplatten gerichtet. Selbst wenn Sie 24 Festplattengehäuse in einem 24-Knoten-Cluster haben (ein Gehäuse pro Knoten), kann jeder Knoten zu jedem Zeitpunkt nur direkt auf ein Festplattengehäuse zugreifen, was die im Cluster verfügbare Kapazität und Leistung begrenzt.

Da NVRAM zwischen HA-Paaren direkt verbunden ist, müssen die Knoten physisch nebeneinander liegen und sind als Failover-Ziele enger gekoppelt. Wenn beispielsweise ein Knoten auf seinen Partnerknoten ausfällt, hat er physisch nur Zugriff auf die Festplatten im HA-Paar-Domäne.
Vereinheitlichter ONTAP Cluster während eines HA-Failovers

In NetApp AFX gibt es einige wesentliche Änderungen in der Art und Weise, wie Festplatten den Rechenknoten präsentiert werden.
Alle Datenträger sind für alle Speicherknoten sichtbar – keine Datenträgerzugehörigkeit
In NetApp AFX sind alle Nodes und Shelfs an denselben Backend-Switch angeschlossen, was es ONTAP ermöglicht, den gesamten Sichtbarkeitsbereich für Festplatten auf den gesamten Stack auszudehnen. Folglich besitzt kein Node bestimmte Festplatten. Stattdessen nehmen alle Festplatten an einem einzigen Kapazitätspool teil, der als Storage Availability Zone bezeichnet wird und einfacheres Kapazitätsmanagement sowie ein erhöhtes Leistungspotenzial bietet (mehr verfügbare Festplatten bedeuten mehr verfügbare Leistung).
NetApp AFX-Speicherverfügbarkeitszone

Keine physischen Aggregate mehr
Unified ONTAP fasst Festplatten in RAID-Gruppen zusammen und kombiniert diese zu einem Kapazitätskonstrukt, dem sogenannten Aggregat. Dieses Aggregat stellt die physische Kapazität dar und ist die Grenze des Speicherplatzes, der für die Erstellung von Volumes zur Bereitstellung von Daten für Endbenutzer zur Verfügung steht. Jedem Knoten muss mindestens ein Aggregat zugewiesen sein und diese Aggregate haben derzeit ein Limit von 800TB. Sobald dieses Limit erreicht ist, steht kein Speicherplatz mehr für zusätzliche Schreibvorgänge zur Verfügung.
Physische Aggregate können auch Kapazitätsmanagement-Herausforderungen mit sich bringen, da Speicheradministratoren Volumes mitunter manuell verschieben müssen, um eine ausgewogene Kapazitätsverteilung zwischen den Clusterknoten zu gewährleisten. Diese Herausforderungen können sich bei Verwendung einer Scale-Out-Volume-Architektur (z. B. eines FlexGroup-Volumes) noch verstärken. Aggregate können zudem hinsichtlich Größe, Anzahl und Typ der Festplatten usw. variieren, was beim Wechsel zwischen den Knoten ebenfalls zu Leistungsunterschieden führen kann.
Aggregate in Unified ONTAP

NetApp AFX virtualisiert das Konzept eines physischen Aggregats, macht es ONTAP-verwaltet und verlagert das physische Kapazitätsmanagement von einer knotenbasierten auf eine clusterbasierte Verwaltung über die neue Storage Availability Zone. Dieser zentrale Kapazitätspool bietet einen „What you see is what you get“-Ansatz für das Speicherplatzmanagement.
NetApp AFX-Speicherverfügbarkeitszone

NVRAM wurde von direkter Verbindung auf geschaltete Replikation umgestellt
ONTAP verwendet NVRAM als Zwischenspeicher, um eingehende Schreibvorgänge in einem Cluster zu schützen. Jeder Knoten in einem ONTAP Cluster verfügt über eine mit Akku ausgestattete NVRAM-Karte. Wenn ein Schreibvorgang von einem Client an ein Volume gesendet wird, wird dieser zuerst im NVRAM gespeichert. Der NVRAM-Inhalt wird dann auf die Festplatte geschrieben, sobald der NVRAM voll ist oder ein 10-Sekunden-Timer abläuft (je nachdem, was zuerst eintritt). Dies wird als Konsistenzpunkt bezeichnet.
Der NVRAM-Inhalt wird zudem ständig zwischen den HA-Paaren repliziert, was zusätzlich zur Sicherung der Datenkonsistenz beiträgt, da im Falle eines Knotenausfalls der NVRAM-Inhalt auf dem verbleibenden Knoten erhalten bleibt und auf die Festplatte geschrieben wird.
In Unified ONTAP-Clustern sind die NVRAM-Karten zwischen HA-Paaren direkt miteinander verbunden. NetApp AFX verlagert die NVRAM-Replikation in das Backend-Clusternetzwerk. Dadurch entfällt die strenge Abstandsanforderung für HA-Partnerknoten. Stattdessen können HA-Paare bis zur maximalen Entfernung von Ethernet voneinander getrennt sein.
NetApp AFX NVRAM Replikation

Daten, die auf beliebige (und alle) Datenträger in der Verfügbarkeitszone geschrieben werden
NetApp AFX beseitigt das Konzept des Festplattenbesitzes und verlagert die physische Aggregatstruktur auf einen virtualisierten Ansatz, der von ONTAP verwaltet wird, wobei die für den Cluster erworbene Kapazität allen an den Cluster angeschlossenen Knoten zur Verfügung steht. Mit AFX können alle Knoten unabhängig von der Knoten:Volume-Zugehörigkeit auf alle Festplatten in der Storage Availability Zone schreiben. Knoten besitzen weiterhin ein Konzept des Volume-Besitzes, da Schreibvorgänge nach wie vor über den NVRAM laufen, aber diese Daten können an beliebiger Stelle innerhalb der verfügbaren Kapazität abgelegt werden. Dies bedeutet, dass eine größere Anzahl von Festplatten an einer einzelnen Arbeitslast teilnehmen kann, was Leistungssteigerungen bietet.
Wie Daten in einer Storage Availability Zone landen

Unabhängige Skalierung der Kapazität und der Rechenknoten
Da die Hardware-Ressourcen in der NetApp AFX-Architektur entkoppelt sind, müssen Knoten nicht mehr mit zugehörigen Festplatten kombiniert werden. Wenn einem Cluster Leistungsressourcen wie RAM, CPU oder Netzwerkdurchsatz fehlen, müssen lediglich Speicherknoten hinzugefügt werden, die die bestehende Storage Availability Zone nutzen können. Wird hingegen mehr Kapazität benötigt, müssen nur zusätzliche Shelves hinzugefügt werden. Diese Flexibilität stellt sicher, dass Sie nur die Ressourcen erwerben, die Sie benötigen, und somit Überprovisionierung vermeiden.
NetApp AFX – Unabhängige Skala

Lineare Skalierung der Knotenleistung
Mit dem Hinzufügen von Knoten zu einem AFX-Cluster werden dem Workload mehr CPU-, RAM- und Netzwerkressourcen zur Verfügung gestellt. Sobald diese Ressourcen in die Umgebung integriert werden, verläuft die Leistungssteigerung linear. Die folgende Grafik veranschaulicht, wie die Leistung steigt, wenn Knoten hinzugefügt werden.
Die Leistung steigt linear mit der Hinzufügung von NetApp AFX-Knoten.

Größere RAID-Gruppen, weniger Paritätslaufwerke
ONTAP bietet eine Kombination aus Datenschutz und Leistung für Festplatten über RAID-Gruppen – insbesondere RAID-TEC, das im Falle von Festplattenausfällen einen dreifachen Paritätsschutz bietet. RAID-TEC kann bis zu drei gleichzeitige Laufwerksausfälle in einer RAID-Gruppe überstehen. In unified ONTAP haben RAID-Gruppen eine maximale Festplattenanzahl von 28, wobei 3 Laufwerke für Parität und 1 Laufwerk als Ersatz reserviert sind. Somit werden 24 der 28 Laufwerke für Datenoperationen/RAID-Stripes verwendet.
Vereinheitlichte ONTAP RAID-Gruppen

NetApp AFX nutzt weiterhin RAID-TEC, erhöht aber die RAID-Gruppengröße auf 96 Laufwerke, benötigt dabei nur 3 Paritätslaufwerke und 1 Ersatzlaufwerk. Größere RAID-Gruppen bieten eine höhere Gesamtleistung, während das Ausfallrisiko durch eine Kombination aus niedrigen Ausfallraten für SSD, gleichmäßiger verteilten Operationen auf eine größere Anzahl von Laufwerken sowie Verbesserungen beim Wiederherstellen von Datenlaufwerken aus Parität in NetApp AFX minimiert wird.
NetApp AFX Storage Availability Zone RAID-Gruppe

Die folgende Tabelle gibt einen ungefähren Wert für die nutzbare Bruttokapazität von 84 Festplatten in Unified ONTAP und NetApp AFX mit unterschiedlichen Laufwerksgrößen an.
Ungefährer Bruttokapazitätsvergleich, 84 Laufwerke – Unified ONTAP und NetApp AFX
| Laufwerksgröße | Ungefähre Bruttokapazität (einheitlich) | Ungefähre Bruttokapazität (AFX) |
|---|---|---|
7,6 TB |
~547,2 TB |
~608TB (+60,8TB) |
15,3 TB |
~1101,6TB |
~1224TB (+122,4TB) |
30,6 TB |
~2203,2TB |
~2448TB (+244,7TB) |
60,1 TB |
~4327,2TB |
~4808TB (+480,8TB) |
Schnellere Wiederherstellungszeiten bei Festplattenausfällen
In unified ONTAP besitzt jeder Knoten eine Teilmenge der Festplatten im Speichersystem. Das bedeutet, dass dieser Knoten nur auf diese Festplatten schreibt, aber auch, dass Festplattenwiederherstellungen im Falle eines Festplattenausfalls nur von einem einzelnen Knoten durchgeführt werden.
NetApp AFX verzichtet auf die Notwendigkeit der Festplattenzugehörigkeit. Dadurch können bei Bedarf alle Laufwerke von einem einzigen Knoten aus beschrieben werden. Das bedeutet auch, dass bei der Wiederherstellung eines Laufwerks aus Parität alle Knoten im Cluster beteiligt sind, sodass die Wiederherstellung deutlich schneller erfolgen kann als wenn ein einzelner Knoten dies allein durchführen müsste.
Festplattenrekonstruktionen in NetApp AFX

Deduplizierungsdomänen
Die Deduplizierung ermöglicht es einem Speichersystem, doppelte Blöcke in seinem Dateisystem zu finden und anschließend Zeiger auf einen einzelnen Block zu erstellen, um die insgesamt belegte Speicherkapazität zu reduzieren. In unified ONTAP gibt es für die Deduplizierung bestimmte Grenzen, welche Blöcke reduziert werden können. Diese Grenzen hängen von der Art der verwendeten Deduplizierung ab. Im Allgemeinen gilt:
-
Volumenbasierte Deduplizierung → Volumengrenze
-
Volumenübergreifende Deduplizierung → Aggregatgrenze
Vereinheitlichte ONTAP-Deduplizierungsdomänen

Die folgende Tabelle zeigt das Kapazitätsverhalten für duplizierte Daten in verschiedenen Szenarien in unified ONTAP. Da sich Dateikopien über mehrere Knoten und Aggregate (und somit Deduplizierungsdomänen) erstrecken, verringert sich die Speicherplatzersparnis.
Deduplizierungsverhalten in verschiedenen Szenarien für identische 10GB-Dateien – unified ONTAP
| Szenario | Verwendeter Speicherplatz |
|---|---|
Vier Kopien derselben 10-GB-Datei, dasselbe Volume (Volume-Deduplizierung) |
10 GB |
Vier Kopien derselben 10-GB-Datei, unterschiedliche Volumes, gleiches Aggregat (volumeübergreifende Deduplizierung aktiviert) |
10 GB |
Vier Kopien derselben 10-GB-Datei, 4 verschiedene Volumes, 4 verschiedene Aggregate (volumeübergreifende Deduplizierung aktiviert) |
40 GB |
Da NetApp AFX physische Aggregate entfernt und das Kapazitätsmanagement in die neue Storage Availability Zone verlagert, ändern sich auch die Grenzen der Deduplizierungsdomäne. In AFX befindet sich die Deduplizierungsdomäne vor Version 9.19.1 auf Volume-Ebene (wie bei unified ONTAP) und auf Node-Ebene (statt auf Aggregatebene).
Ab ONTAP 9.19.1 unterstützt AFX eine globale Deduplizierungsdomäne auf Ebene der Storage Availability Zone, sodass alle duplizierten Blöcke im Cluster-Speicherpool gleich behandelt werden.
NetApp AFX – Globale Deduplizierungsdomäne (ONTAP 9.19.1)

Die folgende Tabelle zeigt das Kapazitätsverhalten für duplizierte Daten in verschiedenen Szenarien in NetApp AFX.
Deduplizierungsverhalten in verschiedenen Szenarien für identische 10GB-Dateien – NetApp AFX
| Szenario | Verwendeter Speicherplatz |
|---|---|
Vier Kopien derselben 10-GB-Datei, dasselbe Volume (Volume-Deduplizierung) |
10GB (9.18.1) 10GB (9.19.1) |
Vier Kopien derselben 10-GB-Datei, verschiedene Volumes, gleicher Node (cross-volume Deduplizierung aktiviert) |
10GB (9.18.1) 10GB (9.19.1) |
Vier Kopien derselben 10GB-Datei, 4 verschiedene Volumes, 4 verschiedene Knoten (cross-volume Deduplizierung aktiviert) |
40GB (9.18.1) 10GB (9.19.1) |
Funktionen, die entfernt wurden/nicht mehr unterstützt werden
NetApp AFX ist für leistungsstarke NAS- und Objekt-Workloads konzipiert – insbesondere (aber nicht ausschließlich) für KI-Training und -Inferenz. Mit dem Design von NetApp AFX wurden einige Entscheidungen getroffen, um bestimmte Funktionen in ONTAP zu deaktivieren.
-
Da der Fokus auf leistungsstarken NAS- und Objekt-Workloads liegt, wurden Block-Workloads aus der NetApp AFX-Lösung entfernt. Es gibt keine Unterstützung für FCP-, iSCSI- oder NVMe-Datenprotokolle, und es ist nicht geplant, Blockprotokolle hinzuzufügen.
-
„Disaggregiert“ ist gleichbedeutend mit „deaggregiert“, was bedeutet, dass Aggregate (zumindest als physisches Speicherverwaltungskonzept) entfernt wurden. Die Entfernung des physischen Aggregats vereinfacht nicht nur das Kapazitätsmanagement in ONTAP, sondern bietet auch den Mechanismus, um einen einzigen Kapazitätspool zu ermöglichen.
-
Durch die Entfernung der Aggregate entfallen auch die zugehörigen Funktionen. Metrocluster nutzt beispielsweise die Spiegelung auf Aggregatebene für seine Standortausfallsicherung. Daher wird Metrocluster auch aus NetApp AFX entfernt. Die Standortausfallsicherung wird stattdessen durch die neue SnapMirror Active-Sync für NAS-Funktion in ONTAP 9.19.1GA bereitgestellt.
-
Die Cold-Data-Tiering-Funktion namens FabricPool ist derzeit für NetApp AFX ebenfalls nicht verfügbar, da sie auch aggregatspezifisch ist.
-
Kopiebasierte Volumenverschiebungen sind in NetApp AFX aufgrund der neuen Kapazitätsarchitektur ebenfalls nicht mehr erforderlich. Weitere Informationen finden Sie unter Zero-Copy-Volume-Verschiebungen.
-
Entfernung bedeutet auch einige Änderungen an der CLI/GUI/REST API, sodass alle Befehle oder API-Aufrufe für nicht mehr unterstützte Funktionen ebenfalls entfernt werden.
-
ZAPI steht NetApp AFX derzeit nicht zur Verfügung.
-
NFS-Kopierauslagerung für Virtualisierung (FlexGroup-Volumes nur mit granularer Datenverteilung)
Änderungen im ONTAP-Management
Im Allgemeinen ändert die NetApp AFX-Verwaltung nichts an den Mechanismen zur Clusterverwaltung. Administratoren können weiterhin die CLI, GUI und REST-APIs nutzen, um sich anzumelden und einen Cluster zu konfigurieren. Aber NetApp AFX bot die Möglichkeit, einige Aspekte der Durchführung von Speicherverwaltungsoperationen zu verbessern.
Einfacheres Kapazitätsmanagement
Die NetApp AFX Storage Availability Zone reduziert die Verwaltungspunkte von einem knoten- und aggregatbasierten Ansatz auf einen einzigen Kapazitätspool, der dem gesamten Cluster zur Verfügung steht. Wenn Volumes wachsen oder schrumpfen, leiht und gibt ONTAP automatisch Kapazität an die bzw. aus der Storage Availability Zone zurück.
Dadurch müssen sich Speicheradministratoren nicht mehr darum kümmern, den verfügbaren freien Speicherplatz auf bis zu 24 Knoten und potenziell Hunderten von Aggregaten zu ermitteln und zu verwalten. Stattdessen gibt es nur einen Ort, an dem die Kapazität verwaltet und angezeigt wird.
Um beispielsweise in der CLI von unified ONTAP die gesamte physische Kapazität eines Clusters anzuzeigen, verwenden Sie „aggregate show-space“, was dann jeden Aggregateintrag ausgibt. In NetApp AFX haben Sie „cluster space show“, was nur die einzelne Storage Availability Zone anzeigt.
Direkter Vergleich der Kapazitäts-CLI-Befehle in Unified ONTAP und NetApp AFX

In der Unified ONTAP System Manager GUI werden Tiers verwendet, um die Kapazität anzuzeigen. Tatsächlich versucht die GUI, die ganzheitliche Kapazität für den Cluster darzustellen, indem sie die Gesamtwerte addiert, zeigt jedoch weiterhin die Gesamtnutzung auf Basis jedes einzelnen Aggregats an.
System Manager-Kapazitätsansichten – Unified ONTAP

Im NetApp AFX System Manager ist die Ansicht für den Clusterspeicherplatz nahezu identisch, da jedoch keine Aggregate vorhanden sind, entfallen zusätzliche Berechnungen. Die angezeigte Kapazität entspricht der tatsächlich verfügbaren Kapazität.
System Manager-Kapazitätsansichten – NetApp AFX

Verbesserungen beim FlexGroup Volume-Management
Ein FlexGroup-Volume besteht aus mehreren zugrunde liegenden FlexVol-Teilvolumes, die auf verschiedenen Knoten und Aggregaten im Cluster erstellt und NAS-Clients als ein einziger großer Namensraum präsentiert werden. FlexGroup-Volumes bieten Vorteile hinsichtlich Leistung, Skalierbarkeit, Lastverteilung und Dateianzahl für rechenintensive Workloads. Da sie jedoch knoten- und aggregatübergreifend koordiniert werden, stoßen sie gelegentlich an physikalische Grenzen, wenn die Kapazität knapp wird, da die von den Aggregaten bereitgestellten unabhängigen Dateisysteme ebenfalls eine eigene Kapazitätsnutzung und -begrenzung haben. Wenn beispielsweise ein Aggregat mit FlexGroup-Volume-Bestandteilen vor anderen Aggregaten im Cluster voll wird, könnte das gesamte FlexGroup selbst von Kapazitäts- oder Leistungsproblemen betroffen sein.
Als Folge davon kann es vorkommen, dass sich Speicheradministratoren zu sehr mit der zugrunde liegenden FlexGroup-Infrastruktur beschäftigen und sich weniger auf die Wartung anderer Aspekte der Umgebung konzentrieren.
FlexGroup Volume-Layout – Unified ONTAP Aggregates

NetApp AFX stellt die Kapazität in einer einzigen Storage Availability Zone bereit, was der Art und Weise, wie FlexGroup-Volumes vorgesehen sind zu funktionieren, besser entspricht. Anstatt mehrerer Teilvolumes in verschiedenen, potenziell unterschiedlich großen Aggregaten befinden sich alle Volumes im selben Kapazitätspool, was den gesamten Verwaltungsaufwand bei der Verwendung eines FlexGroup-Volumes erheblich vereinfacht.
Darüber hinaus aktiviert AFX standardmäßig die erweiterte Kapazitätsverteilung für FlexGroup-Volumes, wodurch größere Dateien besser auf dem Volume verteilt werden. Jetzt werden FlexGroup-Volume-Komponenten weniger zu einem Verwaltungskonzept und arbeiten stattdessen unauffällig im Hintergrund.
FlexGroup Volume-Layout - NetApp AFX

Automatisierte Speicherverwaltungsaufgaben
Mit der Storage Availability Zone in NetApp AFX wird die gesamte Kapazität auf alle Knoten verteilt. Obwohl die Knoten weiterhin Volumes besitzen, verwaltet ONTAP die Kapazitätsnutzung jedes Knotens automatisch, indem Kapazität je nach Bedarf ausgeliehen und freigegeben wird. Das bedeutet, dass sich Speicheradministratoren nicht mehr darum kümmern müssen, wie der nutzbare Speicherplatz am besten ausbalanciert wird.
Darüber hinaus wird die RAID-Gruppenverwaltung von ONTAP automatisiert, wobei neu hinzugefügte Festplatten ohne Administratoreingriff bestehenden oder neuen RAID-Gruppen hinzugefügt werden. ONTAP verwaltet außerdem Volume-Verschiebungen zwischen Knoten, ohne dass Daten kopiert werden müssen.
Zero-Copy-Volume-Verschiebungen
Unified ONTAP bietet eine Möglichkeit, Volumes unterbrechungsfrei zwischen Knoten oder Aggregaten zu verschieben, um die Performance und Kapazitätsnutzung im gesamten Cluster zu verwalten.
Wenn eine Volumenverschiebung gestartet wird, geschieht Folgendes:
-
Ein neues leeres Volume wird auf dem angegebenen Zielaggregat erstellt
-
Volume-Metadaten (wie z. B. Informationen zur Speichereffizienz, Dateihandles usw.) werden auf das neue Ziel-Volume repliziert.
-
Volumendaten werden über das Backend-Cluster-Netzwerk mittels SnapMirror-Technologie auf das Zielvolume repliziert – das Zielaggregat muss über ausreichend freien Speicherplatz für die Verschiebung verfügen, andernfalls schlägt der Verschiebungsauftrag fehl
-
Die Volume-Replikation wird erneut durchgeführt, um sicherzustellen, dass beide Volumes mit etwaigen Datenänderungen konsistent sind.
-
Es wird ein Umstellungsprozess eingeleitet, um das Ursprungsvolume offline zu nehmen und das Zielvolume als neues Ursprungsvolume für Clients zu aktivieren.
-
Client-IO erlebt während der Umstellung eine kurze Pause, aber es sind keine erneuten Mounts erforderlich
In NetApp AFX stellt die Speicherverfügbarkeitszone allen Knoten die gesamte Kapazität zur Verfügung, und alle Knoten können auf jede Festplatte in diesem Pool schreiben. Einmal abgelegte Daten bleiben an ihrem Speicherort – selbst wenn das Volume verschoben wird. Das bedeutet, dass keine Datenkopie erforderlich ist. Der Volume-Verschiebungsprozess ist identisch mit dem von Unified ONTAP, nur dass keine Replikation der Daten über SnapMirror erforderlich ist. Es wird keine zusätzliche Kapazität benötigt.
Null-Kopiervolumenverschiebungen in NetApp AFX

Dank der leichten Volume-Mobilität kann AFX viele Verwaltungsaufgaben automatisieren, ohne dabei Leistungs- oder Kapazitätseinschränkungen in Kauf nehmen zu müssen, und diese Volume-Verschiebungen werden in einigen neuen Funktionen von NetApp AFX verwendet, wie in den unten aufgeführten Themen beschrieben.
HA-Failover-Verhalten
In unified ONTAP besitzt jeder Knoten eigene Festplatten und Aggregate, auf denen Daten über Volumes bereitgestellt werden. Schreibvorgänge werden mithilfe des lokalen NVRAM eines Knotens durchgeführt, um die Daten auf die Festplatten zu schreiben, die der Knoten besitzt. Wenn ein Knoten neu gestartet wird oder ausfällt, löst ONTAP eine Übernahme der Ressourcen des ausgefallenen Knotens aus, wobei der Besitz von Festplatten und Aggregaten auf den Partnerknoten übertragen wird. Netzwerkschnittstellen werden ebenfalls auf Ports im IP-Adressraum umgeschaltet, und da die NVRAM-Inhalte kontinuierlich über das HA-Paar repliziert werden, schreibt der Knoten die NVRAM-Inhalte, um die Schreibvorgänge des ausgefallenen Knotens auf die Festplatten zu committen. Danach besitzt der verbleibende Knoten die Aggregate und Volumes des ausgefallenen Knotens, bis ein Failback des Knotens erfolgt. Das bedeutet, dass der gesamte Datenverkehr zu diesen Volumes – sowie zu den bereits dem verbleibenden Knoten gehörenden Volumes – auf einem einzigen Knoten verarbeitet wird, bis das Failover-Problem behoben ist.
Im Rahmen der initialen Bereitstellung eines einheitlichen ONTAP-Clusters empfiehlt es sich, Failover-Szenarien im Voraus zu planen, um eine Überlastung des Partnerknotens durch einen einzelnen Knoten zu vermeiden. Dies stellt an sich eine Herausforderung dar, da es schwierig ist vorherzusagen, welche Volumes Performance-Bullies sein könnten, aber Funktionen wie unterbrechungsfreie Volume-Verschiebung und Volume-Quality-of-Service-Richtlinien können bei der Risikominderung helfen.
Die folgenden Bilder zeigen, wie es bei vereinheitlichten ONTAP-Clustern zu einer ungleichmäßigen Leistungsverteilung zwischen den Knoten kommen kann und wie ein Failover in manchen Fällen zu Leistungseinbußen führen kann.
Unified ONTAP – potenzielle Ungleichgewichte bei der Knotenauslastung

Wenn die Knoten eines HA-Paares hinsichtlich Volume-Anzahl und Leistungsauslastung unausgewogen sind, beeinträchtigen Knotenausfälle die Gesamtleistung, da der verbleibende Knoten nun alle Volumes des ausgefallenen Knotens verwaltet. Gleichzeitig haben andere Knoten im Cluster möglicherweise Kapazitäten, zusätzliche Aufgaben zu übernehmen.
Unified ONTAP – Auswirkungen des Ausfalls auf die Knotenauslastung

Wenn ein HA-Partner zusätzliche Aufgaben übernehmen muss, kann er überlastet werden und die Leistung aller Volumes auf diesem Knoten beeinträchtigen. Volume-Verschiebungen können die Situation zwar verbessern, erfordern jedoch Kopien zwischen den Knoten (was freien Speicherplatz voraussetzt), und die dafür benötigte Zeit kann die Zeit für das Failback überschreiten. Außerdem wird ein verschobenes Volume nicht auf den ursprünglichen Knoten zurückgesetzt. Stattdessen verbleibt es auf dem Knoten, auf den Sie es verschoben haben.
Mit NetApp AFX verhalten sich Knotenausfälle etwas anders.
-
Da die Knoten keine eigenen Festplatten besitzen und keine physischen Aggregate existieren, erfordert ein Knotenausfall keine Übertragung dieser Ressourcen. Stattdessen werden lediglich die Netzwerkschnittstellen und der Volume-Besitz auf andere Knoten übertragen.
-
NVRAM-Commits finden weiterhin statt, jedoch über das HA-Netzwerk anstatt über eine direkte Verbindung.
-
Sobald die Volumes das erste Failover auf den Partnerknoten durchgeführt haben, verteilt AFX die Volumes auf die verbleibenden Knoten im Cluster neu. Dies wird durch Zero-Copy-Volume-Verschiebungen ermöglicht.
-
Sobald der Knoten wiederhergestellt ist, werden die Volumes wieder auf den ursprünglichen Knoten verschoben.
NetApp AFX sorgt bereits für eine ausgewogene Leistungsverteilung über alle Knoten im Cluster hinweg, um eine relativ gleichmäßige Auslastung zu gewährleisten. Wenn also ein Failover erfolgt und die Volumes neu verteilt werden, sollte die Knotenauslastung im gesamten Cluster ungefähr gleich sein.
NetApp AFX – Volumenausgleich nach Failover

Hinzufügen und Entfernung von Knoten
Sowohl unified ONTAP als auch NetApp AFX ermöglichen das Hinzufügen und Entfernen von Knoten im Cluster. Aufgrund einiger architektonischer Unterschiede unterscheidet sich der Prozess für das Hinzufügen und die Entfernung von Knoten jedoch ein wenig.
Hinzufügen/Entfernung in Unified ONTAP
Wir haben bereits gelernt, dass Unified ONTAP eine direkte Knoten-zu-Festplatten-Zuordnung vorsieht und dass alle Knoten über einige Festplatten und mindestens ein angeschlossenes Aggregat verfügen müssen. Vor diesem Hintergrund gilt Folgendes für Hinzufügungen und Entfernungen.
-
Das Hinzufügen von Knoten in unified ONTAP erfordert keine zusätzlichen Schritte, aber um eine ausgewogene Performance auf allen Knoten (einschließlich der neuen Knoten) bereitzustellen, müssten Volumes auf die neuen Knoten verschoben werden. Dies erfordert eine vorherige Analyse der vorhandenen Volumes und ihrer Workloads, Entscheidungen darüber, welche Volumes verschoben werden sollen, und dann die tatsächlichen Volume-Verschiebungen, die wiederum eine Kopie dieser Daten über das Backend-Cluster-Netzwerk erfordern würden.
-
Das Entfernen von Knoten in Unified ONTAP erfordert die manuelle Evakuierung der vorhandenen Volumes auf dem Knoten, was bedeutet, dass Sie ermitteln müssen, welche Knoten welche Volumes aufnehmen können, um eine gleichbleibende Performance zu gewährleisten, und dass Sie über ausreichend freie Kapazität verfügen müssen, um einen Platz für diese Volumes bereitzustellen. Wenn freie Kapazität eine Herausforderung darstellt, können zusätzliche Volume-Verschiebungen erforderlich sein, um die Workloads im Cluster etwas zu verschieben. Das Entfernen von Knoten bedeutet auch das Entfernen von HA-Paaren, sodass sich der Arbeitsaufwand verdoppelt. Da Knoten Festplatten besitzen, ist für diese Knoten auch eine vollständige Neuinitialisierung der Festplatten erforderlich. Jede dieser Maßnahmen erhöht den Zeit- und Arbeitsaufwand für eine eigentlich relativ einfache Aufgabe.
Hinzufügen/Entfernung von Knoten in NetApp AFX
Wir haben außerdem festgestellt, dass NetApp AFX nicht die standardmäßige Zuordnung von Knoten zu Festplatten nutzt und keine physischen Aggregate zur Kapazitätsbereitstellung im Cluster verwendet. Daher verhalten sich das Hinzufügen und Entfernen von Knoten etwas anders.
-
Das Hinzufügen von Knoten in NetApp AFX erfordert weder eine vorherige Volumenanalyse noch einen administrativen Eingriff, um eine gleichmäßige Verteilung der Volumen auf die einzelnen Knoten sicherzustellen. Stattdessen gleicht ONTAP die Volumenanzahl automatisch auf den neu hinzugefügten Knoten aus, um ein möglichst gleichmäßiges Leistungsprofil zu gewährleisten. ONTAP verschiebt Volumen automatisch zwischen den Knoten, ohne etwas zu kopieren, wodurch Zeit, Kapazität und Aufwand für das Hinzufügen von Knoten zu einem Cluster reduziert werden.
-
Das Entfernen von Knoten in NetApp AFX erfordert kaum oder gar keine manuelle Intervention. Wenn ein Knoten zur Entfernung markiert ist, verschiebt ONTAP die Volumes automatisch zwischen den Knoten (ebenfalls ohne Kopieren), um die zu entfernenden Knoten zu evakuieren. Und da keine Festplatten im Besitz der Knoten sind, müssen nach dem Entfernen der Knoten keine Festplatten neu initialisiert werden. Dadurch sind die Knoten in AFX modular aufgebaut und lassen sich einfach nach oben oder unten skalieren.
Performance-getriebene Volumenbewegungen
NetApp AFXs Zero-Copy-Volume-Verschiebungsfunktion bedeutet, dass es Volumes bei Bedarf neu ausbalancieren kann, ohne Daten zu kopieren, was eine schnelle Ausführung ermöglicht und keine zusätzliche Kapazität erfordert. Das bedeutet, dass Volume-Verschiebungen einen größeren Anteil am automatisierten Load Balancing verfügbar für ONTAP-Cluster ausmachen können. Da das Verschieben eines Volumes nun praktisch nichts kostet, kann ONTAP dieses wertvolle Werkzeug nutzen, um Funktionen wie Performance-getriebenes Load Balancing von Volumes zu integrieren.
In NetApp AFX mit ONTAP 9.18.1 und höher werden die Auslastung von Knoten, HA-Paaren und Volumes kontinuierlich überwacht, während Leistungsdaten erfasst und analysiert werden. Wenn die Auslastung eines Knotens außerhalb der definierten Schwellenwerte liegt, wählt ONTAP automatisch ein Volume aus, das auf einen weniger ausgelasteten Knoten verschoben wird, um eine ausgewogene Performance im gesamten Cluster zu gewährleisten.
Leistungsabhängige Volumenbewegungen in NetApp AFX – hohe Auslastung löst eine Volumenbewegung aus

Leistungsoptimierte Volumenverschiebungen in NetApp AFX – Ausgewogene Knotenauslastung nach Volumenverschiebung

Clustergröße und -erweiterung
Unified ONTAP-Cluster unterstützen bis zu 24 Knoten und jeder hinzugefügte Knoten muss ebenfalls mit Festplatten hinzugefügt werden (sowohl für Systemfunktionen als auch für Datendienste). Festplattengehäuse können dem Cluster hinzugefügt werden, sind jedoch immer mit einem einzigen HA-Paar verbunden und gehören ausschließlich einem einzelnen Knoten, selbst wenn der Cluster 24 Knoten umfasst. Das bedeutet, dass dem Cluster Kapazität hinzugefügt wird, selbst wenn nur Leistung erforderlich ist, und dass die Leistungssteigerung größtenteils auf einen bestimmten Satz von Festplatten der neuen Knoten beschränkt ist. Dadurch kann es passieren, dass Sie über zusätzliche Kapazität verfügen, die Sie nicht unbedingt benötigen.
Vereinheitlichtes ONTAP – zusätzliche Skalierungsüberlegungen

NetApp AFX unterstützt größere Cluster. Ab Version 9.19.1 können AFX-Cluster bis zu 32 Knoten in einem einzelnen Cluster umfassen. Und da alle Knoten alle Festplatten sehen und darauf zugreifen können, können sie sich die Performance und Kapazität (bis zu 32 PB ab ONTAP 9.19.1) dieser Laufwerke teilen, sodass niemals Ressourcen ungenutzt bleiben. Volume-Verschiebungen erfordern keine Kopien, sodass ONTAP Volumes automatisch auf neu hinzugefügte Knoten verschieben kann, um eine gleichmäßige Knotenauslastung sicherzustellen, während die Kapazität gleichmäßig über die Storage Availability Zone verteilt wird.
NetApp AFX – zusätzliche Skalierungsüberlegungen

Änderungen des Root-Volumes
In NetApp ONTAP wird jedem Knoten ein Root-Volume zugewiesen, das für systemspezifische Dateien und Funktionen wie Protokolldateien, Boot-Images, Core-Dateien, Cluster-Datenbanken und mehr verwendet wird.
In unified ONTAP befanden sich diese Root-Volumes auf physischen Root-Aggregaten. Um die von den Root-Aggregaten belegte Kapazität zu reduzieren, wurden sie über Datenlaufwerk-Partitionen hinweg mittels Advanced Disk Partitioning (ADP) erstellt.
NetApp AFX eliminiert physische Aggregate und macht dadurch Root-Aggregate und ADP überflüssig. Root-Volumes existieren weiterhin, befinden sich aber nun in virtualisierten Bereichen des Kapazitätspools und erfordern keine zusätzliche Konfiguration. Auch die Funktionalität von Root-Volumes ändert sich. Boot-Images und replizierte Cluster-Datenbanken werden vom Storage-Stack auf ein Onboard-Bootmedium auf jedem AFX-Knoten verschoben. Jetzt können die Knoten selbst bei einem Ausfall des Storage-Stacks weiterhin booten und ihre Cluster-Berechtigung behalten, was die Fehlersuche vereinfacht.
Onboard-Bootmedien
NetApp AFX-Knoten nutzen ein integriertes Bootmedium, eine NVMe-angeschlossene M.2-Gerät mit ca. 3,8 TB Größe. Diese Bootmedien enthalten Boot-Image-Dateien und replizierte Datenbanken, die von den Speichergehäusen getrennt sind, was zusätzliche Redundanz bei Festplattenzugriffsproblemen bietet. Fällt das Bootmedium aus, wird der Knoten von seinem HA-Partner übernommen und das Bootmedium kann ersetzt werden. Nach dem Austausch lädt ein Speicheradministrator ein neues ONTAP-Image auf das Gerät und ONTAP stellt die Cluster-Datenbank automatisch wieder her, um die volle Funktionalität wiederherzustellen.