TR-4810: NetApp AFF A400 mit Lenovo ThinkSystem SR670 V2 für KI- und ML-Modelltraining
Sathish Thyagarajan, David Arnette, NetApp Mircea Troaca, Lenovo
Diese Lösung bietet eine Midrange-Cluster-Architektur und nutzt NetApp Storage und Lenovo Server, die für KI-Workloads (künstliche Intelligenz) optimiert sind. Geeignet für kleine und mittelständische Unternehmen, bei denen die meisten Computing-Aufgaben ein Node (eine einzelne oder mehrere GPUs) sind oder über einige Compute-Nodes verteilt werden. Diese Lösung lässt sich für viele Unternehmen an den meisten täglichen KI-Trainingsaufgaben anpassen.
Dieses Dokument behandelt Tests und Validierungen einer Computing- und Storage-Konfiguration, die aus Lenovo SR670V2 Servern mit acht GPUs, einem Midrange-System von NetApp AFF A400 und einem 100-GbE-Interconnect-Switch besteht. Zur Messung der Performance haben wir ResNet50 mit dem ImageNet-Datensatz, einer Batch-Größe von 408, Half Precision, CUDA und cuDNN verwendet. Diese Architektur ist eine effiziente und kostengünstige Lösung für kleine und mittelständische Unternehmen. Sie startet mit KI-Initiativen, die die Funktionen der Enterprise-Klasse von NetApp ONTAP Storage mit Cloud-Integration benötigen.
Zielgruppe
Dieses Dokument richtet sich an folgende Zielgruppen:
-
Data Scientists, Data Engineers, Datenadministratoren und Entwickler von KI-Systemen
-
Enterprise-Architekten, die Lösungen für die Entwicklung von KI-Modellen entwickeln
-
Data Scientists und Data Engineers, die nach effizienten Möglichkeiten suchen, Entwicklungsziele für Deep Learning (DL) und Machine Learning (ML) zu erreichen
-
Führungskräfte aus Unternehmen und Entscheidungsträger für OT/IT, die eine möglichst schnelle Markteinführungszeit für KI-Initiativen erreichen möchten
Lösungsarchitektur
Diese Lösung mit Lenovo ThinkSystem Servern und NetApp ONTAP mit AFF Storage wurde entwickelt, um KI-Training auf großen Datensätzen unter Verwendung der Rechenleistung von GPUs neben herkömmlichen CPUs zu ermöglichen. Diese Validierung belegt eine hohe Performance und ein optimales Datenmanagement mit einer Scale-out-Architektur, in der ein, zwei oder vier Lenovo SR670 V2 Server zusammen mit einem einzigen NetApp AFF A400 Storage-System eingesetzt werden. Die folgende Abbildung bietet einen Überblick über die Architektur.
Diese Lösung von NetApp und Lenovo bietet folgende wichtige Vorteile:
-
Hocheffiziente und kostengünstige Leistung bei der parallelen Ausführung mehrerer Schulungsjobs
-
Skalierbare Performance basierend auf einer unterschiedlichen Anzahl von Lenovo Servern und verschiedenen Modellen von NetApp Storage Controllern
-
Robuste Datensicherung zur Einhaltung niedriger Recovery-Zeitpunkte (RPOs) und Recovery-Zeiten (RTOs) ohne Datenverluste
-
Optimiertes Datenmanagement mit Snapshots und Klonen zur Optimierung von Entwicklungs-Workflows