Die deutsche Sprachversion wurde als Serviceleistung für Sie durch maschinelle Übersetzung erstellt. Bei eventuellen Unstimmigkeiten hat die englische Sprachversion Vorrang.

TR-4810: NetApp ONTAP und Lenovo ThinkSystem SR670 für KI- und ML-Modell Training-Workloads

Beitragende

Karthikeyan Nagalingam, NetApp Miroslav Hodak, Lenovo

TR-4810 beschreibt eine kostengünstige Computing- und Storage-Architektur der Einstiegsklasse zur Implementierung von GPU-basiertem künstlicher Intelligenz (KI) Training auf NetApp Storage-Controllern und Lenovo ThinkSystem Servern. Das Setup dient als gemeinsam genutzte Ressource für kleine bis mittlere Teams, die mehrere Trainingsaufträge parallel ausführen.

TR-4810 bietet Performance-Daten für die branchenübliche MLPerf-Benchmark, bei der das Training zur Bildklassifizierung mit TensorFlow auf V100 GPUs bewertet wird. Zur Messung der Performance haben wir ResNet50 mit dem ImageNet-Datensatz, einer Batch-Größe von 512, Half Precision, CUDA und cuDNN verwendet. Wir haben diese Analyse mit SR670 Servern mit vier GPUs und einem NetApp Storage-System der Einstiegsklasse durchgeführt. Die Ergebnisse zeigen eine äußerst effiziente Performance über die hier getesteten Anwendungsbeispiele―gemeinsam genutzte, Multiuser- und Multijob-Fälle, wobei einzelne Jobs auf bis zu vier Server skaliert werden. Große Scale-out-Jobs waren weniger effizient, aber dennoch machbar