Skip to main content
NetApp Solutions
Die deutsche Sprachversion wurde als Serviceleistung für Sie durch maschinelle Übersetzung erstellt. Bei eventuellen Unstimmigkeiten hat die englische Sprachversion Vorrang.

Vergleich der Schulungszeit

Beitragende

Dieser Abschnitt vergleicht die Modelltrainings-Zeit mit konventionellem Pandas im Vergleich zu Dask. Bei Pandas haben wir eine kleinere Menge an Daten geladen, weil die Verarbeitungszeit langsamer ist, um Speicherüberlauf zu vermeiden. Daher haben wir die Ergebnisse interpoliert, um einen fairen Vergleich zu bieten.

Die folgende Tabelle zeigt den Vergleich der Rohtrainings-Zeiten, wenn für das Modell der zufälligen Wälder von Pandas deutlich weniger Daten benötigt werden (50 Millionen Zeilen von 20 Milliarden pro Tag 15 des Datensatzes). Diese Stichprobe benötigt nur weniger als 0.25 % aller verfügbaren Daten. Während wir für Dask-cuML das Zufallswaldmodell auf allen 20 Milliarden verfügbaren Reihen trainiert haben. Die beiden Ansätze ergaben eine vergleichbare Trainingszeit.

Vorgehensweise Schulungszeit

Scikit-Learn: Verwendung von nur 50M Reihen im Tag15 als Trainingsdaten

47 Minuten und 21 Sekunden

RAPIDS-DASK: Alle 20B-Reihen täglich an15 als Trainingsdaten nutzen

1 Stunde, 12 Minuten und 11 Sekunden

Wenn wir die Ergebnisse der Trainingszeit linear interpolieren, wie in der folgenden Tabelle dargestellt, bietet sich ein bedeutender Vorteil für die Verwendung verteilter Schulungen mit Dask. Es würde 13 Tage dauern, bis der konventionelle Pandas scikit-Lernansatz 45GB Daten für einen einzigen Tag mit Klick-Protokollen verarbeitet und trainiert, während der RAPIDS-DASK-Ansatz die gleiche Datenmenge 262.39-mal schneller verarbeitet.

Vorgehensweise Schulungszeit

Scikit-Learn: Alle 20B-Reihen im Tag15 als Trainingsdaten verwenden

13 Tage, 3 Stunden, 40 Minuten und 11 Sekunden

RAPIDS-DASK: Alle 20B-Reihen täglich an15 als Trainingsdaten nutzen

1 Stunde, 12 Minuten und 11 Sekunden

In der vorherigen Tabelle ist zu sehen, dass durch die Verwendung VON RAPIDS mit DASK die Datenverarbeitung und das Modelltraining über mehrere GPU-Instanzen hinweg deutlich kürzer ist als bei der konventionellen Pandas DataFrame-Verarbeitung mit scikit-Learn Modelltrainings. Dieses Framework ermöglicht sowohl vertikale als auch horizontale Skalierung in der Cloud als auch On-Premises in einem Multi-Node-Cluster mit mehreren GPUs.