Vergleich der Schulungszeit
Dieser Abschnitt vergleicht die Modelltrainings-Zeit mit konventionellem Pandas im Vergleich zu Dask. Bei Pandas haben wir eine kleinere Menge an Daten geladen, weil die Verarbeitungszeit langsamer ist, um Speicherüberlauf zu vermeiden. Daher haben wir die Ergebnisse interpoliert, um einen fairen Vergleich zu bieten.
Die folgende Tabelle zeigt den Vergleich der Rohtrainings-Zeiten, wenn für das Modell der zufälligen Wälder von Pandas deutlich weniger Daten benötigt werden (50 Millionen Zeilen von 20 Milliarden pro Tag 15 des Datensatzes). Diese Stichprobe benötigt nur weniger als 0.25 % aller verfügbaren Daten. Während wir für Dask-cuML das Zufallswaldmodell auf allen 20 Milliarden verfügbaren Reihen trainiert haben. Die beiden Ansätze ergaben eine vergleichbare Trainingszeit.
Vorgehensweise | Schulungszeit |
---|---|
Scikit-Learn: Verwendung von nur 50M Reihen im Tag15 als Trainingsdaten |
47 Minuten und 21 Sekunden |
RAPIDS-DASK: Alle 20B-Reihen täglich an15 als Trainingsdaten nutzen |
1 Stunde, 12 Minuten und 11 Sekunden |
Wenn wir die Ergebnisse der Trainingszeit linear interpolieren, wie in der folgenden Tabelle dargestellt, bietet sich ein bedeutender Vorteil für die Verwendung verteilter Schulungen mit Dask. Es würde 13 Tage dauern, bis der konventionelle Pandas scikit-Lernansatz 45GB Daten für einen einzigen Tag mit Klick-Protokollen verarbeitet und trainiert, während der RAPIDS-DASK-Ansatz die gleiche Datenmenge 262.39-mal schneller verarbeitet.
Vorgehensweise | Schulungszeit |
---|---|
Scikit-Learn: Alle 20B-Reihen im Tag15 als Trainingsdaten verwenden |
13 Tage, 3 Stunden, 40 Minuten und 11 Sekunden |
RAPIDS-DASK: Alle 20B-Reihen täglich an15 als Trainingsdaten nutzen |
1 Stunde, 12 Minuten und 11 Sekunden |
In der vorherigen Tabelle ist zu sehen, dass durch die Verwendung VON RAPIDS mit DASK die Datenverarbeitung und das Modelltraining über mehrere GPU-Instanzen hinweg deutlich kürzer ist als bei der konventionellen Pandas DataFrame-Verarbeitung mit scikit-Learn Modelltrainings. Dieses Framework ermöglicht sowohl vertikale als auch horizontale Skalierung in der Cloud als auch On-Premises in einem Multi-Node-Cluster mit mehreren GPUs.