Surveiller le DASK à l'aide du tableau de bord des flux de tâches natifs
Le "Planificateur distribué DASK" fournit des commentaires en direct sous deux formes :
-
Un tableau de bord interactif contenant de nombreux tracés et tableaux avec des informations en direct
-
Barre de progression adaptée à une utilisation interactive dans les consoles ou les ordinateurs portables
Dans notre cas, la figure suivante montre comment surveiller la progression de la tâche, y compris les octets stockés, le flux de tâches avec une répartition détaillée du nombre de flux et la progression par nom de tâche avec les fonctions associées exécutées. Dans notre cas, étant donné que nous avons trois nœuds workers, il y a trois principaux segments de flux et les codes de couleurs indiquent des tâches différentes dans chaque flux.
Vous avez la possibilité d'analyser des tâches individuelles et d'examiner le temps d'exécution en millisecondes ou d'identifier tout obstacle ou obstacle. Par exemple, la figure suivante montre les flux de tâches pour le stade d'ajustement du modèle forestier aléatoire. Il y a beaucoup plus de fonctions exécutées, y compris le bloc unique pour le traitement de DataFrame, _construct_rf pour l'adaptation de la forêt aléatoire, et ainsi de suite. La plupart du temps a été consacré à des opérations DataFrame en raison de la grande taille (45 Go) des données d'une journée provenant des journaux Criteo Click.