Monitore o Dask usando o painel nativo Task Streams
O "Dask Programador distribuído" fornece feedback em direto em duas formas:
-
Um painel interativo contendo muitos gráficos e tabelas com informações ao vivo
-
Uma barra de progresso adequada para uso interativo em consoles ou notebooks
No nosso caso, a figura a seguir mostra como você pode monitorar o progresso da tarefa, incluindo bytes armazenados, o fluxo de tarefas com uma discriminação detalhada do número de fluxos e progresso por nomes de tarefas com funções associadas executadas. No nosso caso, como temos três nós de trabalho, há três blocos principais de fluxo e os códigos de cores denotam tarefas diferentes dentro de cada fluxo.
Você tem a opção de analisar tarefas individuais e examinar o tempo de execução em milissegundos ou identificar quaisquer obstáculos ou obstáculos. Por exemplo, a figura a seguir mostra os fluxos de tarefa para a etapa de ajuste de modelo de floresta aleatória. Há consideravelmente mais funções sendo executadas, incluindo chunk exclusivo para processamento DataFrame, _construct_rf para ajustar a floresta aleatória, e assim por diante. A maior parte do tempo foi gasto em operações do DataFrame devido ao tamanho grande (45GB) de um dia de dados dos Logs de clique da Criteo.