Skip to main content
NetApp Solutions
La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

TR-4834: Pipeline NetApp e Iguazio per MLRun

Collaboratori

Rick Huang, David Arnette, NetApp Marcelo Litovsky, Iguazio

Questo documento illustra i dettagli della pipeline MLRun che utilizza NetApp ONTAP ai, NetApp ai Control Plane, il software NetApp Cloud Volumes e la piattaforma per la scienza dei dati Iguazio. Abbiamo utilizzato la funzione senza server di Nuclio, i volumi persistenti di Kubernetes, i volumi cloud di NetApp, le copie Snapshot di NetApp, la dashboard di Grafana, E altri servizi sulla piattaforma Iguazio per creare una pipeline di dati end-to-end per la simulazione del rilevamento dei guasti di rete. Abbiamo integrato le tecnologie Iguazio e NetApp per consentire un'implementazione rapida dei modelli, la replica dei dati e le funzionalità di monitoraggio della produzione on-premise e nel cloud.

Il lavoro di un data scientist dovrebbe essere incentrato sulla formazione e sulla messa a punto di modelli di apprendimento automatico (ML) e intelligenza artificiale (ai). Tuttavia, secondo una ricerca condotta da Google, i data scientist trascorrono ~il 80% del loro tempo a capire come far funzionare i propri modelli con le applicazioni aziendali ed eseguirlo su larga scala, come mostrato nella seguente immagine che illustra lo sviluppo di modelli nel workflow ai/ML.

Figura che mostra la finestra di dialogo input/output o rappresenta il contenuto scritto

Per gestire i progetti ai/ML end-to-end, è necessaria una maggiore comprensione dei componenti aziendali. Sebbene DevOps abbia assunto il controllo della definizione, dell'integrazione e dell'implementazione di questi tipi di componenti, le operazioni di apprendimento automatico hanno come obiettivo un flusso simile che include progetti ai/ML. Per avere un'idea di ciò che una pipeline ai/ML end-to-end tocca nell'azienda, consulta il seguente elenco di componenti richiesti:

  • Storage

  • Networking

  • Database

  • File system

  • Container

  • Pipeline ci/CD (Continuous Integration and Continuous Deployment)

  • Ambiente di sviluppo integrato (IDE)

  • Sicurezza

  • Policy di accesso ai dati

  • Hardware

  • Cloud

  • Virtualizzazione

  • Set di strumenti e librerie per le scienze dei dati

In questo documento, dimostreremo come la partnership tra NetApp e Iguazio semplifichi drasticamente lo sviluppo di una pipeline ai/ML end-to-end. Questa semplificazione accelera il time-to-market per tutte le applicazioni ai/ML.

Pubblico di destinazione

Il mondo della scienza dei dati tocca diverse discipline nel settore dell'informatica e del business.

  • Il data scientist ha bisogno della flessibilità necessaria per utilizzare i propri strumenti e le librerie preferite.

  • Il data engineer deve sapere come i dati scorrono e dove risiedono.

  • Un tecnico DevOps ha bisogno dei tool per integrare le nuove applicazioni ai/ML nelle pipeline ci/CD.

  • Gli utenti aziendali desiderano avere accesso alle applicazioni ai/ML. Descriviamo in che modo NetApp e Iguazio aiutano ciascuno di questi ruoli a portare valore al business con le nostre piattaforme.

Panoramica della soluzione

Questa soluzione segue il ciclo di vita di un'applicazione ai/ML. Iniziamo con il lavoro dei data scientist per definire le diverse fasi necessarie per preparare i dati e formare e implementare i modelli. Seguiamo il lavoro necessario per creare una pipeline completa con la capacità di tenere traccia degli artefatti, sperimentare con l'esecuzione e implementare in Kubeflow. Per completare il ciclo completo, integriamo la pipeline con i volumi cloud di NetApp per abilitare il controllo delle versioni dei dati, come mostrato nell'immagine seguente.

Figura che mostra la finestra di dialogo input/output o rappresenta il contenuto scritto