TR-4841: Sistema operativo de IA para el cloud híbrido con almacenamiento en caché de datos
Rick Huang, David Arnette, NetApp Yochay Ettun, cnvrg.io
El crecimiento exponencial de los datos y el crecimiento exponencial DE LOS ML y la IA se han convergido para crear una economía de zettabytes con retos exclusivos de desarrollo e implementación.
A pesar de que los modelos DE ML consumen gran cantidad de datos y requieren un almacenamiento de datos de alto rendimiento cerca de los recursos informáticos, en la práctica no es tan sencillo implementar este modelo, especialmente con instancias de cloud híbrido y computación elástica. Normalmente, se almacenan cantidades masivas de datos en lagos de datos de bajo coste, en los que los recursos informáticos de IA de alto rendimiento, como las GPU, no pueden acceder a ellos de forma eficiente. Este problema se agrava en una infraestructura de cloud híbrido, en la que algunas cargas de trabajo funcionan en el cloud y otras están ubicadas en las instalaciones o en un entorno diferente de informática de alto rendimiento.
En este documento, presentamos una nueva solución que permite a los profesionales DE TECNOLOGÍA y a los ingenieros de datos crear una verdadera plataforma de IA de cloud híbrido con un concentrador de datos con topología que permite a los científicos de datos crear de forma instantánea y automática una caché de sus conjuntos de datos cerca de sus recursos informáticos, dondequiera que se encuentren. Como resultado, no solo se puede realizar el entrenamiento con modelos de alto rendimiento, sino que se obtienen ventajas adicionales, como la colaboración de varios profesionales de la IA, que tienen acceso inmediato a las cachés de los conjuntos de datos, las versiones y los linajes dentro de un concentrador de versiones del conjunto de datos.