Descripción general de la solución
En esta sección se ofrece una descripción general de la solución Run:AI para la IA de ONTAP.
Plano de control de la IA y la IA con ONTAP de NetApp
La arquitectura de IA de ONTAP de NetApp, desarrollada y verificada por NetApp y NVIDIA, cuenta con la tecnología de sistemas NVIDIA DGX y los sistemas de almacenamiento conectados al cloud de NetApp. Esta arquitectura de referencia proporciona a las organizaciones DE TI las siguientes ventajas:
-
Elimina las complejidades de diseño
-
Permite un escalado independiente de las capacidades de computación y almacenamiento
-
Permite a los clientes empezar con poco y escalar sin problemas
-
Ofrece opciones de almacenamiento para distintos niveles de rendimiento y coste
ONTAP AI de NetApp integra perfectamente los sistemas DGX y los sistemas de almacenamiento AFF A800 de NetApp con una red de vanguardia. Los sistemas ONTAP AI y DGX de NetApp simplifican las puestas en marcha de IA al eliminar complejidades y conjeturas en la fase de diseño. Los clientes pueden empezar poco a poco y aumentar sus sistemas de forma ininterrumpida, a la vez que gestionan de forma inteligente datos entre el perímetro, el núcleo y el cloud.
El plano de control de IA de NetApp es una solución de gestión de experimentos y datos de IA, ML y aprendizaje profundo (DL) para científicos de datos e ingenieros de datos. A medida que las organizaciones aumentan el uso de la IA, deben hacer frente a numerosos retos, como la escalabilidad de la carga de trabajo y la disponibilidad de los datos. El plano de control de IA de NetApp responde a estos retos mediante funcionalidades como clonar rápidamente un espacio de nombres de datos del mismo modo que una repo de Git y definir e implementar flujos de trabajo de entrenamiento de IA que incorporen la creación casi instantánea de bases de datos y modelos para la trazabilidad y versionado. Con el plano de control de IA de NetApp, puede replicar datos sin problemas entre sitios y regiones y aprovisionar rápidamente espacios de trabajo de los portátiles Juppyter con acceso a conjuntos de datos masivos.
Ejecutar:Plataforma de IA para orquestación de cargas de trabajo de IA
Ejecución:la IA ha creado la primera plataforma de orquestación y virtualización del mundo para la infraestructura de IA. Al abstraer las cargas de trabajo del hardware subyacente, Run:AI crea un pool compartido de recursos de GPU que se pueden aprovisionar de forma dinámica, lo que permite una orquestación eficiente de las cargas de trabajo de IA y un uso optimizado de las GPU. Los científicos de datos pueden consumir sin problemas grandes cantidades de potencia de GPU para mejorar y acelerar sus investigaciones mientras los equipos DE TECNOLOGÍA conservan el control centralizado entre sitios y la visibilidad en tiempo real sobre el aprovisionamiento de recursos, la cola y el uso. La plataforma Run:AI se ha creado sobre Kubernetes, por lo que permite una integración sencilla con los flujos de trabajo existentes de tecnología y ciencia de datos.
La plataforma Run:AI ofrece los siguientes beneficios:
-
Plazo de innovación más rápido. con los mecanismos de puesta en cola, priorización y agrupación de recursos de IA junto con un sistema de almacenamiento de NetApp, los investigadores se eliminan de los problemas de gestión de la infraestructura y pueden centrarse exclusivamente en la ciencia de datos. Ejecución:los clientes de NetApp y IA aumentan la productividad ejecutando tantas cargas de trabajo como necesiten sin cuellos de botella en la canalización de datos o en la computación.
-
Aumento de la productividad del equipo. Ejecutar:los algoritmos de justicia de IA garantizan que todos los usuarios y equipos obtengan su parte justa de los recursos. Es posible predefinir políticas sobre proyectos de prioridad y la plataforma permite la asignación dinámica de recursos de un usuario o equipo a otro, lo que ayuda a los usuarios a obtener un acceso puntual a los recursos de la GPU codiciados.
-
Uso mejorado de la GPU. el Planificador Run:AI permite a los usuarios utilizar fácilmente GPU fraccionarias, GPU enteros y varios nodos de GPU para el entrenamiento distribuido en Kubernetes. De esta forma, las cargas de trabajo de IA se ejecutan según sus necesidades, no en función de la capacidad. Los equipos de ciencia de datos pueden realizar más experimentos de IA en la misma infraestructura.