Skip to main content
NetApp Solutions
Se proporciona el idioma español mediante traducción automática para su comodidad. En caso de alguna inconsistencia, el inglés precede al español.

Descripción general de casos de uso y declaración de problemas

Colaboradores

Los conjuntos de datos y las versiones de conjuntos de datos normalmente se encuentran en un lago de datos, como el almacenamiento basado en objetos StorageGRID de NetApp, que ofrece un coste reducido y otras ventajas operativas. Los científicos de datos extraen estos conjuntos de datos y los ingenieros en varios pasos para prepararlos para el entrenamiento con un modelo específico, a menudo creando varias versiones en el proceso. Al siguiente paso, el científico de datos debe seleccionar recursos informáticos optimizados (GPU, instancias de CPU de gama alta, un clúster local, etc.) para ejecutar el modelo. En la siguiente figura, se muestra la falta de proximidad del conjunto de datos en un entorno de computación DE ML.

Figura que muestra el cuadro de diálogo de entrada/salida o que representa el contenido escrito

Sin embargo, deben ejecutarse varios experimentos de entrenamiento en paralelo en distintos entornos informáticos, cada uno de los cuales requiere una descarga del conjunto de datos del lago de datos, lo cual es un proceso costoso y largo. No se garantiza la proximidad del conjunto de datos a entorno de computación (especialmente para un cloud híbrido). Además, otros miembros del equipo que llevan a cabo sus propios experimentos con el mismo conjunto de datos deben pasar por el mismo arduo proceso. Más allá del obvio y lento acceso a los datos, los retos incluyen las dificultades para seguir las versiones de los conjuntos de datos, compartir conjuntos de datos, colaboración y reproducibilidad.

Requisitos del cliente

Los requisitos del cliente pueden variar para lograr una ejecución DE ML de alto rendimiento mientras se usan los recursos de forma eficiente. Por ejemplo, los clientes pueden requerir lo siguiente:

  • Acceso rápido a los conjuntos de datos desde cada instancia de computación que ejecuta el modelo de entrenamiento sin incurrir en costosas descargas y complejidades de acceso a los datos

  • El uso de cualquier instancia de computación (GPU o CPU) en el cloud o en las instalaciones, sin preocuparse de la ubicación de los conjuntos de datos

  • Aumenta la eficiencia y la productividad ejecutando múltiples experimentos de entrenamiento en paralelo con diferentes recursos informáticos en el mismo conjunto de datos sin retrasos innecesarios y latencia de los datos

  • Costes mínimos de instancias de computación

  • Reproducibilidad mejorada con herramientas para mantener registros de los conjuntos de datos, su linaje, versiones y otros detalles de metadatos

  • Colaboración y uso compartido mejorados para que cualquier miembro autorizado del equipo pueda acceder a los conjuntos de datos y realizar experimentos

Para implementar el almacenamiento de conjuntos de datos en caché con el software de gestión de datos ONTAP de NetApp, los clientes deben realizar las siguientes tareas:

  • Configure y establezca el almacenamiento NFS más cercano a los recursos de computación.

  • Determinar qué conjunto de datos y versión almacenar en caché.

  • Supervise la memoria total comprometida con los conjuntos de datos almacenados en caché y cuánto almacenamiento NFS está disponible para las confirmaciones adicionales de la caché (por ejemplo, gestión de caché).

  • La caducidad de los conjuntos de datos de la caché si no se han utilizado en un momento determinado. El valor predeterminado es un día; hay otras opciones de configuración disponibles.