Información general de las soluciones Spark de NetApp
NetApp cuenta con tres carteras de almacenamiento: FAS/AFF, E-Series y Cloud Volumes ONTAP. Hemos validado AFF y E-Series con el sistema de almacenamiento ONTAP para soluciones Hadoop con Apache Spark.
El Data Fabric con tecnología de NetApp integra servicios y aplicaciones de gestión de datos (elementos básicos) para el acceso, control, protección y seguridad de los datos, como se muestra en la siguiente figura.
Los elementos básicos de la figura anterior incluyen:
-
Acceso directo NFS de NetApp. proporciona los últimos clústeres Hadoop y Spark con acceso directo a volúmenes NFS de NetApp sin requisitos adicionales de software o controlador.
-
NetApp Cloud Volumes ONTAP y Google Cloud NetApp Volumes. Almacenamiento conectado definido por software basado en ONTAP ejecutándose en Amazon Web Services (AWS) o Azure NetApp Files (ANF) en servicios cloud de Microsoft Azure.
-
La tecnología SnapMirror de NetApp. ofrece funcionalidades de protección de datos entre instancias locales y de cloud de ONTAP o NPS.
-
Proveedores de servicios en la nube. estos proveedores incluyen AWS, Microsoft Azure, Google Cloud e IBM Cloud.
-
PaaS. Servicios de análisis basados en cloud como Amazon Elastic MapReduce (EMR) y Databricks en AWS, así como Microsoft Azure HDInsight y Azure Databricks.
En la siguiente figura se muestra la solución Spark con el almacenamiento de NetApp.
La solución ONTAP Spark utiliza el protocolo de acceso directo NFS de NetApp para análisis in situ y flujos de trabajo de IA, ML y DL mediante el acceso a los datos de producción existentes. Los datos de producción disponibles en los nodos de Hadoop se exportan para realizar trabajos de análisis e IA sin movimiento, ML y DL. Puede acceder a los datos para procesar en nodos Hadoop con el acceso directo NFS de NetApp o sin ellos. En Spark con el administrador de clúster o independiente yarn
, puede configurar un volumen NFS mediante file://<target_volume>
. Validamos tres casos de uso con conjuntos de datos diferentes. Los detalles de estas validaciones se presentan en la sección “Resultados de pruebas”. (ref. x)
La siguiente figura muestra el posicionamiento del almacenamiento de Apache Spark/Hadoop de NetApp.
Hemos identificado las características únicas de la solución Spark E-Series, la solución AFF/FAS ONTAP Spark y la solución StorageGRID Spark, y se ha realizado una validación y pruebas detalladas. Basándose en nuestras observaciones, NetApp recomienda la solución E-Series para instalaciones vírgenes y puestas en marcha escalables nuevas y la solución AFF/FAS para cargas de trabajo de análisis in situ, IA, ML y DL que utilizan datos NFS existentes, y StorageGRID para IA, APRENDIZAJE AUTOMÁTICO y análisis de datos modernos cuando se requiere almacenamiento de objetos.
Un lago de datos es un repositorio de almacenamiento para grandes conjuntos de datos de forma nativa que se puede usar para trabajos de análisis, IA, ML y DL. Creamos un repositorio de lago de datos para las soluciones E-Series, AFF/FAS y SG6060 de StorageGRID. El sistema E-Series proporciona acceso HDFS al clúster de Hadoop Spark, mientras que se accede a los datos de producción existentes a través del protocolo de acceso directo NFS al clúster de Hadoop. Para los conjuntos de datos que residen en el almacenamiento de objetos, StorageGRID de NetApp proporciona acceso seguro S3 y S3A.