Se proporciona el idioma español mediante traducción automática para su comodidad. En caso de alguna inconsistencia, el inglés precede al español.

Conoce AI Data Engine

04/30/2026 Colaboradores

PDF

NetApp AI Data Engine (AIDE) es una plataforma de clase empresarial diseñada para acelerar y simplificar el procesamiento de datos, la gestión y la gobernanza impulsados por IA. AIDE puede ayudarte a transformar grandes cantidades de datos no estructurados en conjuntos de datos estructurados y listos para IA. Está diseñada para satisfacer las demandas de las cargas de trabajo modernas de machine learning (ML) e IA generativa (GenAI), apoyando tanto las operaciones de TI tradicionales como los nuevos roles centrados en IA.

AIDE aborda los retos de la IA

AIDE está diseñado para ayudar a las organizaciones a gestionar datos para cargas de trabajo de IA y proporciona las siguientes capacidades clave:

Gestión centralizada de metadatos: AIDE recopila y cataloga metadatos de los volúmenes ONTAP, lo que permite buscar, clasificar y aplicar políticas de gobernanza a los conjuntos de datos.
Procesamiento de datos automatizado: AIDE admite la creación de canalizaciones de datos para cargas de trabajo de IA y ML, incluida la capacidad de generar incrustaciones vectoriales para la búsqueda semántica (con la licencia adecuada).
Aislamiento de datos y control de acceso: AIDE aplica controles de acceso y aislamiento básico de datos para varios equipos o proyectos.
Integración con herramientas de NetApp: AIDE funciona con ONTAP System Manager para la administración de almacenamiento y proporciona una interfaz dedicada (AI Data Engine Console) para que los ingenieros de datos y los científicos gestionen colecciones de datos y flujos de trabajo.

Opciones de implementación

AIDE ofrece opciones de implementación flexibles para satisfacer las distintas necesidades y plazos de las organizaciones:

NetApp DCN deployment: AIDE se ejecuta en Data Compute Nodes (DCNs) proporcionados por NetApp con recursos de GPU integrados, ofreciendo todas las capacidades de AIDE, incluyendo catalogación de metadatos, vectorización, embeddings y endpoints RAG. Esta opción es ideal para cargas de trabajo de IA que requieren mucha GPU y aplicaciones de búsqueda semántica.
Software AIDE en servidores de terceros: El software AIDE se ejecuta en servidores RHEL 9.7 proporcionados por el cliente. En la versión actual, el software AIDE tiene un enfoque en "Metadata Engine" y proporciona catalogación y descubrimiento de metadatos. Esta funcionalidad Metadata Engine basic para AIDE en servidores de terceros proporciona paridad con la funcionalidad Metadata Engine basada en NetApp DCN, pero no incluye servicios AIDE completos dependientes de GPU. "Conoce los requisitos para Metadata Engine en servidores de terceros".

Ambas opciones de implementación se integran con el almacenamiento ONTAP y comparten la misma arquitectura subyacente para la gestión del espacio de trabajo y la catalogación de metadatos.

Características de diseño a alto nivel

Las siguientes características de diseño definen cómo se construye AIDE para satisfacer las necesidades de las cargas de trabajo de AI:

Servicios basados en microservicios: utiliza Kubernetes para orquestar servicios modulares y resilientes para la catalogación de metadatos, búsqueda vectorial y gestión de infraestructura.
Seguridad de clase empresarial: implementa cifrado, control de acceso basado en roles (RBAC) y auditoría en todos los datos y metadatos.
Acceso a datos multiprotocolo: admite NFS y SMB para una ingestión y recuperación de datos flexible.
Canalizaciones de datos automatizadas: rastrea los cambios en los datos, crea embeddings y gestiona bases de datos vectoriales para aplicaciones de IA.

Cómo fluyen los datos a través de AIDE

Comprender cómo fluyen los datos a través de AIDE ayuda a ilustrar el valor de la plataforma para los equipos de AI/ML:

Ingesta de datos: Los archivos se almacenan en volúmenes ONTAP utilizando protocolos estándar (NFS y SMB). Los datos pueden residir en el almacenamiento local de AIDE (el clúster AFX dentro de tu despliegue de AIDE) o en clústeres ONTAP remotos. Los datos de los clústeres remotos se sincronizan con el clúster AFX local usando ONTAP SnapMirror, así que todos los datos procesados por AIDE se almacenan y se accede a ellos localmente al final.

Los buckets de S3 no son compatibles como fuentes de datos para workspaces o colecciones de datos.
Creación de espacios de trabajo: los administradores de almacenamiento definen espacios de trabajo en ONTAP System Manager, agrupando volúmenes ONTAP relacionados para proyectos, equipos o flujos de trabajo específicos. Los permisos de acceso y las políticas de gobierno se asignan a nivel de espacio de trabajo.
Extracción de metadatos: AIDE escanea automáticamente archivos y objetos en los espacios de trabajo, extrayendo metadatos (tipo de archivo, tamaño, marcas de tiempo, atributos personalizados) y almacenándolos en un catálogo centralizado. Esto ocurre continuamente a medida que los datos cambian.
Clasificación y gobernanza (requiere licencia AIDE premium): Los clasificadores escanean los datos en busca de información sensible (PII, datos financieros) o tipos de documentos (jurídicos, RRHH). Las políticas de Data Guardrails aplican redacción o restricciones de acceso automáticamente.
Creación de colecciones de datos (requiere licencia AIDE premium): Los ingenieros de datos y los científicos de datos usan AIDE Console para consultar el catálogo de metadatos, filtrar resultados y armar colecciones de datos curados para tareas específicas de IA.
Vectorización (requiere licencia premium de AIDE): Para las colecciones que requieren búsqueda semántica, AIDE genera incrustaciones utilizando modelos de IA seleccionados. Los vectores se almacenan en la base de datos de vectores para una recuperación de alto rendimiento.
Consumo de AI/ML (requiere licencia premium de AIDE): las aplicaciones acceden a los datos a través de múltiples rutas:
- Acceso directo a archivos/objetos usando NFS o SMB
- Consultas de búsqueda semántica en la base de datos vectorial
- Puntos finales RAG que combinan la recuperación de datos con la integración de modelos GenAI
- Acceso a la API de REST para flujos de trabajo programáticos

Este flujo de trabajo automatizado y condicionado por políticas reduce el tiempo y el esfuerzo manual necesarios para preparar datos para la IA, permitiendo que los equipos se enfoquen en el desarrollo de modelos y en los insights en vez de en la gestión de datos.

Conoce AI Data Engine

Creating your file...

AIDE aborda los retos de la IA

Opciones de implementación

Características de diseño a alto nivel

Cómo fluyen los datos a través de AIDE