Skip to main content
Se proporciona el idioma español mediante traducción automática para su comodidad. En caso de alguna inconsistencia, el inglés precede al español.

Crear colecciones de datos en AI Data Engine Console

Colaboradores netapp-dbagwell

Las colecciones de datos son los principales bloques de construcción de RAG en AI Data Engine (AIDE). Como ingeniero de datos o científico de datos, tú defines qué archivos pertenecen a una colección, configuras las opciones de embedding e indexación y publicas la colección para que las aplicaciones puedan consultarla a través de un endpoint de recuperación.

Realizarás todas las tareas de recopilación de datos en la AI Data Engine Console.

Antes de empezar
  • Necesitas privilegios de data engineer o data scientist en AI Data Engine Console (https://<cluster_management_ip>/console).

  • Tienes acceso al menos a un espacio de trabajo con metadatos extraídos y en estado Ready.

  • Has explorado los metadatos del área de trabajo y has identificado consultas o filtros que definen subconjuntos de datos significativos.

  • La licencia del software AI Data Engine está instalada y las funciones de inferencia están habilitadas.

Crear una colección de datos a partir de los metadatos del espacio de trabajo

Pasos
  1. Ve a Data Curator > Workspaces y selecciona el workspace que contiene tus datos de destino.

  2. Selecciona Añadir recogida de datos.

  3. En la página Crear nueva colección de datos, haz lo siguiente:

    1. Introduce un nombre y una descripción para la colección (por ejemplo, Support_KB_RAG_EN).

    2. Elige si la colección debe ser:

      • Dinámico: Los archivos nuevos se identifican automáticamente y se añaden a la recopilación de datos según los criterios de filtrado que definas. Esto sucede durante las actualizaciones del espacio de trabajo.

      • Estática: Tú eliges qué archivos se incluyen en la colección. Puedes editar los archivos si la colección de datos está en draft estado. Después de que la colección de datos pase a Published estado, no se puede editar.

  4. Especifica el subconjunto de origen:

    1. Usa palabras clave y filtros (tipo de archivo, marcas de tiempo y otros atributos) para encontrar los archivos relevantes que quieres incluir.

      Nota Puedes seleccionar un nombre de archivo para abrir una ventana de previsualización del contenido.
  5. Agrega estos archivos a la recopilación de datos.

  6. Selecciona Guardar para finalizar la colección.

Resultado

Has definido el ámbito de la colección de datos y le has añadido los archivos necesarios. AIDE genera incrustaciones y construye el índice vectorial cuando publicas la colección.

Consejo Crea colecciones pequeñas y enfocadas (por ejemplo, por caso de uso o dominio) en lugar de una sola colección de "todo". Esto mejora la relevancia de la recuperación y la facilidad de gestión.

Publicar una recopilación de datos

Publica la colección de datos para que pueda ser consultada por aplicaciones de IA a través de un endpoint de recuperación RAG. Publicar genera incrustaciones vectoriales a partir de tus archivos seleccionados y los indexa para búsqueda semántica. Después de que la colección alcanza el estado Ready, su endpoint está disponible para que los científicos de datos lo integren en notebooks, pipelines y aplicaciones de IA para retrieval-augmented generation (RAG) y búsqueda.

Consejo Para colecciones grandes, considera programar la publicación inicial y las principales re-publicaciones durante las horas de menor actividad para minimizar la contención de recursos.
Pasos
  1. Ve a Data Curator > Data collections y selecciona el menú de opciones (tres puntos azules horizontales) para tu colección de datos.

  2. Selecciona Publicar.

  3. Selecciona una configuración de optimización predeterminada o personalizada.

  4. Selecciona Publicar para iniciar la transformación de datos.

  5. En la AIDE Console, abre la vista de detalles de la colección (Data Curator > Data collections) para ver las actualizaciones de estado.

Resultado

La recopilación alcanza el estado Ready y está disponible para usarla en aplicaciones posteriores y científicos de datos.

Desde Data Curator > Data collections, puedes seleccionar Copy URI para obtener la información necesaria para acceder a la data collection usando una API.

Actualizar o eliminar una colección de datos

Con el tiempo, puede que necesites perfeccionar o retirar colecciones de datos. Perfeccionar una colección puede implicar ajustar los filtros para agregar o quitar archivos, cambiar la configuración de incrustación o actualizar la descripción de la colección. Eliminar una colección la elimina de forma permanente y hace que su endpoint de recuperación no esté disponible.

Actualizar una recopilación de datos

Puedes actualizar una colección de datos cuando está en estado draft.

Pasos
  1. Ve a Data Curator > Data collections.

  2. Selecciona la colección que quieres modificar.

  3. Elige Editar.

  4. Ajusta cualquiera de los siguientes:

    • Nombre y descripción

    • Filtros (rutas, tipos de archivo, etiquetas de clasificación).

    • Ajustes de embedding y chunking.

  5. Guarda tus cambios.

  6. Vuelve a publicar la colección para que la nueva definición y los embeddings surtan efecto.

Resultado

Se ejecuta un nuevo trabajo de indexación con la configuración actualizada, y la colección vuelve a un Ready estado cuando finaliza.

Borrar una colección

Eliminar una colección es permanente. Asegúrate de que ninguna aplicación de producción sigue dependiendo del endpoint de recuperación de la colección antes de eliminarla.

Pasos
  1. Ve a Data Curator > Data collections y selecciona el menú de opciones (tres puntos azules horizontales) de la colección.

  2. Elige Borrar.

  3. Confirma la eliminación.

Resultado

La definición de la colección y sus incrustaciones se eliminan de AI Data Engine. Las aplicaciones que intenten consultar el antiguo punto final de recuperación fallarán después de que se elimine la colección.