O português é fornecido por meio de tradução automática para sua conveniência. O inglês precede o português em caso de inconsistências.

Crie coleções de dados no AI Data Engine Console

04/29/2026 Colaboradores

PDFs

As coleções de dados são os blocos de construção RAG essenciais no AI Data Engine (AIDE). Como engenheiro de dados ou cientista de dados, você define quais arquivos pertencem a uma coleção, configura as opções de incorporação e indexação e publica a coleção para que os aplicativos possam consultá-la por meio de um endpoint de recuperação.

As instruções a seguir pressupõem uma implantação do AIDE baseada em NetApp DCN.

Você realizará todas as tarefas de coleta de dados no AIDE Console.

Antes de começar

Você precisa de privilégios de engenheiro de dados ou cientista de dados no AIDE Console (https://<cluster_management_ip>/console).
Você tem acesso a pelo menos um espaço de trabalho com metadados extraídos e em Ready estado.
Você explorou os metadados do workspace e identificou consultas ou filtros que definem subconjuntos de dados relevantes.
A licença de serviços premium do AIDE está instalada e os recursos de inferência estão habilitados para a funcionalidade do Data Curator.

Criar uma coleta de dados a partir de metadados do workspace

Passos

Acesse Data Curator > Workspaces e selecione o workspace que contém seus dados de destino.
Selecione Add data collection.
Na página Criar nova coleta de dados, faça o seguinte:
1. Insira um nome e uma descrição para a coleção (por exemplo, Support_KB_RAG_EN).
2. Escolha se a coleta deve ser:
  - Dinâmico: Novos arquivos são identificados e adicionados automaticamente à coleta de dados com base nos critérios de filtragem que você define. Isso ocorre durante as atualizações do espaço de trabalho.
  - Estático: Você escolhe quais arquivos são incluídos na coleção. Você pode editar os arquivos se a coleta de dados estiver no draft estado. Depois que a coleta de dados passa para Published estado, ela não pode ser editada.
Especifique o subconjunto de origem:
1. Utilize palavras-chave e filtros (tipo de arquivo, carimbos de data e hora e outros atributos) para encontrar os arquivos relevantes a serem incluídos.
  
  Você pode selecionar um nome de arquivo para abrir uma janela de visualização prévia do conteúdo.
Adicione esses arquivos à coleta de dados.
Selecione Save para finalizar a coleta.

Resultado

Você definiu o escopo da coleta de dados e adicionou os arquivos necessários a ela. AIDE gera embeddings e constrói o índice vetorial quando você publica a coleção.

Crie coleções pequenas e focadas (por exemplo, por caso de uso ou domínio) em vez de uma única coleção "para tudo". Isso melhora a relevância da recuperação e a capacidade de gerenciamento.

Publicar uma coleta de dados

Publique a coleta de dados para torná-la consultável por aplicações de IA através de um endpoint de recuperação RAG. A publicação gera embeddings vetoriais a partir dos arquivos selecionados e os indexa para busca semântica. Após a coleção atingir Ready estado, seu endpoint fica disponível para que cientistas de dados a integrem em notebooks, pipelines e aplicações de IA para geração aumentada por recuperação (RAG) e busca.

Para coleções grandes, considere agendar a publicação inicial e as principais republicações em horários de menor movimento para minimizar a disputa por recursos.

Passos

Navegue até Data Curator > Data collections e selecione o menu de opções () para sua coleta de dados.
Selecione Publish.
Selecione uma configuração de otimização padrão ou personalizada.
Selecione Publicar para iniciar a transformação de dados.
No AIDE Console, abra a visualização de detalhes da coleta (Data Curator > Coletas de dados) para atualizações de status.

Resultado

A coleção chega ao estado Ready e fica disponível para uso por aplicações subsequentes e cientistas de dados.

Em Data Curator > Data collections, você pode selecionar Copy URI para obter as informações necessárias para acessar a coleta de dados usando uma API.

Atualizar ou excluir uma coleta de dados

Com o tempo, você pode precisar refinar ou desativar coleções de dados. Refinar uma coleção pode envolver ajustar filtros para adicionar ou remover arquivos, alterar configurações de incorporação ou atualizar a descrição da coleção. Excluir uma coleção a remove permanentemente e torna seu endpoint de recuperação indisponível.

Atualizar uma coleta de dados

Você pode atualizar uma coleta de dados quando ela estiver em draft estado.

Passos

Acesse Data Curator > Data collections.
Selecione a coleção que você deseja modificar.
Escolha Editar.
Ajuste qualquer um dos seguintes:
- Nome e descrição
- Filtros (caminhos, tipos de arquivo, classification tags).
- Configurações de embedding e chunking.
Salve suas alterações.
Publique a coleção novamente para que a nova definição e os embeddings entrem em vigor.

Resultado

Uma nova tarefa de indexação é executada com a configuração atualizada e a coleção retorna a Ready um estado quando concluída.

Excluir uma coleção

A exclusão de uma coleção é permanente. Certifique-se de que nenhum aplicativo em produção ainda dependa do endpoint de recuperação da coleção antes de excluí-la.

Passos

Navegue até Data Curator > Data collections e selecione o menu de opções () para a coleção.
Escolha Excluir.
Confirme a exclusão.

Resultado

A definição da coleção e seus embeddings são removidos do AIDE. Aplicativos que tentarem consultar o antigo endpoint de recuperação falharão após a coleção ser removida.

Qual é o próximo passo?

"Visualizar coletas de dados"

Crie coleções de dados no AI Data Engine Console

Creating your file...

Criar uma coleta de dados a partir de metadados do workspace

Publicar uma coleta de dados

Atualizar ou excluir uma coleta de dados

Atualizar uma coleta de dados

Excluir uma coleção

Qual é o próximo passo?