Saiba mais sobre AI Data Engine
NetApp AI Data Engine (AIDE) é uma plataforma de nível empresarial projetada para acelerar e simplificar o processamento de dados orientados por IA, gerenciamento e governança. AIDE pode ajudar a transformar grandes quantidades de dados não estruturados em conjuntos de dados estruturados e prontos para IA. Ele foi desenvolvido para atender às demandas das cargas de trabalho modernas de aprendizado de máquina (ML) e IA generativa (GenAI), oferecendo suporte tanto às operações tradicionais de TI quanto às novas funções centradas em IA.
AIDE aborda os desafios da IA
AIDE foi projetado para ajudar as organizações a gerenciar dados para cargas de trabalho de IA e oferece as seguintes funcionalidades principais:
-
Gestão centralizada de metadados: AIDE coleta e cataloga metadados de volumes ONTAP, possibilitando a busca, classificação e aplicação de políticas de governança a conjuntos de dados.
-
Processamento de dados automatizado: AIDE oferece suporte à criação de fluxos de dados para cargas de trabalho de IA e ML, incluindo a capacidade de gerar incorporações vetoriais para pesquisa semântica (com o licenciamento apropriado).
-
Isolamento de dados e controle de acesso: AIDE aplica controles de acesso e isolamento básico de dados para várias equipes ou projetos.
-
Integração com NetApp tools: AIDE funciona com ONTAP System Manager para administração de storage e fornece uma interface (AI Data Engine Console) para que engenheiros e cientistas de dados gerenciem coleções de dados e fluxos de trabalho.
Características de projeto de alto nível
As seguintes características de design definem como AIDE foi construído para atender às necessidades das cargas de trabalho de AI:
-
Serviços baseados em microsserviços: Usa o Kubernetes para orquestrar serviços modulares e resilientes para catalogação de metadados, busca vetorial e gerenciamento de infraestrutura.
-
Segurança de nível empresarial: Implementa criptografia, controle de acesso baseado em funções (RBAC) e auditoria em todos os dados e metadados.
-
Acesso a dados multiprotocolo: Suporta NFS e SMB para ingestão e recuperação flexíveis de dados.
-
Fluxos de dados automatizados: Rastreia alterações de dados, cria embeddings e gerencia bancos de dados vetoriais para aplicações de IA.
Como os dados fluem pelo AIDE
Compreender como os dados fluem pelo AIDE ajuda a ilustrar o valor da plataforma para equipes de AI/ML:
-
Ingestão de dados: Os arquivos são armazenados em volumes ONTAP usando protocolos padrão (NFS e SMB). Os dados podem residir no armazenamento local do AIDE (o cluster AFX dentro da sua implantação do AIDE) ou em clusters ONTAP remotos. Os dados dos clusters remotos são sincronizados com o cluster AFX local usando ONTAP SnapMirror, de modo que todos os dados processados pelo AIDE sejam, em última análise, armazenados e acessados localmente.
|
|
Buckets S3 não são suportados como fontes de dados para workspaces ou coletas de dados. |
-
Criação de workspaces: Os administradores de armazenamento definem workspaces no ONTAP System Manager, agrupando volumes ONTAP relacionados para projetos, equipes ou fluxos de trabalho específicos. As permissões de acesso e as políticas de governança são atribuídas no nível do workspace.
-
Extração de metadados: AIDE examina automaticamente arquivos e objetos em espaços de trabalho, extraindo metadados (tipo de arquivo, tamanho, carimbos de data/hora, atributos personalizados) e armazenando-os em um catálogo centralizado. Isso ocorre continuamente à medida que os dados são alterados.
-
Classificação e governança: Classificadores examinam os dados em busca de informações sensíveis (PII, dados financeiros) ou tipos de documento (jurídicos, RH). Políticas de Data Guardrails aplicam redação ou restrições de acesso automaticamente.
-
Criação de coleta de dados: engenheiros e cientistas de dados usam AIDE Console para consultar o catálogo de metadados, filtrar resultados e montar coletas de dados selecionadas para tarefas específicas de IA.
-
Vetorização: para coleções que exigem busca semântica, AIDE gera embeddings usando modelos de IA selecionados. Vetores são armazenados no banco de dados de vetores para recuperação de alto desempenho.
-
Consumo de IA/ML: aplicativos acessam dados por meio de múltiplos caminhos:
-
Acesso direto a arquivo/objeto usando NFS ou SMB
-
Consultas de pesquisa semântica no banco de dados de vetores
-
Pontos de extremidade RAG que combinam recuperação de dados com integração de modelo GenAI
-
Acesso à API REST para fluxos de trabalho programáticos
-
Esse fluxo de trabalho automatizado e voltado a políticas reduz o tempo e o esforço manual necessários para preparar os dados para IA, permitindo que as equipes se concentrem no desenvolvimento de modelos e insights, em vez de na manipulação de dados.