Skip to main content
NetApp artificial intelligence solutions
O português é fornecido por meio de tradução automática para sua conveniência. O inglês precede o português em caso de inconsistências.

Implante treinamento híbrido de IA com Union.ai e NetApp FlexCache.

Colaboradores sathyaga

Aprenda como implantar um ambiente híbrido de treinamento de IA usando a orquestração Union.ai com NetApp FlexCache e Trident para provisionamento de armazenamento Kubernetes.

David Espejo, Union.ai Sathish Thyagarajan, NetApp

Visão geral

A plataforma de orquestração híbrida da Union.ai integra-se perfeitamente com o NetApp ONTAP e o FlexCache para acelerar os fluxos de trabalho de treinamento de IA/ML. Essa solução permite que os dados permaneçam em segurança no local, enquanto se aproveita o poder computacional da GPU na nuvem para cargas de trabalho de treinamento de IA. O NetApp FlexCache garante que apenas os dados necessários sejam armazenados em cache na nuvem, permitindo pipelines híbridos de IA/ML eficientes, seguros e escaláveis.

Caso de uso do cliente: Treinamento de IA em nuvem híbrida

  • Dados locais: armazenados no NetApp ONTAP para fins de conformidade e segurança.

  • Computação em nuvem: Treinamento escalável em GPU no EKS/GKE/AKS.

  • Orquestração de IA/ML: Union.ai coordena o processamento de dados e o treinamento em diversos ambientes.

  • Provisionamento de armazenamento: o NetApp Trident automatiza o provisionamento de PVC/PV.

Valor para o cliente

  • Execute cargas de trabalho de IA em conjuntos de dados massivos usando os recursos de escalabilidade horizontal do NetApp ONTAP.

  • Transfira e sincronize dados entre ambientes locais e na nuvem usando os recursos de nuvem híbrida da NetApp.

  • Armazene rapidamente dados locais em cache na nuvem usando o FlexCache.

  • Union.ai simplifica a orquestração em diversos ambientes com controle de versão, rastreamento de linhagem e gerenciamento de artefatos.

  • Realize treinamentos na nuvem, mantendo os dados confidenciais em servidores locais.

Ativar o Plugin – Pré-requisitos

Exigência

Detalhes

Versão ONTAP

ONTAP 9.7+ (licença FlexCache não necessária)

Licença FlexCache

Requerido no ONTAP 9.6 e versões anteriores.

Kubernetes

Clusters locais e em nuvem (EKS/GKE/AKS)

Trident

Instalado em clusters locais e na nuvem.

Union.ai

Plano de controle implantado (Union Cloud ou auto-hospedado)

Rede

Conectividade entre clusters (se os clusters ONTAP forem separados)

Permissões

Acesso administrativo aos clusters ONTAP e Kubernetes.

✅Use as credenciais ONTAP corretas (por exemplo, vsadmin)

É novo(a) na Union.ai?

Consulte o guia complementar no final deste documento.

Arquitetura de referência

A figura a seguir mostra o plano de controle do Union.ai integrado ao armazenamento NetApp para treinamento híbrido de IA.

Arquitetura híbrida de treinamento de IA com Union.ai e NetApp
  • Union.ai Control Plane: Orquestra fluxos de trabalho, gerencia a movimentação de dados e integra-se com as APIs da NetApp .

  • NetApp ONTAP + FlexCache: Oferece armazenamento em cache de dados eficiente, desde ambientes locais até a nuvem.

  • Clusters de treinamento híbridos: as tarefas de treinamento são executadas em clusters K8s na nuvem (por exemplo, EKS) com dados armazenados em cache no ambiente local.

_Etapa 1: Criar um volume FlexCache

Utilizando o Gerenciador de Sistemas ONTAP

  1. Acesse Armazenamento > Volumes.

  2. Clique em Adicionar.

  3. Selecione Mais opções.

  4. Ative a opção "Adicionar como cache" para um volume remoto.

  5. Escolha seus volumes de origem (local) e destino (nuvem).

  6. Defina o nível de QoS ou desempenho (opcional).

  7. Clique em Criar.

💡Se o NetApp DataOps Toolkit não estiver funcionando devido a problemas de permissão ou agregação, crie o volume FlexCache diretamente usando o ONTAP System Manager ou a CLI.

Etapa 2: Configurar o Trident

Instale o Trident em ambos os clusters:

Criar Backend Trident

apiVersion: trident.netapp.io/v1
kind: TridentBackendConfig
metadata:
name: ontap-flexcache
spec:
version: 1
storageDriverName: ontap-nas
managementLIF: <ONTAP-MGMT-IP>
dataLIF: <ONTAP-DATA-IP>
svm: <SVM-NAME>
username: vsadmin
password: <password>

Apply: kubectl apply -f backend-flexcache.yaml

Se você receber um erro 401 Não autorizado, verifique se o usuário do ONTAP possui permissões de API suficientes e se o nome de usuário (vsadmin) e a senha corretos estão sendo usados.

Defina a classe de armazenamento.

apiVersion: storage.k8s.io/v1
kind: StorageClass
metadata:
name: flexcache-sc
provisioner: csi.trident.netapp.io
parameters:
backendType: "ontap-nas"
Apply:
kubectl apply -f storageclass-flexcache.yaml

Etapa 3: Implantar fluxos de trabalho do Union.ai

A Union usa PVCs para montar volumes FlexCache em tarefas de treinamento.

Exemplo de modelo de Pod

apiVersion: v1
kind: PodTemplate
metadata:
name: netapp-podtemplate
namespace: flytesnacks-development
template:
metadata:
labels:
default-storage: netapp
spec:
containers:
- name: primary
volumeMounts:
- name: flexcache-storage
mountPath: /data/flexcache
volumes:
- name: flexcache-storage
persistentVolumeClaim:
claimName: flexcache-pvc

Exemplo de fluxo de trabalho

da tarefa de importação de união, fluxo de trabalho

@task(pod_template="netapp-podtemplate")

def train_model(pvc_path: str):

Carregar e treinar com dados do PVC

@workflow

def training_pipeline():

train_model(pvc_path="/data/flexcache")

O operador sindicalizado irá:

  • Criar o PVC

  • Monte o volume FlexCache

  • Agende a tarefa no cluster Kubernetes na nuvem.

Etapa 4: Validar a integração_

Tarefa Validação

Suporte de PVC

Os pods de treinamento devem montar /data/flexcache com sucesso.

Acesso a dados

Os trabalhos de treinamento podem ler/gravar no FlexCache.

Comportamento do cache

Monitorar acertos/falhas de cache no ONTAP. Garantir que os agregados suportem FlexCache

Desempenho

Validar a latência e a taxa de transferência para cargas de trabalho de treinamento.

Utilize a CLI do NetApp BlueXP ou do ONTAP para monitorar o desempenho.

Considerações de segurança

  • Use endpoints VPC para FSx para NetApp ONTAP

  • Habilite a criptografia em trânsito e em repouso.

  • Aplicar RBAC/IAM para acesso ao ONTAP

  • A Union.ai não acessa nem armazena dados de clientes.

Monitoramento e Otimização

Ferramenta

Propósito

NetApp BlueXP

Monitore o uso e o desempenho do FlexCache.

Interface do usuário Union.ai

Acompanhe o status e as métricas do pipeline.

Registros de Trident

Depurar problemas de PVC ou backend

Aprimoramentos opcionais

  • Automatize a criação do FlexCache usando as APIs do BlueXP.

  • Use o Union SDK para aquecer o cache antes do treinamento.

  • Adicione pipelines de inferência em lote ou de disponibilização de modelos após o treinamento.

  • Se o DataOps Toolkit falhar, recorra à criação manual do FlexCache por meio do Gerenciador de Sistemas.

Solução de problemas

Emitir Resolução

PVC preso em Pendente

Verifique os logs do Trident e a configuração do backend.

401 Não autorizado da API ONTAP

Use o vsadmin e verifique as permissões.

Tarefa falhou: Não há armazenamento adequado.

Garantir que o agregado ONTAP suporte FlexCache/ FabricPool

Desempenho lento no treinamento

Verifique a taxa de acertos de cache e a latência da rede.

Os dados não estão sendo sincronizados.

Validar a integridade do relacionamento do FlexCache no ONTAP

Próximos passos

  1. Valide o FlexCache com dados de teste.

  2. Implantar pipelines de treinamento da Union.ai

  3. Monitorar e otimizar o desempenho

  4. Documente a configuração específica do cliente.

Conclusão

Agora você possui um ambiente de treinamento de IA híbrido validado usando Union.ai e NetApp FlexCache. Os trabalhos de treinamento podem ser executados na nuvem, acessando dados locais de forma segura e eficiente, sem replicar conjuntos de dados inteiros ou comprometer a governança.

Guia Complementar do Union.ai

Etapa 1: Escolha o modelo de implantação

Opção A: Union Cloud

Opção B: Hospedagem própria

  • Seguir:https://docs.union.ai/platform/latest/deployment/self-hosted/["Guia de Hospedagem Própria"]

  • Implantação via Helm:

helm repo adicionar unionai https://unionai.github.io/helm-charts/

helm install union unionai/union -n union-system -f values.yaml

Etapa 2: Instalar o Union Operator

kubectl apply -fhttps://raw.githubusercontent.com/unionai/operator/main/deploy/operator.yaml[]

kubectl get pods -n union-system

Etapa 3: Instale o Union CLI

pip install unionai

login da união

Etapa 4: Registrar o fluxo de trabalho

projeto de união cria IA híbrida

union register training_pipeline.py --project hybrid-ai

Etapa 5: Executar e Monitorar

union run training_pipeline --project hybrid-ai

Treinamento de vigilância sindical_pipeline

Veja os registros em "Interface de usuário da União"

Etapa 6: Registrar o cluster de computação (opcional)

union cluster register --name cloud-k8s --kubeconfig ~/.kube/config

Etapa 7: Rastrear artefatos e linhagem

O Union rastreia automaticamente:

  • Parâmetros de entrada/saída

  • Versões de dados

  • Registros e métricas

  • Linhagem de execução