Valeur de l'IA générative et de l'NetApp
La demande en intelligence artificielle générative (IA) génère des perturbations dans tous les secteurs, ce qui favorise la créativité commerciale et l'innovation produit.
Auteur: Sathyish Thyagarajan, NetApp
Résumé
De nombreuses entreprises utilisent l'IA générative pour créer de nouvelles fonctionnalités, améliorer la productivité de l'ingénierie et créer des prototypes d'applications basés sur l'IA qui offrent de meilleurs résultats et expériences client. L'IA générative, telle que Generative Pre-entrainés Transformers (GPT), utilise des réseaux neuronaux pour créer de nouveaux contenus aussi divers que du texte, de l'audio et de la vidéo. Étant donné l'ampleur extrême et les jeux de données massifs impliqués dans les grands modèles de langage (LLMS), il est essentiel de concevoir une infrastructure d'IA robuste qui tire parti des puissantes fonctionnalités de stockage des données des options de déploiement sur site, hybride et multicloud et réduit les risques associés à la mobilité des données. protection et gouvernance des données avant que les entreprises ne puissent concevoir des solutions d'IA. Ce livre blanc présente ces considérations et les fonctionnalités NetApp® ai correspondantes qui permettent une gestion transparente des données et un déplacement fluide des données dans le pipeline de traitement de données d'IA pour l'entraînement, le recyclage, le réglage fin et l'inférence des modèles d'IA génératifs.
Synthèse
Plus récemment, après le lancement de ChatGPT, un spin-off de GPT-3 en novembre 2022, de nouveaux outils d'IA utilisés pour générer du texte, du code, de l'image, ou même des protéines thérapeutiques en réponse aux invites de l'utilisateur ont acquis une renommée significative. Cela indique que les utilisateurs peuvent faire une demande en utilisant le langage naturel. L'IA interprète et génère du texte, par exemple des articles d'actualité ou des descriptions de produits qui reflètent les demandes de l'utilisateur ou produisent du code, de la musique, de la parole, des effets visuels et des ressources 3D à l'aide d'algorithmes entraînés sur des données déjà existantes. En conséquence, des expressions telles que diffusion stable, hallucinations, ingénierie rapide et alignement de la valeur apparaissent rapidement dans la conception des systèmes d'IA. Ces modèles de machine learning (ML) autosupervisés ou semi-supervisés deviennent largement disponibles sous forme de modèles de base pré-entraînés (FM) via des fournisseurs de services cloud et d'autres fournisseurs de firmwares d'IA. Ces modèles sont adoptés par divers établissements d'entreprises de tous secteurs pour un large éventail de tâches de traitement du langage naturel (TLN) en aval. Comme l'a affirmé des sociétés d'analyse de recherche telles que McKinsey, « l'impact de l'IA générative sur la productivité pourrait ajouter des milliards de dollars à l'économie mondiale. » Si les entreprises réinventent l'IA en tant que partenaires d'opinion pour l'homme et que le FMS s'élargit simultanément à ce que les entreprises et les institutions peuvent faire avec l'IA générative, les opportunités de gestion de volumes massifs de données vont continuer de croître. Nous présentons dans ce document des informations d'introduction à l'IA générative et les concepts de conception relatifs aux fonctionnalités NetApp qui apportent de la valeur aux clients NetApp, dans les environnements sur site et hybrides ou multicloud.
Que contient NetApp dans leurs environnements d'IA ? NetApp aide les entreprises à faire face aux complexités liées à la croissance rapide des données et du cloud, à la gestion multicloud et à l'adoption de technologies nouvelle génération, telles que l'IA. NetApp a combiné diverses fonctionnalités à un logiciel de gestion intelligente des données et à une infrastructure de stockage parfaitement équilibrées. Les solutions d'IA génératives telles que les LLMS doivent à plusieurs reprises lire et traiter leurs datasets sources depuis le stockage vers la mémoire afin de favoriser l'intelligence. NetApp a été l'un des leaders des technologies de mobilité, de gouvernance et de sécurité des données dans l'écosystème périphérie/cœur/cloud, pour aider les entreprises à créer des solutions d'IA à grande échelle. Avec un solide réseau de partenaires, NetApp aide les Chief Data Officer, les ingénieurs d'IA, les architectes d'entreprise et les data Scientists à concevoir un pipeline de données fluide pour la préparation et la protection des données, et des responsabilités stratégiques en matière de gestion des données pour l'entraînement des modèles d'IA et l'inférence, afin d'optimiser les performances et l'évolutivité du cycle de vie d'IA et de ML. Les technologies et fonctionnalités de données NetApp telles que le pipeline de données NetApp® ONTAP ai® pour le deep learning, NetApp® SnapMirror® pour le transport fluide et efficace des données entre les terminaux de stockage, et NetApp® FlexCache® pour un rendu en temps réel lorsque le flux de données passe du mode batch au mode temps réel et que l'ingénierie des données se produit rapidement, apportez une valeur ajoutée au déploiement de modèles d'IA génératifs en temps réel. Alors que les entreprises de tous types adoptent de nouveaux outils d'IA, elles sont confrontées aux défis liés aux données, de la périphérie au data Center et jusqu'au cloud, qui exigent des solutions d'IA évolutives, responsables et explicables. En tant que référence en matière de gestion des données dans le cloud hybride et le multicloud, NetApp s'engage à créer un réseau de partenaires et de solutions conjointes pouvant aider à tous les aspects de la construction d'un pipeline de données et de data Lakes pour l'entraînement de modèles d'IA génératifs (pré-entraînement), le réglage précis, l'inférence basée sur le contexte et la surveillance de la désintégration de modèles de LLMS.
Qu'est-ce que l'IA générative ?
L'IA générative révolutionne la façon dont nous créons du contenu, générons de nouveaux concepts et explorons de nouvelles compositions. Il illustre les réseaux neuronaux comme le réseau antagoniste génératif (GAN), les codeurs automatiques variationnels (VAE) et les transformateurs pré-entraînés génératifs (GPT), qui peuvent générer un nouveau contenu comme le texte, le code, les images, l'audio, la vidéo, et des données synthétiques. Des modèles basés sur des transformateurs comme le Chat-GPT d’OpenAI, le Bard de Google, la FLORAISON DE la face de se tasser, et le Llama de Meta sont apparus comme la technologie de base qui sous-tend de nombreuses avancées dans les grands modèles linguistiques. De même, Dall-E d'OpenAI, CM3leon de Meta et Imagen de Google sont des exemples de modèles de diffusion texte-image qui offrent aux clients un degré sans précédent de photoréalisme pour créer de nouvelles images complexes à partir de zéro ou modifier des images existantes afin de générer des images de haute qualité prenant en compte le contexte en utilisant l'augmentation des jeux de données et la synthèse texte-image reliant la sémantique textuelle et visuelle. Les artistes numériques commencent à appliquer une combinaison de technologies de rendu comme Nerf (neural Radiance Field) avec l'IA générative pour convertir des images 2D statiques en scènes 3D immersives. En général, les LLMS se caractérisent par quatre paramètres : (1) taille du modèle (généralement en milliards de paramètres) ; (2) taille du dataset d'entraînement ; (3) coût de l'entraînement et (4) performances du modèle après l'entraînement. Les LLMS se répartissent également principalement dans trois architectures de transformateur. (i) modèles avec encodeur uniquement. Par exemple, BERT (Google, 2018) ; (ii) Encoder-décodeur, par exemple BART (Meta, 2020) et (iii) Decoder-Only modèles. Par exemple, Llama (Meta, 2023), Palm-E (Google, 2023). Selon les besoins de l'entreprise, quelle que soit l'architecture choisie, le nombre de paramètres du modèle (N) et le nombre de jetons (D) dans le dataset d'entraînement déterminent généralement le coût de base de l'entraînement (pré-entraînement) ou le réglage d'un LLM.
Cas d'utilisation en entreprise et tâches de NLP en aval
Les entreprises de tous les secteurs d'activité découvrent qu'elles ont de plus en plus de potentiel pour l'IA afin d'extraire et de produire de nouvelles formes de valeur à partir des données existantes pour les opérations métier, les ventes, le marketing et les services juridiques. Selon l'étude de marché IDC (International Data Corporation) sur les cas d'utilisation et les investissements mondiaux d'IA générative, la gestion des connaissances dans le développement de logiciels et la conception de produits doit être la plus impactée, suivie par la création de scénarios pour le marketing et la génération de code pour les développeurs. Dans le domaine de la santé, les organismes de recherche clinique font une percée dans la médecine. Des modèles préformés comme ProteinBERT intègrent des annotations d'ontologie génique (GO) pour concevoir rapidement des structures protéiques pour les médicaments médicaux, ce qui représente une étape importante dans la découverte de médicaments, la bioinformatique et la biologie moléculaire. Les entreprises de biotechnologie ont lancé des essais humains pour la médecine générative découverte par l'IA, qui vise à traiter des maladies comme la fibrose pulmonaire (FPI), une maladie pulmonaire qui provoque une cicatrisation irréversible des tissus pulmonaires.
Figure 1 : cas d'utilisation de l'IA générative
L'adoption croissante de l'automatisation, stimulée par l'IA générative, modifie également l'offre et la demande d'activités professionnelles pour de nombreuses professions. Comme le cabinet de conseil McKinsey, le marché du travail américain (diagramme ci-dessous) a connu une transition rapide, qui ne peut se poursuivre qu’en tenant compte de l’impact de l’IA.
Source : McKinsey & Company
Rôle du stockage dans l'IA générative
Les LLMS reposent essentiellement sur le deep learning, les processeurs graphiques et les ressources de calcul. Cependant, lorsque le tampon GPU est plein, les données doivent être écrites rapidement dans le stockage. Alors que certains modèles d'IA sont suffisamment petits pour s'exécuter en mémoire, les LLMS nécessitent des IOPS élevées et un stockage à haut débit pour fournir un accès rapide à des jeux de données volumineux, en particulier s'ils impliquent des milliards de jetons ou des millions d'images. Pour un besoin en mémoire GPU type d'un LLM, la mémoire nécessaire pour entraîner un modèle avec 1 milliard de paramètres peut atteindre 80 Go avec une précision totale de 32 bits. Dans ce cas, le Llama 2 de Meta, une famille de LLM allant de 7 milliards à 70 milliards de paramètres, peut nécessiter 70x80, environ 5600 Go ou 5,6 To de RAM GPU. En outre, la quantité de mémoire dont vous avez besoin est directement proportionnelle au nombre maximal de jetons que vous souhaitez générer. Par exemple, si vous voulez générer des sorties allant jusqu'à 512 jetons (environ 380 mots), vous avez besoin "512 MO". Cela peut sembler sans conséquence, mais si vous voulez exécuter des lots plus importants, il commence à s'additionner. Par conséquent, le coût de la formation ou du réglage précis des LLM en mémoire est donc très élevé, ce qui fait du stockage la pierre angulaire de l'IA générative.
Trois approches principales des LLMS
Pour la plupart des entreprises, en fonction des tendances actuelles, l'approche de déploiement des LLMS peut être condensée en 3 scénarios de base. Comme décrit dans un récent "« Harvard Business Review »" article : (1) formation (pré-formation) un LLM à partir de zéro – coûteux et nécessitant des compétences spécialisées en IA/ML ; (2) affinement d'un modèle de base avec des données d'entreprise – complexe mais réalisable ; (3) utilisation de la génération augmentée de récupération (RAG) pour interroger des référentiels de documents, des API et des bases de données vectorielles qui contiennent des données d'entreprise. Chacun de ces éléments comporte des compromis entre l'effort, la vitesse d'itération, la rentabilité et la précision du modèle dans sa mise en œuvre, utilisés pour résoudre différents types de problèmes (diagramme ci-dessous).
Figure 3 : types de problèmes
Modèles de base
Un modèle de base également connu sous le nom de modèle de base est un grand modèle d'IA (LLM) entraîné sur de grandes quantités de données non étiquetées, grâce à l'autosurveillance à grande échelle, généralement adapté à un large éventail de tâches NLP en aval. Puisque les données d'entraînement ne sont pas étiquetées par les humains, le modèle émerge plutôt que d'être explicitement encodé. Cela signifie que le modèle peut générer des histoires ou un récit de son propre sans être explicitement programmé pour le faire. Par conséquent, une caractéristique importante de la FM est l'homogénéisation, ce qui signifie que la même méthode est utilisée dans de nombreux domaines. Cependant, avec des techniques de personnalisation et de réglage précis, FMS intégré dans les produits apparaissant ces jours-ci ne sont pas seulement bon pour la génération de texte, texte-images, et texte-à-code, mais aussi pour expliquer des tâches spécifiques de domaine ou de code de débogage. Par exemple, FMS comme le Codex d'OpenAI ou le Code de méta Llama peut générer du code dans plusieurs langages de programmation basés sur les descriptions en langage naturel d'une tâche de programmation. Ces modèles sont compétents dans plus d'une douzaine de langages de programmation, notamment Python, C#, JavaScript, Perl, Ruby, et SQL. Ils comprennent l'intention de l'utilisateur et génèrent du code spécifique qui effectue la tâche souhaitée, utile pour le développement de logiciels, l'optimisation du code et l'automatisation des tâches de programmation.
Affinage, spécificité de domaine et recyclage
L'une des pratiques courantes avec le déploiement LLM après la préparation des données et le pré-traitement des données consiste à sélectionner un modèle pré-entraîné qui a été entraîné sur un dataset volumineux et diversifié. Dans le contexte du réglage précis, il peut s'agir d'un modèle de langage large open source, par exemple "Meta's Llama 2" entraînement sur 70 milliards de paramètres et 2 billions de jetons. Une fois le modèle pré-entraîné sélectionné, l'étape suivante consiste à l'ajuster sur les données spécifiques au domaine. Pour ce faire, il faut ajuster les paramètres du modèle et l'entraîner à l'égard des nouvelles données pour qu'elles s'adaptent à un domaine et à une tâche spécifiques. Par exemple, BloombergGPT, un LLM propriétaire formé à un large éventail de données financières au service de l'industrie financière. Les modèles spécifiques à un domaine conçus et entraînés pour une tâche spécifique ont généralement une précision et des performances supérieures dans leur portée, mais une faible transférabilité entre les autres tâches ou domaines. Lorsque l'environnement commercial et les données évoluent sur une période donnée, la précision de prévision de la FM pourrait commencer à diminuer par rapport à ses performances pendant les tests. C'est lorsque le recyclage ou l'ajustement du modèle devient crucial. Le recyclage des modèles dans l'IA/ML classique consiste à mettre à jour un modèle de ML déployé avec de nouvelles données généralement réalisées pour éliminer deux types de dérives. (1) dérive du concept – lorsque le lien entre les variables d'entrée et les variables cibles change au fil du temps, puisque la description de ce que nous voulons prédire les changements, le modèle peut produire des prédictions inexactes. (2) dérive des données : survient lorsque les caractéristiques des données d'entrée changent, comme des changements dans les habitudes ou le comportement des clients au fil du temps, et donc l'incapacité du modèle à répondre à de tels changements. De la même manière, le recyclage s'applique aux FMS/LLMS. Cependant, il peut être beaucoup plus coûteux (en millions de dollars), donc pas quelque chose que la plupart des organisations pourraient envisager. Il fait l'objet de recherches actives, qui émergent encore dans le domaine du LLMOps. Ainsi, au lieu de réentraîner, lorsque la dégradation des modèles se produit dans un FMS ajusté, les entreprises peuvent choisir de procéder à des ajustements (beaucoup moins chers) avec un nouveau dataset. Pour ce qui est des coûts, vous trouverez ci-dessous un exemple de tableau des prix des modèles des services Azure-OpenAI. Les clients peuvent ajuster et évaluer les modèles de chaque catégorie de tâche à partir de datasets spécifiques.
Source : Microsoft Azure
Ingénierie et inférence rapides
L'ingénierie rapide fait référence aux méthodes efficaces de communication avec les LLMS pour effectuer les tâches souhaitées sans mettre à jour les pondérations du modèle. Si l'entraînement et le réglage précis des modèles d'IA sont essentiels pour les applications NLP, l'inférence est tout aussi importante, là où les modèles entraînés répondent aux invites de l'utilisateur. La configuration système requise pour l'inférence est généralement bien plus importante sur les performances de lecture du système de stockage d'IA qui alimente les données des LLMS vers les GPU lorsqu'il doit pouvoir appliquer des milliards de paramètres de modèle stockés afin de fournir la meilleure réponse possible.
LLMOps, Model Monitoring et Vectorstores
À l'instar des opérations classiques de machine learning (MLOps), les opérations de modèle linguistique grand format (LLMOps) nécessitent également la collaboration de data Scientists et d'ingénieurs DevOps, avec des outils et des bonnes pratiques de gestion des LLM dans des environnements de production. Cependant, le flux de travail et la pile technique des LLMS peuvent varier d'une manière ou d'une autre. Par exemple, les pipelines LLM construits à l'aide de structures comme LangChain String ensemble plusieurs appels API LLM vers des points finaux d'intégration externes tels que des vectorstores ou des bases de données vectorielles. L'utilisation d'un point de terminaison d'intégration et d'un vectorstore pour les connecteurs en aval (comme une base de données vectorielle) représente un développement significatif dans la façon dont les données sont stockées et consultées. Contrairement aux modèles de ML traditionnels développés à partir de zéro, les LLMS s'appuient souvent sur l'apprentissage par transfert puisque ces modèles commencent par FMS qui sont ajustés avec de nouvelles données afin d'améliorer les performances dans un domaine plus spécifique. Par conséquent, il est crucial que les LLMOps offrent les capacités de gestion des risques et de surveillance de la désintégration des modèles.
Risques et éthique à l'ère de l'IA générative
« ChatGPT – c'est un peu ridicule, mais il ne fait pas de sens. »– MIT Tech Review. Le traitement des déchets a toujours été un véritable défi pour l'informatique. La seule différence avec l'IA générative est qu'elle excelle dans la crédibilité des déchets, ce qui conduit à des résultats inexacts. Les LLMS sont enclins à inventer des faits qui correspondent au discours qu'ils construisent. Par conséquent, les entreprises qui considèrent l'IA générative comme une grande opportunité de réduire leurs coûts avec des équivalents en IA doivent détecter efficacement les faux-pas, réduire les préjugés et réduire les risques pour que les systèmes restent honnêtes et éthiques. Un pipeline de données fluide, doté d'une infrastructure d'IA robuste, qui prend en charge la mobilité des données, la qualité, la gouvernance et la protection des données via un chiffrement de bout en bout et des rambardes d'IA, est un éminent dans la conception de modèles d'IA génératifs responsables et explicables.
Scénario client et NetApp
Figure 3 : workflow de modèle d'apprentissage machine/langage large
Sommes-nous en train de former ou de peaufiner? la question de savoir si (a) former un modèle LLM à partir de zéro, peaufiner un FM pré-entraîné, ou utiliser RAG pour extraire des données des référentiels de documents en dehors d'un modèle de base et augmenter les invites, et (b) soit en exploitant des LLMS open source (par exemple, Llama 2), soit en utilisant des FMS propriétaires (par exemple, ChatGPT, Bard, AWS Bedrock) est une décision stratégique pour les entreprises. Chaque approche implique un compromis entre la rentabilité, la gravité des données, les opérations, la précision des modèles et la gestion des LLMS.
En tant qu'entreprise, NetApp adopte l'IA en interne dans sa culture du travail et dans son approche de la conception de produits et de ses efforts d'ingénierie. Par exemple, la protection anti-ransomware autonome de NetApp est conçue à l'aide de l'IA et du machine learning. Il assure une détection précoce des anomalies du système de fichiers pour aider à identifier les menaces avant qu'elles n'affectent les opérations. Deuxièmement, NetApp utilise l'IA prédictive pour ses activités commerciales, telles que la prévision des ventes et des stocks et les chatbots, pour aider ses clients dans les services de support produit des centres d'appels, les spécifications techniques, la garantie, les manuels de service, etc. Troisièmement, NetApp apporte une valeur ajoutée au pipeline de données d'IA et au workflow ML/LLM via des produits et des solutions destinés aux clients qui conçoivent des solutions d'IA prédictives telles que la prévision de la demande, l'imagerie médicale, l'analyse des sentiments, et des solutions d'IA générative telles que Gans pour la détection des anomalies d'images industrielles dans le secteur manufacturier et la lutte contre le blanchiment d'argent et la détection des fraudes dans les services bancaires et financiers avec des produits et des fonctionnalités NetApp tels que NetApp® ONTAP ai®, NetApp® SnapMirror® et NetApp® FlexCache®.
Fonctionnalités NetApp
Le déplacement et la gestion des données dans les applications d'IA générative telles que le chatbot, la génération de code, la génération d'images ou l'expression de modèle génomique peuvent s'étendre de la périphérie, au data Center privé et à l'écosystème multicloud hybride. Par exemple, un robot d'IA en temps réel qui aide un passager à mettre à niveau son billet d'avion pour passer à une classe affaires à partir d'une application utilisateur exposée via des API de modèles pré-entraînés tels que ChatGPT ne peut pas accomplir cette tâche en lui-même puisque les informations sur les passagers ne sont pas accessibles au public sur Internet. L'API requiert l'accès aux informations personnelles du passager et aux informations sur le billet de la compagnie aérienne, qui peuvent exister dans un écosystème hybride ou multicloud. Un scénario similaire peut s'appliquer aux scientifiques partageant une molécule de médicament et les données des patients via une application utilisateur qui utilise les LLM pour effectuer des essais cliniques dans le cadre de la découverte de médicaments impliquant un à plusieurs établissements de recherche biomédicale. Les données sensibles transmises au FMS ou au LLMS peuvent inclure des PII, des informations financières, des informations de santé, des données biométriques, des données de localisation, données de communication, comportement en ligne et informations juridiques. Dans ce cas, le rendu en temps réel, l'exécution rapide et l'inférence de périphérie font passer les données de l'application utilisateur final aux terminaux de stockage via des modèles LLM propriétaires ou open source vers un data Center sur des plateformes de cloud public ou sur site. Dans tous ces scénarios, la mobilité et la protection des données sont essentielles pour les opérations d'IA impliquant des LLMS qui s'appuient sur d'importants datasets d'entraînement et le déplacement de ces données.
Figure 4 : pipeline de traitement de données LLM - IA générative
Le portefeuille NetApp d'infrastructures de stockage, de données et de services cloud est optimisé par un logiciel de gestion intelligente des données.
Préparation des données : le premier pilier de la pile technologique LLM est largement intact de la pile traditionnelle ML plus ancienne. Dans le pipeline d'IA, un prétraitement des données est nécessaire pour les normaliser et les nettoyer avant de procéder à l'entraînement ou aux réglages fins. Cette étape comprend des connecteurs qui permettent d'acquérir les données où qu'elles résident sous la forme d'un Tier Amazon S3 ou dans des systèmes de stockage sur site tels qu'un magasin de fichiers ou d'objets comme NetApp StorageGRID.
NetApp® ONTAP est la technologie de base sur laquelle reposent les solutions de stockage stratégiques de NetApp dans le data Center et le cloud. ONTAP comprend plusieurs fonctionnalités et fonctions de gestion et de protection des données, notamment la protection automatique contre les ransomware contre les cyberattaques, le transport intégré des données et l'efficacité du stockage pour toute une gamme d'architectures : sur site, hybride, multiclouds dans NAS, SAN, objet, et SDS (Software Defined Storage) dans les déploiements LLM.
NetApp® ONTAP ai® pour l'entraînement des modèles de deep learning. NetApp® ONTAP® prend en charge NVIDIA GPU Direct Storage™ en utilisant NFS over RDMA pour les clients NetApp dotés d'un cluster de stockage ONTAP et de nœuds de calcul NVIDIA DGX . Elle offre des performances rentables pour lire et traiter plusieurs fois les jeux de données source du stockage dans la mémoire afin de favoriser l'intelligence, ce qui permet aux entreprises de bénéficier d'une formation, d'un réglage précis et d'un accès évolutif aux LLMS.
NetApp® FlexCache® est une capacité de mise en cache à distance qui simplifie la distribution des fichiers et met uniquement en cache les données lues activement. Cela peut s'avérer utile pour l'entraînement, la réentraînement et le réglage précis du LLM, ce qui apporte de la valeur aux clients ayant des exigences métier telles que le rendu en temps réel et l'inférence LLM.
NetApp® SnapMirror est une fonctionnalité ONTAP qui réplique les snapshots de volumes entre deux systèmes ONTAP. Cette fonctionnalité transfère de manière optimale les données de la périphérie vers votre data Center sur site ou dans le cloud. SnapMirror permet de déplacer des données efficacement et en toute sécurité entre les clouds des hyperscalers et sur site lorsque les clients souhaitent développer une IA générative dans des clouds avec RAG contenant des données d'entreprise. Il ne transfère efficacement que les modifications, ce qui permet d'économiser de la bande passante et d'accélérer la réplication, ce qui apporte des fonctionnalités essentielles de mobilité des données lors des opérations de formation, de réentraînement et de réglage précis des FMS ou des LLMS.
NetApp® SnapLock apporte une capacité de disque immuable sur les systèmes de stockage ONTAP pour la gestion des versions de Datasets. L'architecture des microcœurs est conçue pour protéger les données des clients à l'aide du moteur « zéro confiance » FPolicy™. NetApp garantit la disponibilité des données client en résistant aux attaques par déni de service (dos) lorsqu'un attaquant interagit avec un LLM de manière particulièrement consommatrice de ressources.
NetApp® Cloud Data Sense permet d'identifier, de cartographier et de classer les informations personnelles présentes dans les jeux de données d'entreprise, d'adopter des politiques, de répondre aux exigences de confidentialité sur site ou dans le cloud, d'améliorer la sécurité et de se conformer aux réglementations.
Classification NetApp® BlueXP™, optimisée par Cloud Data Sense. Les clients peuvent automatiquement analyser, analyser, catégoriser et agir sur les données dans l'intégralité de données, détecter les risques pour la sécurité, optimiser le stockage et accélérer les déploiements cloud. Cette solution combine les services de stockage et de données via son plan de contrôle unifié, et permet d'utiliser les instances GPU pour le calcul, ainsi que les environnements multiclouds hybrides pour le Tiering de stockage à froid, l'archivage et les sauvegardes.
NetApp Dualité fichier-objet. NetApp ONTAP permet un accès à double protocole pour NFS et S3. Avec cette solution, les clients peuvent accéder aux données NFS à partir des ordinateurs portables Amazon AWS SageMaker via des compartiments S3 de NetApp Cloud Volumes ONTAP. Les clients ont besoin d'un accès simplifié aux sources de données hétérogènes et de la possibilité de partager des données à partir de NFS et S3. Par exemple, affinage des modèles de génération de texte FMS tels que Llama 2 de Meta sur SageMaker avec accès aux compartiments fichier-objet.
Le service NetApp® Cloud Sync offre un moyen simple et sécurisé de migrer des données vers n'importe quelle cible, dans le cloud ou sur site. Cloud Sync transfère et synchronise de manière transparente les données entre le stockage sur site ou dans le cloud, le stockage NAS et les magasins d'objets.
NetApp XCP est un logiciel client qui permet des migrations de données any-to-NetApp et NetApp-to-NetApp rapides et fiables. XCP permet également de déplacer efficacement des données en bloc depuis des systèmes de fichiers Hadoop HDFS vers ONTAP NFS, S3 ou StorageGRID et l'analytique de fichiers XCP pour assurer une meilleure visibilité sur le système de fichiers.
NetApp® DataOps Toolkit est une bibliothèque Python qui permet aux data Scientists, aux équipes DevOps et aux ingénieurs de données d'effectuer facilement diverses tâches de gestion des données, telles que le provisionnement quasi instantané, le clonage ou la création de snapshots de volumes de données ou d'espaces de travail JupyterLab bénéficiant d'un stockage NetApp hautes performances à évolutivité horizontale.
Sécurité des produits NetApp. Les LLMS peuvent par inadvertance révéler des données confidentielles dans leurs réponses, ce qui constitue un problème pour les RSSI qui étudient les vulnérabilités associées aux applications d'IA exploitant les LLMS. Comme le souligne le projet OWASP (Open Worldwide application Security Project), les problèmes de sécurité tels que l'empoisonnement de données, la fuite de données, le déni de service et les injections rapides au sein des LLMS peuvent avoir un impact sur les entreprises, de l'exposition aux données à des accès non autorisés aux attaquants. Les exigences en matière de stockage des données doivent inclure des contrôles d'intégrité et des snapshots immuables pour les données structurées, semi-structurées et non structurées. Les copies Snapshot NetApp et SnapLock sont utilisées pour la gestion des versions des datasets. Elle inclut un contrôle d'accès basé sur des rôles (RBAC) strict, ainsi que des protocoles sécurisés et un chiffrement standard pour sécuriser les données au repos et en transit. Ensemble, Cloud Insights et Cloud Data Sense offrent des fonctionnalités qui vous aident à identifier la source de la menace d'un point de vue judiciaire et à hiérarchiser les données à restaurer.
ONTAP ai avec DGX BasePOD
L'architecture de référence NetApp® ONTAP® ai avec NVIDIA DGX BasePOD est une architecture évolutive pour les workloads de machine learning (ML) et d'intelligence artificielle (IA). Pour la phase d'entraînement critique des LLMS, les données sont généralement copiées à intervalles réguliers du stockage de données vers le cluster d'apprentissage. Les serveurs utilisés lors de cette phase ont recours à des GPU pour paralléliser les calculs, dont l'appétit en données est gigantesque. Il est essentiel de répondre aux besoins en bande passante d'E/S brute pour maintenir un taux élevé d'utilisation des GPU.
ONTAP ai avec NVIDIA ai Enterprise
NVIDIA ai Enterprise est une suite logicielle cloud complète d'IA et d'analytique de données optimisée, certifiée et prise en charge par NVIDIA pour s'exécuter sur VMware vSphere avec les systèmes NVIDIA certifiés. Ce logiciel facilite le déploiement, la gestion et l'évolutivité simples et rapides des workloads d'IA dans un environnement de cloud hybride moderne. La solution NVIDIA ai Enterprise, optimisée par NetApp et VMware, fournit un workload d'IA haute performance et une gestion des données dans un pack simplifié et familier.
1P plateformes cloud
Les offres de stockage cloud entièrement gérées sont disponibles de manière native sur Microsoft Azure en tant qu'Azure NetApp Files (ANF), sur AWS en tant qu'Amazon FSX pour NetApp ONTAP (FSX ONTAP) et sur Google Cloud NetApp volumes (GNCV). 1P est un système de fichiers géré haute performance qui permet aux clients d'exécuter des workloads d'IA hautement disponibles avec une meilleure sécurité des données dans les clouds publics. Il permet d'affiner les LLMS/FMS avec des plateformes de ML cloud natives comme AWS SageMaker, Azure-OpenAI Services et Google Vertex ai.
Suite de solutions partenaires NetApp
Outre ses produits, ses technologies et ses fonctionnalités de base pour les données, NetApp collabore étroitement avec un solide réseau de partenaires d'IA afin d'apporter une valeur ajoutée aux clients.
Les rails NVIDIA Guardrails dans les systèmes d'IA servent de protection pour assurer l'utilisation éthique et responsable des technologies d'IA. Les développeurs d'IA peuvent choisir de définir le comportement des applications LLM sur des sujets spécifiques et l'empêcher de s'engager dans des discussions sur des sujets indésirables. Guardrails, un kit d'outils open-source, permet de connecter un LLM à d'autres services de manière transparente et sécurisée pour créer des systèmes conversationnels LLM fiables, sûrs et sécurisés.
Domino Data Lab fournit des outils polyvalents, professionnels pour la construction et la production de Generative ai - rapide, sûr et économique, où que vous soyez dans votre parcours d'IA. Avec la plateforme Enterprise MLOps de Domino, les data Scientists peuvent utiliser les outils préférés et toutes leurs données, entraîner et déployer facilement des modèles en tout lieu et gérer les risques et les coûts de manière rentable, le tout à partir d'un seul centre de contrôle.
Modzy pour Edge ai. NetApp® et Modzy se sont associés pour fournir l'IA à grande échelle à tous les types de données, y compris les images, l'audio, le texte et les tableaux. Modzy est une plateforme MLOps pour le déploiement, l'intégration et l'exécution de modèles d'IA. Elle offre aux data Scientists des fonctionnalités de surveillance des modèles, de détection des écarts et d'explication, avec une solution intégrée pour l'inférence LLM transparente.
Run:ai et NetApp se sont associés pour démontrer les fonctionnalités uniques de la solution NetApp ONTAP ai avec la plateforme de gestion des clusters Run:ai afin de simplifier l'orchestration des workloads d'IA. Cette solution divise et joint automatiquement les ressources GPU, afin de faire évoluer vos pipelines de traitement de données vers des centaines de machines dotées de structures d'intégration intégrées pour Spark, Ray, Dask et Rapids.
Conclusion
L'IA générative ne peut produire des résultats efficaces que lorsque le modèle est entraîné sur des volumes de données de qualité. Bien que les LLMS aient atteint des jalons remarquables, il est essentiel de reconnaître ses limites, ses défis en matière de conception et les risques associés à la mobilité et à la qualité des données. Les LLMS s'appuient sur des datasets d'entraînement volumineux et disparates provenant de sources de données hétérogènes. Des résultats inexacts ou des résultats biaisés générés par les modèles peuvent mettre en péril à la fois les entreprises et les consommateurs. Ces risques peuvent correspondre à des contraintes pour les LLMS qui émergent potentiellement des défis liés à la gestion des données associés à la qualité, à la sécurité des données et à la mobilité des données. NetApp aide les entreprises à relever les défis liés à la croissance rapide des données, à la mobilité des données, à la gestion multicloud et à l'adoption de l'IA. L'utilisation d'une infrastructure d'IA à grande échelle et d'une gestion efficace des données sont essentielles à la réussite des applications d'IA telles que l'IA générative. Il est essentiel que nos clients couvrent tous les scénarios de déploiement sans compromettre la capacité à se développer en fonction des besoins de l'entreprise tout en contrôlant les coûts, la gouvernance des données et les pratiques éthiques liées à l'IA. NetApp travaille en permanence pour aider les clients à simplifier et à accélérer leurs déploiements d'IA.