Die deutsche Sprachversion wurde als Serviceleistung für Sie durch maschinelle Übersetzung erstellt. Bei eventuellen Unstimmigkeiten hat die englische Sprachversion Vorrang.

Generativer KI- und NetApp-Nutzen

10/10/2024 Beitragende

PDFs

Die Nachfrage nach generativer künstlicher Intelligenz (KI) treibt branchenübergreifende Umwälzung voran und verbessert die Kreativität im Unternehmen sowie Produktinnovationen.

Autor: Sathisch Thyagarajan, NetApp

Zusammenfassung

Viele Unternehmen verwenden generative KI, um neue Produktfunktionen zu entwickeln, die Engineering-Produktivität zu verbessern und Prototypen von KI-gestützten Applikationen zu entwickeln, die bessere Ergebnisse und ein besseres Verbrauchererlebnis bieten. Generative KI wie Generative Pre-trained Transformers (GPT) nutzen neuronale Netzwerke, um neue Inhalte zu erstellen, die so vielfältig wie Text, Audio und Video sind. Angesichts der enormen Skalierbarkeit und der riesigen Datenmengen, die mit Large Language Models (LLMs) verbunden sind, ist es von entscheidender Bedeutung, eine robuste KI-Infrastruktur zu entwerfen, die von den überzeugenden Storage-Funktionen der On-Premises-, Hybrid- und Multi-Cloud-Implementierungsoptionen profitiert und die Risiken im Zusammenhang mit der Datenmobilität verringert. Datensicherung und Governance, bevor Unternehmen KI-Lösungen entwerfen können In diesem Whitepaper werden diese Überlegungen und die entsprechenden NetApp KI-Funktionen beschrieben, die nahtloses Datenmanagement und Verschieben von Daten in der gesamten KI-Datenpipeline ermöglichen, um generative KI-Modelle zu trainieren, neu zu trainieren, Feinabstimmungen und Inferenz zu ermöglichen.

Zusammenfassung

Erst kürzlich nach der Einführung von ChatGPT, einer Ausgründung von GPT-3 im November 2022, haben neue KI-Tools, die zur Erzeugung von Text, Code, Bild oder sogar therapeutischen Proteinen als Reaktion auf Benutzeransagen verwendet werden, beachtlichen Ruhm erlangt. Dies zeigt an, dass Benutzer eine Anfrage mit natürlicher Sprache stellen können und KI Text interpretiert und generiert, wie Nachrichtenartikel oder Produktbeschreibungen, die Benutzeranfragen widerspiegeln oder Code, Musik, Sprache, visuelle Effekte und 3D-Assets mithilfe von Algorithmen produzieren, die auf bereits vorhandene Daten geschult wurden. Daher entwickeln sich Phrasen wie Stable Diffusion, Halluzinationen, Prompt Engineering und Value Alignment im Design von KI-Systemen schnell. Diese selbstüberwachten oder semi-überwachten Machine Learning (ML)-Modelle werden als vortrainierte Foundation-Modelle (FM) über Cloud-Dienstleister und andere Anbieter von KI-Lösungen verbreitet, die von verschiedenen Unternehmen branchenübergreifend für eine Vielzahl nachgelagerter NLP-Aufgaben (Natural Language Processing) eingesetzt werden. Wie Marktforschungsunternehmen wie McKinsey behaupten: „Generative AI könnte der globalen Wirtschaft einen Mehrwert von Billionen Dollar verleihen.“ Während KI-Vordenk Unternehmen neu erfindet, um sich bei Menschen und FMS gleichzeitig um das zu erweitern, was Unternehmen und Institutionen mit generativer KI tun können, werden die Möglichkeiten zum Management enormer Datenmengen weiter steigen. In diesem Dokument werden einführende Informationen zu generativer KI und den Designkonzepten im Zusammenhang mit den Funktionen von NetApp vorgestellt, die NetApp-Kunden vor Ort sowie in Hybrid- und Multi-Cloud-Umgebungen einen Mehrwert bieten.

Welche Vorteile bietet es für Kunden, NetApp in ihren KI-Umgebungen zu nutzen?* NetApp unterstützt Unternehmen dabei, die Komplexität zu bewältigen, die durch das schnelle Wachstum der Daten und der Cloud, das Multi-Cloud-Management und die Einführung von Technologien der nächsten Generation wie KI entsteht. NetApp hat verschiedene Funktionen in intelligenter Datenmanagement-Software und Storage-Infrastruktur kombiniert, die mit High-Performance optimiert für KI-Workloads gut ausbalanciert sind. Generative KI-Lösungen wie LLMs müssen ihre Quelldatensätze aus dem Storage mehrmals in den Speicher lesen und verarbeiten, um intelligente Funktionen zu fördern. NetApp ist einer der führenden Anbieter von Technologien für Datenmobilität, Daten-Governance und Datensicherheit im gesamten Ecosystem vom Entstehungsort der Daten über das Rechenzentrum bis zur Cloud. Sie bietet Enterprise-Kunden bedarfsgerechte KI-Lösungen. NetApp unterstützt Chief Data Officers, KI-Ingenieure, Enterprise-Architekten und Data Scientists mit einem starken Partnernetzwerk bei der Entwicklung einer fließenden Datenpipeline für Datenvorbereitung, Datensicherung und strategische Datenmanagementaufgaben für KI-Modelltraining und -Inferenz zu optimieren und so die Performance und Skalierbarkeit des AI/ML-Lebenszyklus zu optimieren. NetApp-Datentechnologien und -Funktionen, wie NetApp® ONTAP AI® für die Deep-Learning-Daten-Pipeline, NetApp® SnapMirror® für den nahtlosen und effizienten Transport von Daten zwischen Storage-Endpunkten, und NetApp® FlexCache® für Echtzeit-Rendering Wenn der Datenfluss von Batch zu Echtzeit wechselt und Data Engineering zur schnellen Zeit stattfindet, bringt dies einen Mehrwert für die Bereitstellung von Echtzeit-generativen KI-Modellen. Mittlerweile setzen Unternehmen verschiedenster Branchen und Größen auf neue KI-Tools. Dabei stellen sie sich im gesamten Datacenter, im Edge-Bereich und in der Cloud mit dem Bedarf an skalierbaren, verantwortlichen und erklärbaren KI-Lösungen konfrontiert. Als Instanz für Datenmanagement in Hybrid-Cloud- und Multi-Cloud-Umgebungen hat sich NetApp dem Aufbau eines Netzwerks von Partnern und gemeinsamer Lösungen verschrieben. Diese Lösungen unterstützen alle Aspekte beim Aufbau einer Daten-Pipeline und von Data Lakes für das generative KI-Modelltraining (vor dem Training), Feinabstimmung, kontextbasierte Inferenz und das Monitoring von Modellzerfall von LMs.

Was ist Generative KI?

Generative KI verändert die Art und Weise, wie wir Inhalte erstellen, neue Designkonzepte generieren und neue Kompositionen erforschen. Es illustriert neuronale Netzwerk-Frameworks wie Generative Adversarial Network (GAN), Variational Autoencoder (VAE) und Generative Pre-trained Transformers (GPT), die neue Inhalte wie Text, Code, Bilder, Audio, Video, und synthetische Daten. Transformer-basierte Modelle wie OpenAI Chat-GPT, Googles Bard, umarmt Gesicht die BLÜTE, und Metas Lama haben sich als die grundlegende Technologie zugrunde gelegt viele Fortschritte in großen Sprachmodellen. Ebenso sind Dall-E von OpenAI, CM3leon von Meta und Imagen von Google Beispiele für Diffusionsmodelle von Text-zu-Bild, die dem Kunden ein beispielloses Maß an Fotorealismus bieten, um neue, komplexe Bilder von Grund auf neu zu erstellen oder bestehende Bilder zu bearbeiten, um hochwertige kontextbezogene Bilder mit Hilfe von Dataset Augmentation und Text-zu-Bild-Synthese zu erzeugen, die Text- und visuelle Semantik miteinander verbinden. Digitale Künstler beginnen, eine Kombination von Rendering-Technologien wie Nerf (Neural Radiance Field) mit generativer KI anzuwenden, um statische 2D-Bilder in immersive 3D-Szenen zu konvertieren. Im Allgemeinen zeichnen sich LLMs durch vier Parameter aus: (1) Größe des Modells (in der Regel in Milliarden von Parametern); (2) Größe des Trainingsdatensatzes; (3) Schulungskosten und (4) Modellleistung nach dem Training. LLMs fallen außerdem hauptsächlich in drei Transformatorarchitekturen. (i) nur Encoder-Modelle. Z. B. BERT (Google, 2018); (ii) Encoder-Decoder, z. B. BART (Meta, 2020) und (iii) Decoder-only-Modelle. Z. B. Llama (Meta, 2023), Palm-E (Google, 2023). Abhängig von der geschäftlichen Anforderung bestimmt ein Unternehmen unabhängig von der Architektur die Anzahl der Modellparameter (N) und die Anzahl der Token (D) im Trainingsdatensatz in der Regel die Grundkosten für Schulungen (Pre-Training) oder die Feinabstimmung eines LLM.

Enterprise-Anwendungsfälle und Downstream-NLP-Aufgaben

Unternehmen aus unterschiedlichen Branchen erschließen immer mehr Möglichkeiten, mit der KI neue Wertformen aus vorhandenen Daten für Geschäftsprozesse, Vertrieb, Marketing und juristische Dienstleistungen zu gewinnen und zu gewinnen. Laut IDC (International Data Corporation) ist das Wissensmanagement in der Softwareentwicklung und im Produktdesign am stärksten betroffen, gefolgt von der Erstellung von Storyline für das Marketing und der Codegenerierung für Entwickler. Im Gesundheitswesen beschreiten klinische Forschungseinrichtungen neue Wege in der Medizin. Vortrainierte Modelle wie ProteinBERT integrieren Gene Ontology (GO)-Anmerkungen, um schnell Proteinstrukturen für medizinische Medikamente zu entwerfen, was einen bedeutenden Meilenstein in der Arzneimittelforschung, Bioinformatik und Molekularbiologie darstellt. Biotech-Firmen haben menschliche Studien für generative KI-entdeckte Medizin initiiert, die Krankheiten wie Lungenfibrose (IPF) behandeln soll, eine Lungenerkrankung, die irreversible Narbenbildung des Lungengewebes verursacht.

Abbildung 1: Anwendungsfälle für generative KI

Die zunehmende Automatisierungsannahme durch generative KI verändert auch das Angebot und die Nachfrage nach Arbeitsaktivitäten in vielen Berufen. McKinsey erklärt, dass der US-Arbeitsmarkt (Diagramm unten) einen schnellen Wandel durchlaufen hat, der sich nur fortsetzen wird, wenn man die Auswirkungen von KI berücksichtigt.

Quelle: McKinsey & Company

Abbildung 2: Quelle: McKinsey Company

Rolle von Storage in generativer KI

LLMs basieren in erster Linie auf Deep Learning, GPUs und Computing-Ressourcen. Wenn sich jedoch der GPU-Puffer füllt, müssen die Daten schnell auf den Storage geschrieben werden. Während einige KI-Modelle klein genug sind, um im Speicher ausgeführt werden zu können, benötigen LLMs hohe IOPS und Storage mit hohem Durchsatz, um einen schnellen Zugriff auf große Datensätze zu ermöglichen, insbesondere wenn es um Milliarden von Token oder Millionen von Images geht. Für einen typischen GPU-Speicherbedarf eines LLM kann der für das Training eines Modells mit 1 Milliarde Parametern benötigte Speicher bis zu 80 GB @32-Bit-Genauigkeit betragen. In diesem Fall kann Meta Llama 2, eine Familie von LLMs im Maßstab von 7 Milliarden bis 70 Milliarden Parametern, 70x80, ca. erfordern 561.000 GB oder 5,6 TB GPU RAM. Darüber hinaus ist die benötigte Speichermenge direkt proportional zur maximalen Anzahl von Token, die Sie generieren möchten. Wenn Sie beispielsweise Ausgaben von bis zu 512 Token (ca. 380 Wörter) generieren möchten, benötigen Sie "512 MB". Es mag unbedeutend erscheinen – aber wenn Sie größere Stapel ausführen wollen, beginnt es sich zu summieren. Daher ist es für Unternehmen, die LLMs im Speicher Schulen oder optimieren, sehr teuer. Dadurch wird Storage zu einem Eckpfeiler für generative KI.

Drei primäre Ansätze für LLMs

Für die meisten Unternehmen kann der Ansatz zur Bereitstellung von LLMs anhand aktueller Trends in 3 grundlegende Szenarien zusammengefasst werden. Wie in einer aktuellen beschrieben "„Harvard Business Review“" Artikel: (1) Training (Pre-Training) ein LLM von Grund auf neu – teuer und erfordert KI/ML-Experten; (2) Feinabstimmung eines Fundamentalmodells mit Unternehmensdaten – komplex, aber machbar; (3) mithilfe von Retrieval-Augmented Generation (RAG) können Sie Dokumentdatenspeicher, APIs und Vektordatenbanken abfragen, die Unternehmensdaten enthalten. Jeder dieser Faktoren hat Kompromisse zwischen Aufwand, Iterationsgeschwindigkeit, Kosteneffizienz und Modellgenauigkeit bei ihren Implementierungen, die zur Lösung verschiedener Problemtypen eingesetzt werden (Diagramm unten).

Abbildung 3: Problemtypen

Basismodelle

Ein Basismodell (FM), auch als Basismodell bekannt, ist ein großes KI-Modell (LLM), das auf riesigen Mengen unmarkierter Daten trainiert wird, wobei Self-SuperVision im Maßstab verwendet wird und allgemein für eine Vielzahl nachgeschalteter NLP-Aufgaben angepasst ist. Da die Trainingsdaten nicht von Menschen gekennzeichnet sind, entsteht das Modell statt explizit kodiert zu werden. Das bedeutet, dass das Modell Geschichten oder eine eigene Erzählung generieren kann, ohne dafür explizit programmiert zu werden. Daher ist eine wichtige Eigenschaft von FM die Homogenisierung, was bedeutet, dass die gleiche Methode in vielen Bereichen verwendet wird. Mit Personalisierungs- und Feintuning-Techniken sind FMS, die in Produkte integriert werden, die heute erscheinen, nicht nur gut geeignet, Text, Text-zu-Bilder und Text-zu-Code zu generieren, sondern auch zur Erklärung domänenspezifischer Aufgaben oder zur Fehlerbehebung von Code. Zum Beispiel können FMS wie OpenAI Codex oder Meta Code Llama Code in mehreren Programmiersprachen generieren, basierend auf natürlichen Beschreibungen einer Programmieraufgabe. Diese Modelle verfügen über Kenntnisse in über ein Dutzend Programmiersprachen, darunter Python, C#, JavaScript, Perl, Ruby, und SQL Server. Sie verstehen die Absicht des Benutzers und generieren spezifischen Code, der die gewünschte Aufgabe erfüllt, die für die Softwareentwicklung, Codeoptimierung und Automatisierung von Programmieraufgaben nützlich ist.

Feinabstimmung, Domain-Spezifität und Umschulung

Eine der gängigen Vorgehensweisen bei der LLM-Bereitstellung nach Datenvorbereitung und Datenvorverarbeitung ist die Auswahl eines vortrainierten Modells, das für einen großen und vielfältigen Datensatz trainiert wurde. Im Rahmen der Feinabstimmung kann dies ein Open-Source-Modell für große Sprachen sein, wie z. B. "Meta's Llama 2" Trainiert auf 70 Milliarden Parameter und 2 Billionen Token. Sobald das vortrainierte Modell ausgewählt wurde, wird es im nächsten Schritt auf die domänenspezifischen Daten abgestimmt. Dazu müssen die Parameter des Modells angepasst und an den neuen Daten trainiert werden, um sich an eine bestimmte Domäne und Aufgabe anzupassen. Zum Beispiel BloombergGPT, ein proprietärer LLM, der für eine Vielzahl von Finanzdaten im Dienste der Finanzbranche geschult wurde. Domänenspezifische Modelle, die für eine bestimmte Aufgabe entwickelt und geschult wurden, haben in der Regel eine höhere Genauigkeit und Leistung innerhalb ihres Umfangs, jedoch eine geringe Übertragbarkeit über andere Aufgaben oder Domänen hinweg. Wenn sich das Geschäftsumfeld und die Daten über einen Zeitraum ändern, könnte die Vorhersagegenauigkeit des FM im Vergleich zur Leistung während der Tests sinken. Dies ist der Fall, wenn Umschulungen oder Feinabstimmung des Modells entscheidend wird. Das Modellumtraining in herkömmlichen KI/ML bezieht sich auf die Aktualisierung eines implementierten ML-Modells mit neuen Daten. Diese werden im Allgemeinen durchgeführt, um zwei Arten von Abweichungen zu beseitigen, die auftreten. (1) Konzeptabweichung – Wenn sich die Verbindung zwischen den Eingangsvariablen und den Zielvariablen im Laufe der Zeit ändert, da die Beschreibung dessen, was wir Änderungen vorhersagen wollen, das Modell ungenaue Vorhersagen erzeugen kann. (2) Datendrift – tritt auf, wenn sich die Eigenschaften der Eingabedaten ändern, z. B. Änderungen an Kundengewohnheiten oder -Verhalten im Laufe der Zeit und daher das Modell nicht in der Lage ist, auf solche Änderungen zu reagieren. In ähnlicher Weise gilt die Umschulung für FMS/LLMs, jedoch kann sie sehr viel teurer sein (in Millionen Dollar), daher nicht etwas, was die meisten Unternehmen in Betracht ziehen. Es wird derzeit aktiv erforscht und entwickelt sich immer noch im Bereich von LLMOps. Wenn also ein Modellabfall in fein abgestimmten FMS auftritt, können Unternehmen sich statt einer Umschulung erneut für eine Feinabstimmung entscheiden (wesentlich günstiger) mit einem neueren Datensatz. Nachfolgend sehen Sie ein Beispiel einer Preistabelle für Modelle von Azure-OpenAI Services. Kunden können für jede Aufgabenkategorie Modelle mit bestimmten Datensätzen feinabstimmen und evaluieren.

Quelle: Microsoft Azure

Schnelles Engineering und Inferenzierung

Prompt Engineering bezieht sich auf die effektiven Methoden zur Kommunikation mit LLMs zur Durchführung der gewünschten Aufgaben ohne Aktualisierung der Modellgewichte. So wichtig das KI-Modelltraining und die Feinabstimmung für NLP-Applikationen sind, so wichtig ist auch die Inferenz, wenn die trainierten Modelle auf Benutzeranfragen reagieren. Die Systemanforderungen für die Inferenz richten sich im Allgemeinen viel mehr auf die Lese-Performance des KI-Storage-Systems, das Daten von LLMs an die GPUs einspeist, da die IT Milliarden von gespeicherten Modellparametern zur optimalen Antwort verwenden muss.

LLMOps, Modellüberwachung und Vectorstores

Wie herkömmliche MLOps (Machine Learning) erfordern auch Large Language Model Operations (LLMOps) die Zusammenarbeit von Datenwissenschaftlern und DevOps-Ingenieuren mit Tools und Best Practices für das Management von LLMs in Produktionsumgebungen. Der Workflow und der Tech Stack für LLMs können jedoch auf verschiedene Weise variieren. LLM-Pipelines, die mithilfe von Frameworks wie LangChain string erstellt wurden, kombinieren mehrere LLM-API-Aufrufe zu externen Embedding-Endpunkten wie Vektorstores oder Vektordatenbanken. Die Verwendung eines einbettenden Endpunkts und eines Vektorspeichers für nachgeschaltete Konnektoren (wie bei einer Vektordatenbank) stellt eine bedeutende Entwicklung in der Datenspeicherung und beim Zugriff auf Daten dar. Im Gegensatz zu herkömmlichen ML-Modellen, die von Grund auf neu entwickelt werden, setzen LLMs häufig auf Transfer-Learning, da diese Modelle mit FMS beginnen, die mit neuen Daten optimiert werden, um die Leistung in einer spezifischeren Domäne zu verbessern. Daher ist es entscheidend, dass LLMOps die Funktionen des Risikomanagements und der Überwachung des Abfalls von Modellen bereitstellt.

Risiken und Ethik im Zeitalter der generativen KI

„ChatGPT – Es ist glatt, aber immer noch spioniert Unsinn.“– mit Tech Review. Garbage in-Garbage Out war schon immer die Herausforderung beim Computing. Der einzige Unterschied bei generativer KI besteht darin, dass sie den Müll äußerst glaubwürdig macht und zu ungenauen Ergebnissen führt. LLMs sind dazu geneigt, Fakten zu erfinden, die zu der Erzählung passen, die sie aufbauen. Daher müssen Unternehmen, die generative KI als großartige Chance ansehen, ihre Kosten mit KI-Äquivalenten zu senken, Deep Fälschungen effizient erkennen, Vorurteile reduzieren und Risiken reduzieren, um die Systeme ehrlich und ethisch korrekt zu halten. Eine frei fließende Datenpipeline mit einer robusten KI-Infrastruktur, die Datenmobilität, Datenqualität, Data Governance und Datensicherung über End-to-End-Verschlüsselung und KI-Guardrails unterstützt, ist bei der Entwicklung verantwortungsvoller und erklärbarer generativer KI-Modelle eminent.

Kundenszenario und NetApp

Abbildung 3: Arbeitsablauf Für Maschinelles Lernen/Große Sprachmodelle

Sind wir Training oder Feinabstimmung? die Frage, ob (a) ein LLM-Modell von Grund auf neu trainieren, ein vortrainiertes FM feinabstimmen oder mit RAG Daten aus Dokumenten-Repositories außerhalb eines Fundamentmodells abrufen und Eingabeaufforderungen erweitern soll, und (b) entweder durch die Nutzung von Open-Source-LLMs (z. B. Llama 2) oder proprietärer FMS (z. B. ChatGPT, Bard, AWS Bedrock) ist eine strategische Entscheidung für Unternehmen. Bei jedem Ansatz gibt es einen Kompromiss zwischen Kosteneffizienz, Datengravität, Betrieb, Modellgenauigkeit und Management von LLMs.

NetApp als Unternehmen nutzt KI intern in seiner Arbeitskultur und in seinem Ansatz für Produkt-Design und Engineering. Der autonome Ransomware-Schutz von NetApp zum Beispiel basiert auf KI und Machine Learning. Es ermöglicht eine frühzeitige Erkennung von Anomalien im Filesystem, um Bedrohungen zu erkennen, bevor sie den Betrieb beeinträchtigen. Zum anderen setzt NetApp prädiktive KI für seine Geschäftsabläufe ein, wie z. B. Vertriebs- und Inventarprognosen sowie Chatbots, um Kunden bei Support-Services für Callcenter-Produkte, technischen Daten, Garantieleistungen und Servicehandbüchern zu unterstützen. Drittens bietet NetApp mit Produkten und Lösungen für die KI-Datenpipeline und den ML/LLM-Workflow Mehrwert für Kunden, die prädiktive KI-Lösungen wie Bedarfsprognosen, medizinische Bildgebung, Stimmungsanalysen erstellen. und generative KI-Lösungen wie Gans für die Erkennung von Industriebildern in der Fertigungsindustrie und Anti-Geldwäsche und Betrugserkennung in Banken und Finanzdienstleistungen mit NetApp-Produkten und Funktionen wie NetApp® ONTAP AI®, NetApp® SnapMirror® und NetApp® FlexCache®.

NetApp Funktionen

Daten in generativen KI-Applikationen wie Chatbot, Code-Generierung, Bildgenerierung oder Genommodellausdruck können über das Edge-Ecosystem, das Private-Data-Center und das Hybrid-Multi-Cloud-Ecosystem verschoben und gemanagt werden. So kann ein Echtzeit-KI-bot, der einem Passagier hilft, sein Flugticket von einer Endbenutzer-App, die über APIs von vortrainierten Modellen wie ChatGPT zugänglich ist, auf die Business-Klasse aufzurüsten, diese Aufgabe nicht alleine erfüllen, da die Passagierinformationen nicht öffentlich im Internet verfügbar sind. Die API erfordert Zugriff auf die persönlichen Informationen und Ticketinformationen des Passagiers von der Fluggesellschaft, die in einem Hybrid- oder Multi-Cloud-Ökosystem existieren kann. Ein ähnliches Szenario könnte für Wissenschaftler gelten, die ein Arzneimittelmolekül und Patientendaten über eine Endbenutzeranwendung gemeinsam nutzen, die LLMs zur Durchführung klinischer Studien über die Arzneimittelforschung hinweg verwendet, an denen ein oder mehrere biomedizinische Forschungseinrichtungen beteiligt sind. Vertrauliche Daten, die an FMS oder LLMs weitergeleitet werden, können personenbezogene Daten, Finanzinformationen, Gesundheitsinformationen, biometrische Daten, Standortdaten, Kommunikationsdaten, Online-Verhalten und rechtliche Informationen. Bei Echtzeit-Rendering, prompter Ausführung und Edge-Inferenz werden Daten über Open-Source- oder proprietäre LLM-Modelle in ein Datacenter vor Ort oder auf Public-Cloud-Plattformen verschoben. In allen diesen Szenarien sind Datenmobilität und Datensicherung für den KI-Betrieb bei LLMs von entscheidender Bedeutung, die auf großen Trainingsdatensätzen und der Verschiebung dieser Daten basieren.

Abbildung 4: Generative AI – LLM-Daten-Pipeline

Abbildung 4: Generative KI-LLM-Datenpipeline

Das NetApp Portfolio an Storage-Infrastruktur-, Daten- und Cloud-Services basiert auf intelligenter Datenmanagement-Software.

Datenaufbereitung: Die erste Säule des LLM Tech Stacks ist weitgehend unberührt vom älteren traditionellen ML Stack. Die Datenaufbereitung in der KI-Pipeline ist erforderlich, um die Daten vor dem Training oder Feinabstimmung zu normalisieren und zu bereinigen. Dieser Schritt umfasst Konnektoren zur Aufnahme von Daten, ganz gleich, wo sie sich in einer Amazon S3 Tier oder in On-Premises-Storage-Systemen wie einem File-Store oder einem Objektspeicher wie NetApp StorageGRID befinden.

NetApp ONTAP ist die Basistechnologie, die die geschäftskritischen Storage-Lösungen von NetApp im Datacenter und in der Cloud unterstützt. ONTAP enthält verschiedene Datenmanagement- und -Sicherungsfunktionen und -Funktionen. Dazu zählen automatischer Ransomware-Schutz vor Cyberangriffen, integrierte Funktionen für die Datenübertragung und Storage-Effizienzfunktionen für eine Reihe von Architekturen – von On-Premises über Hybrid und Multi-Clouds in NAS, SAN bis hin zu Objekten und Software Defined Storage (SDS) bei LLM-Implementierungen.

NetApp® ONTAP AI® für das Deep-Learning-Modelltraining. NetApp® ONTAP® unterstützt NVIDIA GPU Direct Storage™ durch den Einsatz von NFS über RDMA für NetApp-Kunden mit ONTAP Storage-Cluster und NVIDIA DGX Compute Nodes . Es bietet eine kosteneffiziente Performance, mit der Datensätze aus dem Speicher mehrmals gelesen und verarbeitet werden können, um intelligente Funktionen zu fördern und den Zugriff auf LLMs zu Schulen, zu optimieren und zu skalieren.

NetApp® FlexCache® ist eine Remote-Caching-Funktion, die die Dateiverteilung vereinfacht und nur die aktiv gelesenen Daten zwischenspeichert. Dies kann für LLM-Schulungen, Umschulungen und Feinabstimmung nützlich sein und Kunden mit geschäftlichen Anforderungen wie Echtzeit-Rendering und LLM-Inferenz einen Mehrwert bieten.

NetApp® SnapMirror ist eine ONTAP Funktion, die Volume Snapshots zwischen zwei beliebigen ONTAP Systemen repliziert. Über diese Funktion können Sie Daten am Edge optimal in Ihr On-Premises-Datacenter oder in die Cloud übertragen. Mit SnapMirror können Daten sicher und effizient zwischen On-Premises- und Hyperscaler-Clouds verschoben werden, wenn Kunden generative KI in Clouds mit RAG-haltigen Unternehmensdaten entwickeln möchten. Es überträgt nur Änderungen effizient, spart Bandbreite und beschleunigt die Replikation, wodurch wichtige Funktionen für die Datenmobilität während des Trainings, der Umschulung und der Feinabstimmung von FMS oder LLMs zur Verfügung stehen.

NetApp® SnapLock bietet unveränderliche Festplattenfähigkeit auf ONTAP-basierten Storage-Systemen für Datensatz-Versionierung. Die Microcore-Architektur wurde zum Schutz von Kundendaten mit der FPolicy™ Zero Trust Engine entwickelt. NetApp stellt sicher, dass Kundendaten verfügbar sind, indem es Denial-of-Service (DoS)-Attacken widersetzt, wenn ein Angreifer auf besonders ressourcenintensive Weise mit einem LLM interagiert.

NetApp® Cloud Data Sense hilft bei der Identifizierung, Zuordnung und Klassifizierung von personenbezogenen Daten in Unternehmensdatensätzen, der Erleerung von Richtlinien, der Erfüllung von Datenschutzanforderungen vor Ort oder in der Cloud, der Verbesserung der Sicherheit und der Einhaltung von Vorschriften.

NetApp® BlueXP™-Klassifizierung auf Basis von Cloud Data Sense. Kunden können Daten über den gesamten Datenbestand hinweg automatisch scannen, analysieren, kategorisieren und darauf reagieren, Sicherheitsrisiken erkennen, den Storage optimieren und die Cloud-Implementierung beschleunigen. Die Plattform kombiniert Storage- und Datenservices über die einheitliche Managementplattform. Kunden können GPU-Instanzen für Rechenvorgänge und Hybrid-Multi-Cloud-Umgebungen für Cold-Storage Tiering sowie für Archive und Backups verwenden.

NetApp Datei-Objekt-Dualität. NetApp ONTAP ermöglicht dualen Protokollzugriff für NFS und S3. Mit dieser Lösung können Kunden über S3 Buckets von NetApp Cloud Volumes ONTAP auf NFS-Daten von Amazon AWS SageMaker Notebooks zugreifen. Dies bietet Unternehmen, die einfachen Zugriff auf heterogene Datenquellen benötigen und Daten von NFS und S3 teilen können. Zum Beispiel Feinabstimmung FMS wie Meta Llama 2 Text-Generation-Modelle auf SageMaker mit Zugriff auf Datei-Objekt-Buckets.

Der NetApp® Cloud Sync Service bietet eine einfache und sichere Möglichkeit, Daten auf jedes beliebige Ziel zu migrieren, in der Cloud oder lokal. Cloud Sync überträgt und synchronisiert Daten nahtlos zwischen On-Premises- oder Cloud-Storage, NAS und Objektspeichern.

NetApp XCP ist eine Client-Software, die schnelle und zuverlässige Datenmigrationen zwischen NetApp und NetApp ermöglicht. XCP bietet darüber hinaus die Möglichkeit, große Datenmengen effizient von Hadoop HDFS-Filesystemen in ONTAP NFS, S3 oder StorageGRID zu verschieben, und XCP-Dateianalysen bieten Einblicke in das Filesystem.

NetApp® DataOps Toolkit ist eine Python-Bibliothek, mit der Data Scientists, DevOps und Data Engineers verschiedene Datenmanagement-Aufgaben leicht ausführen können, z. B. Bereitstellung und Klonen nahezu ohne Verzögerung oder Erstellung von Snapshots von Daten-Volumes oder JupyterLab Workspace, die durch hochperformanten, horizontal skalierbaren NetApp-Storage unterstützt werden.

Produktsicherheit von NetApp. LLMs können in ihren Antworten versehentlich vertrauliche Daten offenlegen. Dies ist ein Problem für CISOs, die die Schwachstellen untersuchen, die mit KI-Anwendungen bei der Nutzung von LLMs verbunden sind. Wie OWASP (Open Worldwide Application Security Project) erläutert, können Sicherheitsprobleme wie Datenvergiftung, Datenlecks, Denial-of-Service und sofortige Injektionen innerhalb von LLMs Unternehmen davon abbringen, dass sie nicht autorisierten Zugriffen ausgesetzt sind. Zu den Storage-Anforderungen sollten Integritätsprüfungen und unveränderliche Snapshots für strukturierte, semi-strukturierte und unstrukturierte Daten gehören. NetApp Snapshots und SnapLock werden für die Datensatzversionierung verwendet. Sie bietet strenge rollenbasierte Zugriffssteuerung (RBAC) sowie sichere Protokolle und die branchenübliche Verschlüsselung für den Schutz von Daten im Ruhezustand und während der Übertragung. Cloud Insights und Cloud Data Sense bieten Ihnen gemeinsam Funktionen, mit denen Sie die Quelle der Bedrohung forensisch identifizieren und die wiederherzustellenden Daten priorisieren können.

ONTAP AI mit DGX BasePOD

Die NetApp ONTAP AI Referenzarchitektur mit NVIDIA DGX BasePOD ist eine skalierbare Architektur für ML- und KI-Workloads (Machine Learning). Für die kritische Trainingsphase von LLMs werden die Daten in regelmäßigen Abständen aus dem Datenspeicher in das Training-Cluster kopiert. Die Server, die in dieser Phase zum Einsatz kommen, verwenden GPUs, um Berechnungen parallel durchzuführen, wodurch eine enorme Datennachfrage entsteht. Um eine hohe GPU-Auslastung zu gewährleisten, ist es von entscheidender Bedeutung, die Bruttokapazitätsanforderungen zu erfüllen.

ONTAP AI mit NVIDIA AI Enterprise

NVIDIA AI Enterprise ist eine End-to-End-Suite mit Cloud-nativer KI- und Datenanalyse-Software, die von NVIDIA für die Ausführung auf VMware vSphere mit NVIDIA-zertifizierten Systemen optimiert, zertifiziert und unterstützt wird. Diese Software vereinfacht die einfache und schnelle Implementierung, das einfache Management und die Skalierung von KI-Workloads in modernen Hybrid-Cloud-Umgebungen. NVIDIA AI Enterprise mit NetApp und VMware bietet KI-Workload und Datenmanagement der Enterprise-Klasse in einem einfachen, vertrauten Paket.

1P Cloud-Plattformen

Vollständig gemanagte Cloud-Storage-Angebote sind nativ auf Microsoft Azure als Azure NetApp Files (ANF), auf AWS als Amazon FSX for NetApp ONTAP (FSX ONTAP) und auf Google als Google Cloud NetApp Volumes (GNCV) verfügbar. 1P ist ein gemanagtes, hochperformantes Dateisystem, mit dem Kunden hochverfügbare KI-Workloads mit verbesserter Datensicherheit in den Public Clouds ausführen können und LLMs/FMS mit Cloud-nativen ML-Plattformen wie AWS SageMaker, Azure-OpenAI Services und Vertex AI von Google optimieren können.

NetApp Partnerlösungssuite

Neben den Kernprodukten, -Technologien und -Funktionen arbeitet NetApp auch eng mit einem stabilen Netzwerk von KI-Partnern zusammen, um den Kunden einen Mehrwert zu bieten.

NVIDIA Guardrails in KI-Systemen dienen als Schutzmaßnahmen für den ethischen und verantwortungsvollen Einsatz von KI-Technologien. KI-Entwickler können das Verhalten von LLM-gestützten Anwendungen zu bestimmten Themen definieren und verhindern, dass sie sich an Diskussionen zu unerwünschten Themen beteiligen. Guardrails, ein Open-Source-Toolkit, bietet die Möglichkeit, einen LLM nahtlos und sicher mit anderen Diensten zu verbinden, um vertrauenswürdige, sichere und sichere LLM-Konversationssysteme aufzubauen.

Domino Data Lab bietet vielseitige Tools der Enterprise-Klasse für die Erstellung und Produktion Generative AI – schnell, sicher und wirtschaftlich, unabhängig davon, wo Sie sich in Ihrer KI-Reise befinden. Mit der Enterprise MLOps Platform von Domino können Data Scientists bevorzugte Tools und all ihre Daten verwenden, Modelle einfach überall trainieren und implementieren sowie Risiken und Kosten effizient managen – und das alles über ein einziges Kontrollzentrum.

Modzy für Edge AI. NetApp® und Modzy haben sich zusammengeschlossen, um KI in großem Umfang für jede Art von Daten bereitzustellen, einschließlich Bilder, Audio, Text und Tabellen. Modzy ist eine MLOps-Plattform für die Implementierung, Integration und Ausführung von KI-Modellen und bietet Data Scientists die Möglichkeit zur Modellüberwachung, Drifterkennung und Erklärbarkeit mit einer integrierten Lösung für nahtlose LLM-Inferenz.

Run:AI und NetApp haben gemeinsam die einzigartigen Funktionen der NetApp ONTAP AI-Lösung mit der Run:AI-Cluster-Managementplattform zur Vereinfachung der Orchestrierung von KI-Workloads demonstriert. Die Lösung trennt GPU-Ressourcen automatisch und fügt sie hinzu. So können Sie mit integrierten Integrations-Frameworks für Spark, Ray, Dask und Rapids Ihre Datenverarbeitungspipelines auf Hunderte von Maschinen skalieren.

Schlussfolgerung

Generative KI kann nur dann effektive Ergebnisse erzielen, wenn das Modell auf viele Qualitätsdaten trainiert wird. Auch wenn LLMs bemerkenswerte Meilensteine erreicht haben, ist es von entscheidender Bedeutung, die mit der Datenmobilität und Datenqualität verbundenen Einschränkungen, Designherausforderungen und Risiken zu erkennen. LLMs basieren auf großen, heterogenen Trainingsdatensätzen aus heterogenen Datenquellen. Ungenaue Ergebnisse oder voreingenommene Ergebnisse, die durch die Modelle generiert werden, können sowohl Unternehmen als auch Verbraucher in Gefahr bringen. Diese Risiken können den Einschränkungen für LLMs entsprechen, die möglicherweise aus den Herausforderungen des Datenmanagements im Zusammenhang mit Datenqualität, Datensicherheit und Datenmobilität entstehen. NetApp hilft Unternehmen, die Komplexität durch schnelles Datenwachstum, Datenmobilität, Multi-Cloud-Management und die Einführung von KI zu bewältigen. Eine skalierbare KI-Infrastruktur und ein effizientes Datenmanagement sind entscheidend für den Erfolg von KI-Applikationen wie generativer KI. Daher müssen Kunden alle Implementierungsszenarien abdecken, ohne dabei die Möglichkeit zu beeinträchtigen, im Zuge der Expansion weitere Möglichkeiten zu erhalten, und gleichzeitig die Kosteneffizienz, die Daten-Governance und die Kontrolle über ethische KI-Praktiken beibehalten. NetApp arbeitet kontinuierlich daran, Kunden bei der Vereinfachung und Beschleunigung ihrer KI-Implementierungen zu unterstützen.

Generativer KI- und NetApp-Nutzen

Creating your file...

Zusammenfassung

Zusammenfassung

Was ist Generative KI?

Enterprise-Anwendungsfälle und Downstream-NLP-Aufgaben

Rolle von Storage in generativer KI

Drei primäre Ansätze für LLMs

Basismodelle

Feinabstimmung, Domain-Spezifität und Umschulung

Schnelles Engineering und Inferenzierung

LLMOps, Modellüberwachung und Vectorstores

Risiken und Ethik im Zeitalter der generativen KI

Kundenszenario und NetApp

NetApp Funktionen

ONTAP AI mit DGX BasePOD

ONTAP AI mit NVIDIA AI Enterprise

1P Cloud-Plattformen

NetApp Partnerlösungssuite

Schlussfolgerung