Skip to main content
NetApp Solutions
Die deutsche Sprachversion wurde als Serviceleistung für Sie durch maschinelle Übersetzung erstellt. Bei eventuellen Unstimmigkeiten hat die englische Sprachversion Vorrang.

Lösungsüberblick

Beitragende

Dieser Abschnitt bietet eine Lösungsübersicht der Run:AI Lösung für ONTAP AI.

NetApp ONTAP AI und KI Control Plane

Die von NetApp und NVIDIA entwickelte und verifizierte NetApp ONTAP KI Architektur basiert auf NVIDIA DGX Systemen und Cloud-vernetzten NetApp Storage-Systemen. Diese Referenzarchitektur bietet IT-Abteilungen folgende Vorteile:

  • Sie vereinfacht das Design

  • Computing und Storage können unabhängig voneinander skaliert werden

  • Kunden können mit einer kleinen Konfiguration starten und nahtlos skalieren

  • Zahlreiche Storage-Optionen für diverse Performance- und Kostenpunkte werden angeboten

NetApp ONTAP AI integriert DGX-Systeme und NetApp AFF A800 Storage-Systeme nahtlos in hochmoderne Netzwerke. Mithilfe von NetApp ONTAP AI und DGX-Systemen können Komplexität und Unsicherheiten bei der Systemaufsetzung beseitigt werden, was den Einsatz von KI-Projekten vereinfacht. Kunden können mit einer kleinen Installation starten und ihre Systeme unterbrechungsfrei erweitern. Gleichzeitig erhalten sie intelligente Datenmanagement-Funktionen, mit denen sich Daten zwischen Datenaufnahme, zentraler Datenplattform und Cloud frei verschieben lassen.

NetApp AI Control Plane ist eine Daten- und Experimentmanagementlösung für Data Scientists und Data Engineers, eine Full-Stack-KI, ML und Deep Learning (DL). Beim zunehmenden Einsatz von KI sehen sich Unternehmen vielen Herausforderungen gegenüber, darunter Workload-Skalierbarkeit und Datenverfügbarkeit. NetApp AI Control Plane bewältigt diese Herausforderungen mithilfe von Funktionalitäten, z. B. dem schnellen Klonen eines Daten-Namespace wie bei einer Git-Revo, und dem Definieren und Implementieren von KI-Trainings-Workflows, die die nahezu sofortige Erstellung von Daten- und Modellbasiden für die Rückverfolgbarkeit und Versionierung umfassen. Mit der NetApp AI Control Plane können Sie Daten nahtlos über Standorte und Regionen hinweg replizieren und rasch Jupyter Notebook-Workspaces mit Zugriff auf riesige Datensätze bereitstellen.

Run:KI-Plattform zur Orchestrierung von KI-Workloads

Run:AI hat die weltweit erste Orchestrierungs- und Virtualisierungsplattform für KI-Infrastrukturen entwickelt. Durch Abstrahieren von Workloads von der zugrunde liegenden Hardware erzeugt Run:AI einen gemeinsamen Pool von GPU-Ressourcen, der dynamisch bereitgestellt werden kann. So wird eine effiziente Orchestrierung von KI-Workloads und eine optimierte Verwendung von GPUs ermöglicht. Data Scientists können reibungslos große Mengen von GPU-Leistung verbrauchen, um ihre Forschung zu verbessern und zu beschleunigen. Gleichzeitig behalten IT-Teams die zentrale, standortübergreifende Kontrolle und die Echtzeittransparenz bei der Ressourcenbereitstellung, Warteschlangen und Auslastung. Die Run:AI Plattform baut auf Kubernetes auf und ermöglicht dadurch eine einfache Integration in vorhandene IT- und Data-Science-Workflows.

Die Plattform Run:AI bietet folgende Vorteile:

  • Schnellere Innovationszeit. durch den Einsatz von Run:AI Ressourcen-Pooling, Warteschlangen und Priorisierungsmechanismen in Kombination mit einem NetApp Storage-System fallen Forscher weg vom Infrastrukturmanagement und können sich ausschließlich auf Data Science konzentrieren. Run:KI und NetApp Kunden steigern die Produktivität, indem sie genau so viele Workloads ohne Engpässe bei Computing oder Daten-Pipeline ausführen.

  • Höhere Teamproduktivität. Run:AI Fairness Algorithmen garantieren, dass alle Nutzer und Teams ihren gerechten Anteil an Ressourcen erhalten. Richtlinien für vorrangige Projekte können voreingestellt werden, und die Plattform ermöglicht die dynamische Zuweisung von Ressourcen von einem Benutzer oder Team zu einem anderen, so dass Benutzer rechtzeitig auf begehrte GPU-Ressourcen zugreifen können.

  • Verbesserte GPU-Auslastung. der Run:AI Scheduler ermöglicht Benutzern die einfache Verwendung von fraktionalen GPUs, ganzzahligen GPUs und mehreren GPUs für Distributed-Training auf Kubernetes. Auf diese Weise werden KI-Workloads basierend auf Ihren Anforderungen ausgeführt, nicht auf der Kapazität. Data-Science-Teams können mehr KI-Experimente in der gleichen Infrastruktur ausführen.