Data-to-RAG-Schnellstart für AI Data Engine
Gehen Sie mit diesem Workflow von einem neu bereitgestellten AI Data Engine (AIDE) System zu einem funktionsfähigen Retrieval-Augmented Generation (RAG) Endpunkt. Verstehen Sie, wie Speicheradministratoren, Dateningenieure und Data Scientists mithilfe von ONTAP System Manager und AIDE Console zusammenarbeiten.
-
Sie haben Data compute nodes (DCNs) zum ONTAP Cluster installiert und hinzugefügt.
-
Sie haben die AI Data Engine software für Vektorisierung und Leitplanken installiert und lizenziert.
-
Sie haben "OpenID Connect (OIDC)" konfiguriert und Rollen für Administratoren, Dateningenieure und Datenwissenschaftler zugeordnet.
Datenumfang und Governance definierenAls Speicheradministrator oder Sicherheitsadministrator möchten Sie die Umgebung in AIDE Console und ONTAP System Manager vorbereiten:
-
"Erstellen Sie einen oder mehrere Arbeitsbereiche" from lokalen und entfernten Datenquellen.
-
"Klassifikatoren und Guardrail-Richtlinien konfigurieren" in der AIDE Console.
-
"Weisen Sie Dateningenieuren und Datenwissenschaftlern Zugriff auf die Workspaces zu".
Arbeitsbereichsmetadaten erkundenAls Data Engineer oder Data Scientist möchten Sie die Metadaten des Arbeitsbereichs mithilfe der AIDE Console untersuchen:
-
"Arbeitsbereichsmetadaten erkunden" um die verfügbaren Inhalte zu verstehen.
-
Definieren Sie eine oder mehrere logische Teilmengen von Daten, die RAG speisen sollen (zum Beispiel Supportartikel, Produkthandbücher oder anonymisierte klinische Notizen).
Erstellen und Veröffentlichen einer DatensammlungAls Data Engineer oder Data Scientist möchten Sie die ausgewählte Teilmenge in eine RAG-ready Sammlung umwandeln:
-
"Erstellen einer Datensammlung" aus dem Arbeitsbereich unter Verwendung ausgewählter Filter.
-
"Veröffentlichen Sie die Datensammlung" und überwachen Sie die Indizierung, bis sie den
ReadyZustand erreicht. -
Kopieren Sie die Retrieval-Endpunkt-URI für die ausgewählte Collection und stellen Sie sie den Data Scientists oder Anwendungsentwicklern zur Verfügung.
-
"Status der Datenerfassung und Vektor-Fußabdruck anzeigen" nach Bedarf.