Einrichtung einer GenAI Knowledge Base
Nachdem Sie die KI-Infrastruktur implementiert und die Datenquellen ermittelt haben, die Sie in Ihre Knowledge Base aus Ihren FSX für ONTAP-Datastores integrieren möchten, können Sie mithilfe der Workload-Factory eine Knowledge Base aufbauen. In diesem Schritt definieren Sie auch die Merkmale von KI und stellen den Gesprächseinstieg her.
Stellen Sie sicher, dass Ihre Umgebung den für Wissensdatenbanken entspricht"Anforderungen", bevor Sie fortfahren.
Wissensdatenbanken haben zwei Datenintegrationsmodalitäten - public Mode und Enterprise Mode.
- Öffentlicher Modus
-
Eine Wissensdatenbank kann verwendet werden, ohne Datenquellen aus Ihrem Unternehmen zu integrieren. In diesem Fall liefert eine mit der Wissensdatenbank integrierte Anwendung nur Ergebnisse aus öffentlich zugänglichen Informationen im Internet. Dies wird als „public Mode“-Integration bezeichnet.
- Enterprise-Modus
-
In den meisten Fällen möchten Sie Datenquellen aus Ihrem Unternehmen in die Wissensdatenbank integrieren. Dies wird als Enterprise Mode Integration bezeichnet, da es Wissen aus Ihrem Unternehmen liefert.
Datenquellen Ihres Unternehmens können personenbezogene Daten enthalten. Um diese sensiblen Informationen zu schützen, können Sie Data Guardrails beim Erstellen und Konfigurieren von Wissensdatenbanken aktivieren. Data Guardrails, powered by BlueXP -Klassifizierung, identifiziert und maskiert PII, so dass sie nicht zugänglich und nicht abrufbar sind.
BlueXP Workload Factory für GenAI maskiert keine sensiblen persönlichen Informationen (SPii). Weitere Informationen zu diesem Datentyp finden Sie unter"Arten sensibler personenbezogener Daten". Datenguardrails können jederzeit aktiviert oder deaktiviert werden. Wenn Sie die Data Guardrails-Enablement wechseln, scannt Workload Factory die gesamte Wissensdatenbank von Grund auf, was Kosten nach sich zieht.
Erstellen und Konfigurieren der Wissensdatenbank
Die Wissensdatenbank definiert Eigenschaften wie die Bedrock-KI-Modelle und das Embedding-Format, mit denen Sie Ihre Wissensdatenbank erstellen möchten.
-
Melden Sie sich bei Workload Factory mit einem der "Konsolenerfahrungen"an.
-
Wählen Sie in der Kachel AI-Workloads Deploy & manage aus.
-
Wählen Sie auf der Registerkarte Wissensdatenbanken und -Anschlüsse das Dropdown Neu erstellen aus und wählen Sie NetApp GenAI Wissensdatenbank für Bedrock.
-
Konfigurieren Sie auf der Seite „Define Knowledge Base“ die Knowledge Base-Einstellungen:
-
Name: Geben Sie den Namen ein, den Sie für die Wissensdatenbank verwenden möchten.
-
Beschreibung: Geben Sie eine detaillierte Beschreibung für die Wissensdatenbank ein.
-
Einbettungsmodell: Das Einbettungsmodell definiert, wie Ihre Daten in Vektoreinbettungen für die Wissensdatenbank umgewandelt werden. Workload Factory unterstützt die folgenden Modelle:
-
Titan-Einbauteile G1 - Text
-
Titan Einbettung Text v2
-
Titan Multimodal Embeddings G1
-
Englisch Einbetten
-
Mehrsprachig Einbetten
Beachten Sie, dass Sie das Einbettungsmodell von Amazon Bedrock bereits aktiviert haben müssen.
-
-
Chat-Modell: Wählen Sie aus verschiedenen Chat-Modellen, die in Amazon Bedrock integriert sind. Beachten Sie, dass Sie das Chatmodell von Amazon Bedrock bereits aktiviert haben müssen.
-
Neuranking: Aktivieren oder deaktivieren Sie das Neuranking, um die Relevanz und Qualität der Abfrageergebnisse zu verbessern. Wählen Sie ein Standard-Chat-Modell oder ein spezielles Reranking-Modell für das Neuranking. Reranking-Modelloptionen werden nur angezeigt, wenn sie in Ihrer Region verfügbar sind.
-
Data Guardrails: Wählen Sie aus, ob Sie Data Guardrails aktivieren oder deaktivieren möchten. "Mit BlueXP Klassifizierung als Basis für Daten-Guardrails lernen".
Die folgenden Voraussetzungen müssen erfüllt sein, um die Data Guardrails zu aktivieren.
-
Für die Kommunikation mit der BlueXP -Klassifizierung ist ein Servicekonto erforderlich. Sie müssen die Rolle „Organisation admin“ auf Ihrem BlueXP -Mandantenkonto haben, um Servicekonten erstellen zu können. Ein Mitglied mit der Rolle „Organisationsadministrator“ kann alle Aktionen in BlueXP ausführen. "Erfahren Sie, wie Sie einem Mitglied in BlueXP eine Rolle hinzufügen"
-
Die KI-Engine muss Zugriff auf die haben"BlueXP -API-Endpunkt".
-
Sie müssen die folgenden Schritte ausführen, wie in beschrieben"Dokumentation der BlueXP Klassifizierung":
-
BlueXP Connector erstellen
-
Stellen Sie sicher, dass Ihre Umgebung die Voraussetzungen erfüllt
-
Implementieren Sie die BlueXP Klassifizierung
-
-
Die Datenguardrails-Funktion wird bei der Aufnahme strukturierter Datendateien wie CSV, JSON, JSONP oder Parkett nicht unterstützt. -
-
Gesprächseinstieg: Wählen Sie aus, ob Sie bis zu vier Gesprächseinstiegstelefonate bereitstellen möchten, die Benutzern angezeigt werden, die mit einem Chatbot interagieren, der diese Wissensdatenbank nutzt. Wir empfehlen, diese Einstellung zu aktivieren.
Wenn Sie Gesprächseinstieg aktivieren, ist standardmäßig der automatische Modus ausgewählt. Der „manuelle Modus“ kann erst aktiviert werden, nachdem Sie Datenquellen zu Ihrer Wissensdatenbank hinzugefügt haben. "Erfahren Sie, wie Sie die Einstellungen der Wissensdatenbank ändern".
-
FSX für ONTAP Dateisystem: Wenn Sie eine neue Wissensdatenbank definieren, erstellt Workload Factory ein neues Amazon FSX für NetApp ONTAP Volumen, um es zu speichern. Wählen Sie einen vorhandenen Filesystem-Namen und eine SVM (auch Storage-VM genannt) aus, auf der das neue Volume erstellt werden soll.
-
Snapshot-Richtlinie: Wählen Sie eine Snapshot-Richtlinie aus der Liste der vorhandenen Richtlinien aus, die im werkseitigen Lagerbestand des Workloads definiert sind. Wiederkehrende Snapshots der Wissensdatenbank werden automatisch in einer Frequenz erstellt, die auf der von Ihnen ausgewählten Snapshot-Richtlinie basiert.
-
S3-Bucket: Wenn die Abfrageergebnisse des Chatbots strukturierte Daten enthalten, kann GenAI die Ergebnisse in einem S3-Bucket speichern. Um diese Funktion zu verwenden, aktivieren Sie die Einstellung S3-Bucket aktivieren und wählen Sie aus der Liste einen S3-Bucket aus, der mit Ihrem Konto verknüpft ist. Wenn diese Ergebnisse in einem S3-Bucket gespeichert sind, können Sie sie über den Download-Link innerhalb der Chat-Sitzung herunterladen.
Wenn die benötigte Snapshot-Richtlinie nicht vorhanden ist, können Sie "Erstellen einer Snapshot-Richtlinie" auf der Storage-VM, die das Volume enthält, arbeiten.
-
Wählen Sie Create Knowledge Base, um die Wissensdatenbank zu GenAI hinzuzufügen.
Während der Erstellung der Wissensdatenbank wird ein Fortschrittsindikator angezeigt.
Nachdem die Wissensdatenbank erstellt wurde, haben Sie die Möglichkeit, eine Datenquelle zu Ihrer neuen Wissensdatenbank hinzuzufügen oder den Prozess zu beenden, ohne eine Datenquelle hinzuzufügen. Wir empfehlen Ihnen, Add Data source auszuwählen und jetzt eine oder mehrere Datenquellen hinzuzufügen.
Fügen Sie der Wissensdatenbank Datenquellen hinzu
Sie können eine oder mehrere Datenquellen hinzufügen, um die Wissensdatenbank mit den Daten Ihres Unternehmens zu füllen.
Die maximale Anzahl unterstützter Datenquellen beträgt 10.
-
Nachdem Sie Datenquelle hinzufügen ausgewählt haben, wählen Sie den Typ der Datenquelle aus, die Sie hinzufügen möchten:
-
FSx für ONTAP-Dateisystem hinzufügen (Dateien aus einem vorhandenen FSx für ONTAP-Volume verwenden)
-
Dateisystem hinzufügen (Dateien aus einer generischen SMB- oder NFS-Freigabe verwenden)
-
-
Wählen Sie ein Dateisystem: Wählen Sie das FSX für ONTAP Dateisystem, in dem sich Ihre Datenquelldateien befinden, und wählen Sie Weiter.
-
Wählen Sie ein Volume: Wählen Sie das Volume aus, auf dem sich Ihre Quelldateien befinden, und wählen Sie Weiter.
Bei der Auswahl der mit dem SMB-Protokoll gespeicherten Dateien müssen Sie die Active Directory-Informationen eingeben, einschließlich Domäne, IP-Adresse, Benutzername und Passwort.
-
Wählen Sie eine Datenquelle: Wählen Sie den Speicherort der Datenquelle basierend darauf, wo Sie die Dateien gespeichert haben. Dies kann ein ganzes Volume sein, oder nur ein bestimmter Ordner oder Unterordner im Volume, und wählen Sie Weiter.
-
Konfigurationen: Konfigurieren Sie, wie die Datenquelle Informationen aus Ihren Dateien einliest und welche Dateien sie in Scans enthält:
-
Datenquelle definieren: Definieren Sie im Abschnitt Chunking-Strategie, wie die GenAI-Engine den Inhalt der Datenquelle in Blöcke teilt, wenn die Datenquelle in eine Wissensdatenbank integriert ist. Sie können eine der folgenden Strategien wählen:
-
Multi-Sentence Chunking: Organisiert Informationen aus Ihrer Datenquelle in Satzbausteine. Sie können festlegen, wie viele Sätze jedes Stück ausmachen (bis zu 100).
-
Überlappendes Chunking: Organisiert Informationen aus Ihrer Datenquelle in zeichendefinierte Blöcke, die benachbarte Blöcke überlappen können. Sie können die Größe jedes Chunk in Zeichen auswählen und festlegen, wie viel sich jeder Chunk mit benachbarten Chunks überschneidet. Sie können eine Chunk-Größe von 50 bis 3000 Zeichen und einen Überlappungsprozentsatz von 1 bis 99 % konfigurieren.
Die Auswahl eines hohen Prozentsatzes für Überschneidungen kann den Speicherbedarf erheblich erhöhen, da die Abrufgenauigkeit nur geringfügig verbessert wird.
-
-
Dateifilterung: Konfigurieren Sie, welche Dateien in Scans enthalten sind:
-
Wählen Sie im Abschnitt Unterstützung für Dateitypen entweder alle Dateitypen aus oder wählen Sie einzelne Dateitypen aus, um sie in die Datenquellprüfungen einzubeziehen.
Wenn Sie Bilder oder PDF-Dateien einfügen, analysiert BlueXP Workload Factory for GenAI Text in den Bildern (einschließlich Bilder in PDF-Dokumenten) und verursacht dadurch höhere Kosten.
Beim Einbeziehen von Textdaten aus Bildern ist GenAI nicht in der Lage, personenbezogene Daten (PII) aus dem Bild zu maskieren, wenn die gescannten Textdaten aus Ihrer Umgebung an AWS gesendet werden. Sobald die Daten jedoch gespeichert sind, werden alle PII in der GenAI-Datenbank maskiert.
-
Ihre Wahl, Bilddateien in Scans aufzunehmen, hängt mit dem Chatmodell der Wissensdatenbank zusammen. Wenn Sie Bilddateien in Scans aufnehmen, muss das Chatmodell Bilder unterstützen. Wenn hier Bilddateitypen ausgewählt sind, können Sie die Wissensdatenbank nicht auf ein Chatmodell umschalten, das keine Bilddateien unterstützt. -
Wählen Sie im Abschnitt Dateiänderungszeitfilter die Option, die Aufnahme von Dateien basierend auf ihrer Änderungszeit zu aktivieren oder zu deaktivieren. Wenn Sie die Zeitfilterung für die Änderung aktivieren, wählen Sie einen Datumsbereich aus der Liste aus.
Wenn Sie Dateien auf Basis eines Änderungsdatums einbeziehen, werden die Dateien aus dem periodischen Scan ausgeschlossen, und die Datenquelle enthält diese Dateien nicht, sobald der Datumsbereich nicht erfüllt ist (die Dateien wurden nicht innerhalb des von Ihnen angegebenen Datumsbereichs geändert).
-
-
Im Abschnitt permission aware, der nur verfügbar ist, wenn sich die von Ihnen ausgewählte Datenquelle auf einem Volume befindet, das das SMB-Protokoll verwendet, können Sie permission-aware Antworten aktivieren oder deaktivieren:
-
Enabled: Benutzer des Chatbot, die auf diese Wissensdatenbank zugreifen, erhalten nur Antworten auf Abfragen aus Datenquellen, auf die sie zugreifen können.
-
Disabled: Benutzer des Chatbot erhalten Antworten über Inhalte aus allen integrierten Datenquellen.
-
-
Wählen Sie Hinzufügen, um diese Datenquelle zu Ihrer Wissensdatenbank hinzuzufügen.
-
Wählen Sie ein Dateisystem: Geben Sie die IP-Adresse oder den FQDN für den Dateisystem-Host ein, auf dem sich Ihre Datenquelldateien befinden, wählen Sie das NFS-Protokoll für die Netzwerkfreigabe und klicken Sie auf Weiter.
-
Wählen Sie eine Datenquelle: Wählen Sie den Speicherort der Datenquelle basierend darauf, wo Sie die Dateien gespeichert haben. Dies kann ein ganzes Volume sein, oder nur ein bestimmter Ordner oder Unterordner im Volume, und wählen Sie Weiter.
In manchen Fällen müssen Sie den NFS-Exportnamen manuell eingeben und „Verzeichnisse abrufen“ auswählen, um die verfügbaren Verzeichnisse anzuzeigen. Sie können den gesamten Export oder nur bestimmte Ordner auswählen. -
Konfigurationen: Konfigurieren Sie, wie die Datenquelle Informationen aus Ihren Dateien einliest und welche Dateien sie in Scans enthält:
-
Datenquelle definieren: Definieren Sie im Abschnitt Chunking-Strategie, wie die GenAI-Engine den Inhalt der Datenquelle in Blöcke teilt, wenn die Datenquelle in eine Wissensdatenbank integriert ist. Sie können eine der folgenden Strategien wählen:
-
Multi-Sentence Chunking: Organisiert Informationen aus Ihrer Datenquelle in Satzbausteine. Sie können festlegen, wie viele Sätze jedes Stück ausmachen (bis zu 100).
-
Überlappendes Chunking: Organisiert Informationen aus Ihrer Datenquelle in zeichendefinierte Blöcke, die benachbarte Blöcke überlappen können. Sie können die Größe jedes Chunk in Zeichen auswählen und festlegen, wie viel sich jeder Chunk mit benachbarten Chunks überschneidet. Sie können eine Chunk-Größe von 50 bis 3000 Zeichen und einen Überlappungsprozentsatz von 1 bis 99 % konfigurieren.
Die Auswahl eines hohen Prozentsatzes für Überschneidungen kann den Speicherbedarf erheblich erhöhen, da die Abrufgenauigkeit nur geringfügig verbessert wird.
-
-
Dateifilterung: Konfigurieren Sie, welche Dateien in Scans enthalten sind:
-
Wählen Sie im Abschnitt Unterstützung für Dateitypen entweder alle Dateitypen aus oder wählen Sie einzelne Dateitypen aus, um sie in die Datenquellprüfungen einzubeziehen.
Wenn Sie Bilder oder PDF-Dateien einfügen, analysiert BlueXP Workload Factory for GenAI Text in den Bildern (einschließlich Bilder in PDF-Dokumenten) und verursacht dadurch höhere Kosten.
Beim Einbeziehen von Textdaten aus Bildern ist GenAI nicht in der Lage, personenbezogene Daten (PII) aus dem Bild zu maskieren, wenn die gescannten Textdaten aus Ihrer Umgebung an AWS gesendet werden. Sobald die Daten jedoch gespeichert sind, werden alle PII in der GenAI-Datenbank maskiert.
-
Ihre Wahl, Bilddateien in Scans aufzunehmen, hängt mit dem Chatmodell der Wissensdatenbank zusammen. Wenn Sie Bilddateien in Scans aufnehmen, muss das Chatmodell Bilder unterstützen. Wenn hier Bilddateitypen ausgewählt sind, können Sie die Wissensdatenbank nicht auf ein Chatmodell umschalten, das keine Bilddateien unterstützt. -
Wählen Sie im Abschnitt Dateiänderungszeitfilter die Option, die Aufnahme von Dateien basierend auf ihrer Änderungszeit zu aktivieren oder zu deaktivieren. Wenn Sie die Zeitfilterung für die Änderung aktivieren, wählen Sie einen Datumsbereich aus der Liste aus.
Wenn Sie Dateien auf Basis eines Änderungsdatums einbeziehen, werden die Dateien aus dem periodischen Scan ausgeschlossen, und die Datenquelle enthält diese Dateien nicht, sobald der Datumsbereich nicht erfüllt ist (die Dateien wurden nicht innerhalb des von Ihnen angegebenen Datumsbereichs geändert).
-
-
Wählen Sie Datenquelle hinzufügen, um diese Datenquelle zu Ihrer Wissensdatenbank hinzuzufügen.
-
Dateisystem auswählen:
-
Geben Sie die IP-Adresse oder den FQDN für den Dateisystem-Host ein, auf dem sich Ihre Datenquelldateien befinden.
-
Wählen Sie das SMB-Protokoll für die Netzwerkfreigabe.
-
Geben Sie die Active Directory-Informationen ein, darunter Domäne, IP-Adresse, Benutzername und Kennwort.
-
Wählen Sie Weiter.
-
-
Wählen Sie eine Datenquelle: Wählen Sie den Speicherort der Datenquelle basierend darauf, wo Sie die Dateien gespeichert haben. Dies kann ein ganzes Volume sein, oder nur ein bestimmter Ordner oder Unterordner im Volume, und wählen Sie Weiter.
In manchen Fällen müssen Sie den Namen der SMB-Freigabe manuell eingeben und „Verzeichnisse abrufen“ auswählen, um die verfügbaren Verzeichnisse anzuzeigen. Sie können die gesamte Freigabe oder nur bestimmte Ordner darin auswählen. -
Konfigurationen: Konfigurieren Sie, wie die Datenquelle Informationen aus Ihren Dateien einliest und welche Dateien sie in Scans enthält:
-
Datenquelle definieren: Definieren Sie im Abschnitt Chunking-Strategie, wie die GenAI-Engine den Inhalt der Datenquelle in Blöcke teilt, wenn die Datenquelle in eine Wissensdatenbank integriert ist. Sie können eine der folgenden Strategien wählen:
-
Multi-Sentence Chunking: Organisiert Informationen aus Ihrer Datenquelle in Satzbausteine. Sie können festlegen, wie viele Sätze jedes Stück ausmachen (bis zu 100).
-
Überlappendes Chunking: Organisiert Informationen aus Ihrer Datenquelle in zeichendefinierte Blöcke, die benachbarte Blöcke überlappen können. Sie können die Größe jedes Chunk in Zeichen auswählen und festlegen, wie viel sich jeder Chunk mit benachbarten Chunks überschneidet. Sie können eine Chunk-Größe von 50 bis 3000 Zeichen und einen Überlappungsprozentsatz von 1 bis 99 % konfigurieren.
Die Auswahl eines hohen Prozentsatzes für Überschneidungen kann den Speicherbedarf erheblich erhöhen, da die Abrufgenauigkeit nur geringfügig verbessert wird.
-
-
Berechtigungsbewusst: Aktivieren oder deaktivieren Sie berechtigungsbewusste Antworten:
-
Enabled: Benutzer des Chatbot, die auf diese Wissensdatenbank zugreifen, erhalten nur Antworten auf Abfragen aus Datenquellen, auf die sie zugreifen können.
-
Disabled: Benutzer des Chatbot erhalten Antworten über Inhalte aus allen integrierten Datenquellen.
-
-
Dateifilterung: Konfigurieren Sie, welche Dateien in Scans enthalten sind:
-
Wählen Sie im Abschnitt Unterstützung für Dateitypen entweder alle Dateitypen aus oder wählen Sie einzelne Dateitypen aus, um sie in die Datenquellprüfungen einzubeziehen.
Wenn Sie Bilder oder PDF-Dateien einfügen, analysiert BlueXP Workload Factory for GenAI Text in den Bildern (einschließlich Bilder in PDF-Dokumenten) und verursacht dadurch höhere Kosten.
Beim Einbeziehen von Textdaten aus Bildern ist GenAI nicht in der Lage, personenbezogene Daten (PII) aus dem Bild zu maskieren, wenn die gescannten Textdaten aus Ihrer Umgebung an AWS gesendet werden. Sobald die Daten jedoch gespeichert sind, werden alle PII in der GenAI-Datenbank maskiert.
-
Ihre Wahl, Bilddateien in Scans aufzunehmen, hängt mit dem Chatmodell der Wissensdatenbank zusammen. Wenn Sie Bilddateien in Scans aufnehmen, muss das Chatmodell Bilder unterstützen. Wenn hier Bilddateitypen ausgewählt sind, können Sie die Wissensdatenbank nicht auf ein Chatmodell umschalten, das keine Bilddateien unterstützt. -
Wählen Sie im Abschnitt Dateiänderungszeitfilter die Option, die Aufnahme von Dateien basierend auf ihrer Änderungszeit zu aktivieren oder zu deaktivieren. Wenn Sie die Zeitfilterung für die Änderung aktivieren, wählen Sie einen Datumsbereich aus der Liste aus.
Wenn Sie Dateien auf Basis eines Änderungsdatums einbeziehen, werden die Dateien aus dem periodischen Scan ausgeschlossen, und die Datenquelle enthält diese Dateien nicht, sobald der Datumsbereich nicht erfüllt ist (die Dateien wurden nicht innerhalb des von Ihnen angegebenen Datumsbereichs geändert).
-
-
Wählen Sie Datenquelle hinzufügen, um diese Datenquelle zu Ihrer Wissensdatenbank hinzuzufügen.
Die Datenquelle wird in Ihre Wissensdatenbank eingebettet. Der Status ändert sich von „Einbetten“ in „eingebettet“, wenn die Datenquelle vollständig eingebettet ist.
Nachdem Sie der Wissensdatenbank eine einzelne Datenquelle hinzugefügt haben, können Sie diese lokal im Chatbot-Simulator testen und alle erforderlichen Änderungen vornehmen, bevor Sie den Chatbot Ihren Benutzern zur Verfügung stellen. Sie können die gleichen Schritte ausführen, um der Wissensdatenbank zusätzliche Datenquellen hinzuzufügen.