Domande frequenti sulla classificazione dei dati NetApp
Questa sezione FAQ può aiutarti se stai cercando una risposta rapida a una domanda.
Classificazione dei dati NetApp
Le seguenti domande forniscono una comprensione generale della classificazione dei dati.
Come funziona la classificazione dei dati?
La classificazione dei dati implementa un ulteriore livello di intelligenza artificiale insieme al sistema NetApp Console e ai sistemi di storage. Quindi esegue la scansione dei dati su volumi, bucket, database e altri account di archiviazione e indicizza le informazioni sui dati trovate. La classificazione dei dati sfrutta sia l'intelligenza artificiale che l'elaborazione del linguaggio naturale, a differenza delle soluzioni alternative che si basano comunemente su espressioni regolari e pattern matching.
La classificazione dei dati utilizza l'intelligenza artificiale per fornire una comprensione contestuale dei dati, consentendo un rilevamento e una classificazione accurati. È basato sull'intelligenza artificiale perché è progettato per i moderni tipi di dati e per la scalabilità. Comprende inoltre il contesto dei dati per fornire una scoperta e una classificazione solide e accurate.
Data Classification dispone di un'API REST e funziona con strumenti di terze parti?
Sì, Data Classification dispone di un'API REST per le funzionalità supportate nella versione Data Classification che fa parte della piattaforma core della Console. Vedere "Documentazione API" .
La classificazione dei dati è disponibile tramite i marketplace cloud?
La classificazione dei dati fa parte delle funzionalità principali della console NetApp , quindi non è necessario utilizzare i marketplace per questo servizio.
Scansione e analisi della classificazione dei dati
Le seguenti domande riguardano le prestazioni di scansione e l'analisi della classificazione dei dati.
Con quale frequenza Data Classification analizza i miei dati?
Sebbene la scansione iniziale dei dati possa richiedere un po' di tempo, le scansioni successive esaminano solo le modifiche incrementali, riducendo così i tempi di scansione del sistema. La classificazione dei dati analizza i dati in modo continuo e ciclico, sei repository alla volta, in modo che tutti i dati modificati vengano classificati molto rapidamente.
La classificazione dei dati analizza i database solo una volta al giorno; i database non vengono analizzati continuamente come altre fonti di dati.
Le scansioni dei dati hanno un impatto trascurabile sui sistemi di archiviazione e sui dati.
Le prestazioni della scansione variano?
Le prestazioni della scansione possono variare in base alla larghezza di banda della rete e alla dimensione media dei file nel tuo ambiente. Può dipendere anche dalle caratteristiche dimensionali del sistema host (nel cloud o in locale). Vedere "L'istanza di classificazione dei dati" E "Distribuzione della classificazione dei dati" per maggiori informazioni.
Quando si aggiungono inizialmente nuove fonti di dati, è anche possibile scegliere di eseguire solo una scansione di "mappatura" (Solo mappatura) anziché una scansione di "classificazione" completa (Mappa e classifica). La mappatura delle fonti dati può essere eseguita molto rapidamente perché non è necessario accedere ai file per visualizzare i dati al loro interno. "Scopri la differenza tra una scansione di mappatura e una di classificazione" .
Posso cercare i miei dati utilizzando la classificazione dei dati?
Data Classification offre ampie capacità di ricerca che semplificano la ricerca di un file o di un dato specifico in tutte le fonti connesse. La classificazione dei dati consente agli utenti di effettuare ricerche più approfondite rispetto a quanto riportato nei metadati. Si tratta di un servizio indipendente dal linguaggio, in grado di leggere i file e analizzare una moltitudine di tipi di dati sensibili, come nomi e ID. Ad esempio, gli utenti possono effettuare ricerche sia negli archivi dati strutturati che in quelli non strutturati per trovare dati che potrebbero essere trapelati dai database ai file degli utenti, violando le policy aziendali. Le ricerche possono essere salvate per un secondo momento e si possono creare policy per cercare e intervenire sui risultati con una frequenza stabilita.
Una volta trovati i file di interesse, è possibile elencarne le caratteristiche, tra cui tag, account di sistema, bucket, percorso del file, categoria (dalla classificazione), dimensione del file, ultima modifica, stato delle autorizzazioni, duplicati, livello di sensibilità, dati personali, tipi di dati sensibili all'interno del file, proprietario, tipo di file, dimensione del file, ora di creazione, hash del file, se i dati sono stati assegnati a qualcuno che cercava la loro attenzione e altro ancora. È possibile applicare filtri per escludere le caratteristiche non pertinenti.
La classificazione dei dati prevede anche il controllo degli accessi basato sui ruoli (RBAC) per consentire lo spostamento o l'eliminazione dei file, se sono presenti le autorizzazioni appropriate. Se non sono presenti le autorizzazioni appropriate, le attività possono essere assegnate a qualcuno nell'organizzazione che dispone delle autorizzazioni appropriate.
Gestione della classificazione dei dati e privacy
Le seguenti domande forniscono informazioni su come gestire la classificazione dei dati e le impostazioni sulla privacy.
Come posso abilitare o disabilitare la classificazione dei dati?
Per prima cosa è necessario distribuire un'istanza di Data Classification nella Console o su un sistema locale. Una volta che l'istanza è in esecuzione, è possibile abilitare il servizio su sistemi, database e altre origini dati esistenti dalla scheda Configurazione o selezionando un sistema specifico. "Scopri come iniziare" .
|
L'attivazione della classificazione dei dati su un'origine dati determina una scansione iniziale immediata. I risultati della scansione vengono visualizzati poco dopo. |
È possibile disattivare la classificazione dei dati per impedire la scansione di un singolo sistema, database o gruppo di condivisione file dalla pagina Configurazione classificazione dati. Vedere "Rimuovere le origini dati dalla classificazione dei dati" .
Per rimuovere completamente l'istanza di Data Classification, rimuovila manualmente dal portale del tuo provider cloud o dalla posizione locale.
Il servizio può escludere la scansione dei dati in determinate directory?
Sì. Se si desidera che la classificazione dei dati escluda la scansione dei dati che risiedono in determinate directory di origine dati, è possibile fornire tale elenco al motore di classificazione. Dopo aver applicato la modifica, la classificazione dei dati escluderà la scansione dei dati nelle directory specificate. "Saperne di più" .
Gli snapshot che risiedono sui volumi ONTAP vengono scansionati?
No. La classificazione dei dati non analizza gli snapshot perché il contenuto è identico al contenuto del volume.
Cosa succede se sui volumi ONTAP è abilitato il tiering dei dati?
Quando Data Classification esegue la scansione di volumi che contengono dati inattivi suddivisi in livelli per l'archiviazione di oggetti utilizzando solo scansioni di mappatura, esegue la scansione di tutti i dati: dati presenti sui dischi locali e dati inattivi suddivisi in livelli per l'archiviazione di oggetti. Ciò vale anche per i prodotti non NetApp che implementano la suddivisione in livelli.
La scansione di sola mappatura non surriscalda i dati freddi: questi rimangono freddi e rimangono nell'archivio degli oggetti. D'altro canto, se si esegue la scansione Map & Classify, alcune configurazioni potrebbero surriscaldare i dati inutilizzati.
Tipi di sistemi sorgente e tipi di dati
Le seguenti domande riguardano i tipi di archiviazione che possono essere scansionati e i tipi di dati che vengono scansionati.
Ci sono delle restrizioni quando si opera in una regione governativa?
La classificazione dei dati è supportata quando l'agente della console viene distribuito in una regione governativa (AWS GovCloud, Azure Gov o Azure DoD), nota anche come "modalità limitata".
Quali fonti di dati posso analizzare se installo Data Classification in un sito senza accesso a Internet?
|
La modalità privata BlueXP (interfaccia BlueXP legacy) viene in genere utilizzata con ambienti locali privi di connessione Internet e con regioni cloud sicure, tra cui AWS Secret Cloud, AWS Top Secret Cloud e Azure IL6. NetApp continua a supportare questi ambienti con l'interfaccia legacy BlueXP . Per la documentazione sulla modalità privata nell'interfaccia legacy BlueXP , vedere"Documentazione PDF per la modalità privata BlueXP" . |
La classificazione dei dati può analizzare solo i dati provenienti da fonti dati locali rispetto al sito locale. Al momento, Data Classification può analizzare le seguenti fonti di dati locali in "Modalità privata", nota anche come sito "dark":
-
Sistemi ONTAP on-premise
-
Schemi di database
-
Object Storage che utilizza il protocollo Simple Storage Service (S3)
Quali tipi di file sono supportati?
La classificazione dei dati analizza tutti i file per ottenere informazioni dettagliate su categorie e metadati e visualizza tutti i tipi di file nella sezione Tipi di file della dashboard.
Quando la classificazione dei dati rileva informazioni personali identificabili (PII) o quando esegue una ricerca DSAR, sono supportati solo i seguenti formati di file:
.CSV, .DCM, .DOC, .DOCX, .JSON, .PDF, .PPTX, .RTF, .TXT, .XLS, .XLSX, Docs, Sheets, and Slides
Quali tipi di dati e metadati cattura la classificazione dei dati?
La classificazione dei dati consente di eseguire una scansione di "mappatura" generale o una scansione di "classificazione" completa sulle origini dati. La mappatura fornisce solo una panoramica di alto livello dei dati, mentre la classificazione fornisce una scansione approfondita dei dati. La mappatura delle fonti dati può essere eseguita molto rapidamente perché non è necessario accedere ai file per visualizzare i dati al loro interno.
-
Scansione di mappatura dei dati (scansione solo di mappatura): la classificazione dei dati esegue la scansione solo dei metadati. Ciò è utile per la gestione e la governance dei dati complessivi, per una rapida definizione dell'ambito del progetto, per patrimoni molto ampi e per la definizione delle priorità. La mappatura dei dati si basa sui metadati ed è considerata una scansione veloce.
Dopo una scansione rapida, è possibile generare un report di mappatura dei dati. Questo report è una panoramica dei dati archiviati nelle fonti dati aziendali per aiutarti a prendere decisioni sull'utilizzo delle risorse, sulla migrazione, sul backup, sulla sicurezza e sui processi di conformità.
-
Scansione approfondita della classificazione dei dati (scansione mappa e classifica): la classificazione dei dati esegue la scansione dei dati utilizzando protocolli standard e autorizzazioni di sola lettura in tutti gli ambienti. Vengono aperti file selezionati e analizzati per rilevare dati aziendali sensibili, informazioni private e problemi correlati al ransomware.
Dopo una scansione completa, è possibile applicare ai dati numerose funzionalità aggiuntive di classificazione dei dati, come la visualizzazione e la rifinitura dei dati nella pagina Indagine sui dati, la ricerca di nomi all'interno dei file, la copia, lo spostamento e l'eliminazione dei file sorgente e altro ancora.
La classificazione dei dati acquisisce metadati quali: nome del file, autorizzazioni, ora di creazione, ultimo accesso e ultima modifica. Ciò include tutti i metadati che appaiono nella pagina Dettagli indagine dati e nei Report indagine dati.
La classificazione dei dati può identificare molti tipi di dati privati, come le informazioni personali (PII) e le informazioni personali sensibili (SPII). Per i dettagli sui dati privati, fare riferimento aCategorie di dati privati analizzati dalla classificazione dei dati .
Posso limitare le informazioni sulla classificazione dei dati a utenti specifici?
Sì, la classificazione dei dati è completamente integrata con la console NetApp . Gli utenti della console NetApp possono visualizzare solo le informazioni relative ai sistemi che sono autorizzati a visualizzare in base alle loro autorizzazioni.
Inoltre, se si desidera consentire a determinati utenti di visualizzare solo i risultati della scansione di classificazione dei dati senza avere la possibilità di gestire le impostazioni di classificazione dei dati, è possibile assegnare a tali utenti il ruolo di Visualizzatore classificazione (quando si utilizza la console NetApp in modalità standard) o il ruolo di Visualizzatore conformità (quando si utilizza la console NetApp in modalità limitata). "Saperne di più" .
Chiunque può accedere ai dati privati inviati tra il mio browser e Data Classification?
No. I dati privati inviati tra il browser e l'istanza di Data Classification sono protetti tramite crittografia end-to-end tramite TLS 1.2, il che significa che NetApp né terze parti NetApp possono leggerli. Data Classification non condividerà alcun dato o risultato con NetApp a meno che tu non ne richieda e approvi l'accesso.
I dati scansionati rimangono all'interno del tuo ambiente.
Come vengono gestiti i dati sensibili?
NetApp non ha accesso ai dati sensibili e non li visualizza nell'interfaccia utente. I dati sensibili vengono mascherati, ad esempio vengono visualizzate le ultime quattro cifre delle informazioni sulla carta di credito.
Dove vengono archiviati i dati?
I risultati della scansione vengono archiviati in Elasticsearch all'interno dell'istanza di Data Classification.
Come avviene l'accesso ai dati?
La classificazione dei dati accede ai dati archiviati in Elasticsearch tramite chiamate API, che richiedono l'autenticazione e sono crittografate tramite AES-128. Per accedere direttamente a Elasticsearch è necessario l'accesso root.
Licenze e costi
La seguente domanda riguarda la licenza e i costi per l'utilizzo della classificazione dei dati.
Quanto costa la classificazione dei dati?
La classificazione dei dati è una funzionalità fondamentale della console NetApp . Non è caricato.
Distribuzione dell'agente della console
Le seguenti domande riguardano l'agente Console.
Che cos'è l'agente Console?
L'agente Console è un software in esecuzione su un'istanza di elaborazione all'interno del tuo account cloud o in locale, che consente alla console NetApp di gestire in modo sicuro le risorse cloud. Per utilizzare la classificazione dei dati è necessario distribuire un agente Console.
Dove deve essere installato l'agente Console?
Durante la scansione dei dati, l'agente NetApp Console deve essere installato nei seguenti percorsi:
-
Per Cloud Volumes ONTAP in AWS o Amazon FSx per ONTAP: l'agente della console si trova in AWS.
-
Per Cloud Volumes ONTAP in Azure o in Azure NetApp Files: l'agente della console si trova in Azure.
-
Per Cloud Volumes ONTAP in GCP: l'agente della console si trova in GCP.
-
Per i sistemi ONTAP on-premise: l'agente della console è on-premise.
Se hai dati in queste posizioni, potrebbe essere necessario utilizzare "più agenti della console" .
La classificazione dei dati richiede l'accesso alle credenziali?
La classificazione dei dati in sé non recupera le credenziali di archiviazione. Vengono invece archiviati nell'agente Console.
La classificazione dei dati utilizza le credenziali del piano dati, ad esempio le credenziali CIFS, per montare le condivisioni prima della scansione.
La comunicazione tra il servizio e l'agente della console utilizza HTTP?
Sì, Data Classification comunica con l'agente della console tramite HTTP.
Distribuzione della classificazione dei dati
Le seguenti domande riguardano l'istanza separata di Classificazione dei dati.
Quali modelli di distribuzione supporta Data Classification?
La console NetApp consente all'utente di eseguire scansioni e report sui sistemi praticamente ovunque, inclusi ambienti locali, cloud e ibridi. La classificazione dei dati viene solitamente distribuita utilizzando un modello SaaS, in cui il servizio è abilitato tramite l'interfaccia della console e non richiede alcuna installazione hardware o software. Anche in questa modalità di distribuzione "click-and-run", la gestione dei dati può essere eseguita indipendentemente dal fatto che gli archivi dati si trovino in locale o nel cloud pubblico.
Quale tipo di istanza o VM è richiesta per la classificazione dei dati?
Quando"distribuito nel cloud" :
-
In AWS, la classificazione dei dati viene eseguita su un'istanza m6i.4xlarge con un disco GP2 da 500 GiB. Durante la distribuzione è possibile selezionare un tipo di istanza più piccolo.
-
In Azure, la classificazione dei dati viene eseguita su una macchina virtuale Standard_D16s_v3 con un disco da 500 GiB.
-
In GCP, la classificazione dei dati viene eseguita su una VM n2-standard-16 con un disco persistente standard da 500 GiB.
Posso distribuire la classificazione dei dati sul mio host?
Sì. È possibile installare il software di classificazione dei dati su un host Linux dotato di accesso a Internet nella propria rete o nel cloud. Tutto funziona allo stesso modo e puoi continuare a gestire la configurazione e i risultati della scansione tramite la Console. Vedere"Distribuzione della classificazione dei dati in locale" per i requisiti di sistema e i dettagli di installazione.
E per quanto riguarda i siti sicuri senza accesso a Internet?
Sì, anche questo è supportato. Puoi"distribuire la classificazione dei dati in un sito locale che non dispone di accesso a Internet" per siti completamente sicuri.