La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Caso d'utilizzo 1: Backup dei dati Hadoop

09/23/2024 Collaboratori

PDF

In questo scenario, il cliente dispone di un grande repository Hadoop on-premise e desidera eseguirne il backup a scopo di disaster recovery. Tuttavia, l'attuale soluzione di backup del cliente è costosa e presenta una lunga finestra di backup di oltre 24 ore.

Requisiti e sfide

I requisiti e le sfide principali per questo caso di utilizzo includono:

Compatibilità con le versioni precedenti del software:
- La soluzione di backup alternativa proposta deve essere compatibile con le versioni software attualmente in esecuzione utilizzate nel cluster Hadoop di produzione.
Per soddisfare gli SLA impegnati, la soluzione alternativa proposta dovrebbe raggiungere RPO e RTO molto bassi.
Il backup creato dalla soluzione di backup NetApp può essere utilizzato nel cluster Hadoop costruito localmente nel data center e nel cluster Hadoop in esecuzione nella posizione di disaster recovery presso il sito remoto.
La soluzione proposta deve essere conveniente.
La soluzione proposta deve ridurre l'effetto delle performance sui processi di analisi in produzione attualmente in esecuzione durante i tempi di backup.

La soluzione di backup esistente del cliente x

La figura seguente mostra la soluzione di backup nativa Hadoop originale.

Figura che mostra la finestra di dialogo input/output o rappresenta il contenuto scritto

I dati di produzione sono protetti su nastro attraverso il cluster di backup intermedio:

I dati HDFS1 vengono copiati in HDFS2 eseguendo il hadoop distcp -update <hdfs1> <hdfs2> comando.
Il cluster di backup funge da gateway NFS e i dati vengono copiati manualmente su nastro attraverso Linux cp tramite la libreria di nastri.

I vantaggi della soluzione di backup nativa Hadoop originale includono:

La soluzione si basa sui comandi nativi di Hadoop, che consentono all'utente di non dover apprendere nuove procedure.
La soluzione sfrutta l'architettura e l'hardware standard di settore.

Gli svantaggi della soluzione di backup nativa Hadoop originale includono:

La lunga finestra di backup supera le 24 ore, rendendo vulnerabili i dati di produzione.
Peggioramento significativo delle performance del cluster durante i tempi di backup.
La copia su nastro è un processo manuale.
La soluzione di backup è costosa in termini di hardware richiesto e di ore umane richieste per i processi manuali.

Soluzioni di backup

In base a queste sfide e requisiti e tenendo conto del sistema di backup esistente, sono state suggerite tre possibili soluzioni di backup. Le seguenti sottosezioni descrivono ciascuna di queste tre diverse soluzioni di backup, etichettate dalla soluzione A alla soluzione C.

Soluzione A

Nella soluzione A, il cluster Hadoop di backup invia i backup secondari ai sistemi storage NFS NetApp, eliminando i requisiti su nastro, come mostrato nella figura sotto.

Figura che mostra la finestra di dialogo input/output o rappresenta il contenuto scritto

Le attività dettagliate per la soluzione A includono:

Il cluster di produzione Hadoop contiene i dati di analisi del cliente nell'HDFS che richiede protezione.
Il cluster di backup Hadoop con HDFS funge da posizione intermedia per i dati. Solo un gruppo di dischi (JBOD) fornisce lo storage per HDFS sia nei cluster Hadoop di produzione che di backup.
Proteggere i dati di produzione di Hadoop dal cluster di produzione HDFS al cluster di backup HDFS mediante l'esecuzione di Hadoop distcp –update –diff <hdfs1> <hdfs2> comando.

Lo snapshot Hadoop viene utilizzato per proteggere i dati dalla produzione al cluster di backup Hadoop.

Il controller di storage NetApp ONTAP fornisce un volume esportato NFS, che viene fornito al cluster di backup Hadoop.
Eseguendo il Hadoop distcp Comando che sfrutta MapReduce e mappatori multipli, i dati degli analytics sono protetti dal cluster Hadoop di backup su NFS.

Una volta archiviati i dati in NFS sul sistema storage NetApp, le tecnologie NetApp Snapshot, SnapRestore e FlexClone vengono utilizzate per eseguire il backup, il ripristino e la duplicazione dei dati Hadoop in base alle necessità.

I dati Hadoop possono essere protetti nel cloud e nelle posizioni di disaster recovery utilizzando la tecnologia SnapMirror.

I vantaggi della soluzione A includono:

I dati di produzione di Hadoop sono protetti dal cluster di backup.
I dati HDFS sono protetti tramite NFS, consentendo la protezione in ambienti cloud e di disaster recovery.
Migliora le performance trasferendo le operazioni di backup nel cluster di backup.
Elimina le operazioni manuali su nastro
Consente funzioni di gestione aziendale tramite gli strumenti NetApp.
Richiede modifiche minime all'ambiente esistente.
È una soluzione conveniente.

Lo svantaggio di questa soluzione è che richiede un cluster di backup e mappatori aggiuntivi per migliorare le performance.

Il cliente ha recentemente implementato la soluzione A per la sua semplicità, i costi e le performance complessive.

In questa soluzione, è possibile utilizzare i dischi SAN di ONTAP invece di JBOD. Questa opzione trasferisce il carico dello storage del cluster di backup su ONTAP; tuttavia, il downside è che sono richiesti switch fabric SAN.

Soluzione B

La soluzione B aggiunge un volume NFS al cluster Hadoop di produzione, che elimina la necessità di un cluster Hadoop di backup, come mostrato nella figura sotto.

Figura che mostra la finestra di dialogo input/output o rappresenta il contenuto scritto

Le attività dettagliate per la soluzione B includono:

Lo storage controller NetApp ONTAP fornisce l'esportazione NFS al cluster Hadoop di produzione.

Nativo di Hadoop hadoop distcp Command protegge i dati Hadoop dal cluster di produzione HDFS a NFS.
Una volta archiviati i dati in NFS sul sistema storage NetApp, le tecnologie Snapshot, SnapRestore e FlexClone vengono utilizzate per eseguire il backup, il ripristino e la duplicazione dei dati Hadoop in base alle necessità.

I vantaggi della soluzione B includono:

Il cluster di produzione viene leggermente modificato per la soluzione di backup, semplificando l'implementazione e riducendo i costi aggiuntivi dell'infrastruttura.
Non è necessario un cluster di backup per l'operazione di backup.
I dati di produzione HDFS sono protetti nella conversione in dati NFS.
La soluzione consente funzioni di gestione aziendale tramite gli strumenti NetApp.

Lo svantaggio di questa soluzione è che è implementata nel cluster di produzione, che può aggiungere ulteriori attività di amministratore nel cluster di produzione.

Soluzione C

Nella soluzione C, il provisioning dei volumi SAN NetApp viene eseguito direttamente nel cluster di produzione Hadoop per lo storage HDFS, come illustrato nella figura seguente.

Figura che mostra la finestra di dialogo input/output o rappresenta il contenuto scritto

I passaggi dettagliati per la soluzione C includono:

Lo storage SAN NetApp ONTAP viene fornito nel cluster di produzione Hadoop per lo storage dei dati HDFS.
Le tecnologie NetApp Snapshot e SnapMirror vengono utilizzate per eseguire il backup dei dati HDFS dal cluster Hadoop di produzione.
Durante il processo di backup della copia Snapshot non si verificano effetti sulle performance per il cluster Hadoop/Spark, poiché il backup si trova a livello di storage.

La tecnologia Snapshot offre backup completi in pochi secondi, indipendentemente dalle dimensioni dei dati.

I vantaggi della soluzione C includono:

È possibile creare backup efficienti in termini di spazio utilizzando la tecnologia Snapshot.
Consente funzioni di gestione aziendale tramite gli strumenti NetApp.

Caso d'utilizzo 1: Backup dei dati Hadoop

Creating your file...

Requisiti e sfide

La soluzione di backup esistente del cliente x

Soluzioni di backup

Soluzione A

Soluzione B

Soluzione C