Caso d'utilizzo 1: Backup dei dati Hadoop
In questo scenario, il cliente dispone di un grande repository Hadoop on-premise e desidera eseguirne il backup a scopo di disaster recovery. Tuttavia, l'attuale soluzione di backup del cliente è costosa e presenta una lunga finestra di backup di oltre 24 ore.
Requisiti e sfide
I requisiti e le sfide principali per questo caso di utilizzo includono:
-
Compatibilità con le versioni precedenti del software:
-
La soluzione di backup alternativa proposta deve essere compatibile con le versioni software attualmente in esecuzione utilizzate nel cluster Hadoop di produzione.
-
-
Per soddisfare gli SLA impegnati, la soluzione alternativa proposta dovrebbe raggiungere RPO e RTO molto bassi.
-
Il backup creato dalla soluzione di backup NetApp può essere utilizzato nel cluster Hadoop costruito localmente nel data center e nel cluster Hadoop in esecuzione nella posizione di disaster recovery presso il sito remoto.
-
La soluzione proposta deve essere conveniente.
-
La soluzione proposta deve ridurre l'effetto delle performance sui processi di analisi in produzione attualmente in esecuzione durante i tempi di backup.
La soluzione di backup esistente del cliente x
La figura seguente mostra la soluzione di backup nativa Hadoop originale.
I dati di produzione sono protetti su nastro attraverso il cluster di backup intermedio:
-
I dati HDFS1 vengono copiati in HDFS2 eseguendo il
hadoop distcp -update <hdfs1> <hdfs2>
comando. -
Il cluster di backup funge da gateway NFS e i dati vengono copiati manualmente su nastro attraverso Linux
cp
tramite la libreria di nastri.
I vantaggi della soluzione di backup nativa Hadoop originale includono:
-
La soluzione si basa sui comandi nativi di Hadoop, che consentono all'utente di non dover apprendere nuove procedure.
-
La soluzione sfrutta l'architettura e l'hardware standard di settore.
Gli svantaggi della soluzione di backup nativa Hadoop originale includono:
-
La lunga finestra di backup supera le 24 ore, rendendo vulnerabili i dati di produzione.
-
Peggioramento significativo delle performance del cluster durante i tempi di backup.
-
La copia su nastro è un processo manuale.
-
La soluzione di backup è costosa in termini di hardware richiesto e di ore umane richieste per i processi manuali.
Soluzioni di backup
In base a queste sfide e requisiti e tenendo conto del sistema di backup esistente, sono state suggerite tre possibili soluzioni di backup. Le seguenti sottosezioni descrivono ciascuna di queste tre diverse soluzioni di backup, etichettate dalla soluzione A alla soluzione C.
Soluzione A
Nella soluzione A, il cluster Hadoop di backup invia i backup secondari ai sistemi storage NFS NetApp, eliminando i requisiti su nastro, come mostrato nella figura sotto.
Le attività dettagliate per la soluzione A includono:
-
Il cluster di produzione Hadoop contiene i dati di analisi del cliente nell'HDFS che richiede protezione.
-
Il cluster di backup Hadoop con HDFS funge da posizione intermedia per i dati. Solo un gruppo di dischi (JBOD) fornisce lo storage per HDFS sia nei cluster Hadoop di produzione che di backup.
-
Proteggere i dati di produzione di Hadoop dal cluster di produzione HDFS al cluster di backup HDFS mediante l'esecuzione di
Hadoop distcp –update –diff <hdfs1> <hdfs2>
comando.
Lo snapshot Hadoop viene utilizzato per proteggere i dati dalla produzione al cluster di backup Hadoop. |
-
Il controller di storage NetApp ONTAP fornisce un volume esportato NFS, che viene fornito al cluster di backup Hadoop.
-
Eseguendo il
Hadoop distcp
Comando che sfrutta MapReduce e mappatori multipli, i dati degli analytics sono protetti dal cluster Hadoop di backup su NFS.Una volta archiviati i dati in NFS sul sistema storage NetApp, le tecnologie NetApp Snapshot, SnapRestore e FlexClone vengono utilizzate per eseguire il backup, il ripristino e la duplicazione dei dati Hadoop in base alle necessità.
I dati Hadoop possono essere protetti nel cloud e nelle posizioni di disaster recovery utilizzando la tecnologia SnapMirror. |
I vantaggi della soluzione A includono:
-
I dati di produzione di Hadoop sono protetti dal cluster di backup.
-
I dati HDFS sono protetti tramite NFS, consentendo la protezione in ambienti cloud e di disaster recovery.
-
Migliora le performance trasferendo le operazioni di backup nel cluster di backup.
-
Elimina le operazioni manuali su nastro
-
Consente funzioni di gestione aziendale tramite gli strumenti NetApp.
-
Richiede modifiche minime all'ambiente esistente.
-
È una soluzione conveniente.
Lo svantaggio di questa soluzione è che richiede un cluster di backup e mappatori aggiuntivi per migliorare le performance.
Il cliente ha recentemente implementato la soluzione A per la sua semplicità, i costi e le performance complessive.
In questa soluzione, è possibile utilizzare i dischi SAN di ONTAP invece di JBOD. Questa opzione trasferisce il carico dello storage del cluster di backup su ONTAP; tuttavia, il downside è che sono richiesti switch fabric SAN.
Soluzione B
La soluzione B aggiunge un volume NFS al cluster Hadoop di produzione, che elimina la necessità di un cluster Hadoop di backup, come mostrato nella figura sotto.
Le attività dettagliate per la soluzione B includono:
-
Lo storage controller NetApp ONTAP fornisce l'esportazione NFS al cluster Hadoop di produzione.
Nativo di Hadoop
hadoop distcp
Command protegge i dati Hadoop dal cluster di produzione HDFS a NFS. -
Una volta archiviati i dati in NFS sul sistema storage NetApp, le tecnologie Snapshot, SnapRestore e FlexClone vengono utilizzate per eseguire il backup, il ripristino e la duplicazione dei dati Hadoop in base alle necessità.
I vantaggi della soluzione B includono:
-
Il cluster di produzione viene leggermente modificato per la soluzione di backup, semplificando l'implementazione e riducendo i costi aggiuntivi dell'infrastruttura.
-
Non è necessario un cluster di backup per l'operazione di backup.
-
I dati di produzione HDFS sono protetti nella conversione in dati NFS.
-
La soluzione consente funzioni di gestione aziendale tramite gli strumenti NetApp.
Lo svantaggio di questa soluzione è che è implementata nel cluster di produzione, che può aggiungere ulteriori attività di amministratore nel cluster di produzione.
Soluzione C
Nella soluzione C, il provisioning dei volumi SAN NetApp viene eseguito direttamente nel cluster di produzione Hadoop per lo storage HDFS, come illustrato nella figura seguente.
I passaggi dettagliati per la soluzione C includono:
-
Lo storage SAN NetApp ONTAP viene fornito nel cluster di produzione Hadoop per lo storage dei dati HDFS.
-
Le tecnologie NetApp Snapshot e SnapMirror vengono utilizzate per eseguire il backup dei dati HDFS dal cluster Hadoop di produzione.
-
Durante il processo di backup della copia Snapshot non si verificano effetti sulle performance per il cluster Hadoop/Spark, poiché il backup si trova a livello di storage.
La tecnologia Snapshot offre backup completi in pochi secondi, indipendentemente dalle dimensioni dei dati. |
I vantaggi della soluzione C includono:
-
È possibile creare backup efficienti in termini di spazio utilizzando la tecnologia Snapshot.
-
Consente funzioni di gestione aziendale tramite gli strumenti NetApp.