La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Disaster Recovery con CVO e AVS (storage connesso agli ospiti)

09/23/2024 Collaboratori

PDF

Il disaster recovery nel cloud è un metodo resiliente e conveniente per proteggere i workload da interruzioni del sito e eventi di corruzione dei dati come ransomware. Con NetApp SnapMirror, è possibile replicare i workload VMware on-premise che utilizzano lo storage connesso con gli ospiti su NetApp Cloud Volumes ONTAP in esecuzione in Azure.

Panoramica

Autori: Ravi BCB e Niyaz Mohamed, NetApp

 This covers application data; however, what about the actual VMs themselves. Disaster recovery should cover all dependent components, including virtual machines, VMDKs, application data, and more. To accomplish this, SnapMirror along with Jetstream can be used to seamlessly recover workloads replicated from on-premises to Cloud Volumes ONTAP while using vSAN storage for VM VMDKs.
Questo documento fornisce un approccio passo per passo per la configurazione e l'esecuzione del disaster recovery che utilizza NetApp SnapMirror, JetStream e Azure VMware Solution (AVS).

Figura che mostra la finestra di dialogo input/output o rappresenta il contenuto scritto

Presupposti

Questo documento si concentra sullo storage in-guest per i dati delle applicazioni (noto anche come guest Connected) e si presume che l'ambiente on-premise stia utilizzando SnapCenter per backup coerenti con le applicazioni.

Questo documento si riferisce a qualsiasi soluzione di backup o ripristino di terze parti. A seconda della soluzione utilizzata nell'ambiente, seguire le Best practice per creare policy di backup che soddisfino gli SLA dell'organizzazione.

Per la connettività tra l'ambiente on-premise e la rete virtuale Azure, utilizzare la portata globale di instradamento espresso o una WAN virtuale con un gateway VPN. I segmenti devono essere creati in base alla progettazione della VLAN on-premise.

Esistono diverse opzioni per connettere i data center on-premise ad Azure, che ci impediscono di delineare un workflow specifico in questo documento. Consultare la documentazione di Azure per il metodo di connettività on-premise-to-Azure appropriato.

Implementazione della soluzione DR

Panoramica sull'implementazione della soluzione

Assicurarsi che il backup dei dati dell'applicazione venga eseguito utilizzando SnapCenter con i requisiti RPO necessari.
Eseguire il provisioning di Cloud Volumes ONTAP con la dimensione dell'istanza corretta utilizzando Cloud Manager all'interno dell'abbonamento appropriato e della rete virtuale.
1. Configurare SnapMirror per i volumi applicativi rilevanti.
2. Aggiornare i criteri di backup in SnapCenter per attivare gli aggiornamenti di SnapMirror dopo i processi pianificati.
Installare il software DR JetStream nel data center on-premise e iniziare la protezione per le macchine virtuali.
Installare il software DR JetStream nel cloud privato Azure VMware Solution.
Durante un evento di emergenza, interrompere la relazione di SnapMirror utilizzando Cloud Manager e attivare il failover delle macchine virtuali su Azure NetApp Files o su datastore vSAN nel sito di DR AVS designato.
1. Ricollegare I LUN ISCSI e i montaggi NFS per le macchine virtuali dell'applicazione.
Richiamare il failback sul sito protetto risyncing inverso di SnapMirror dopo il ripristino del sito primario.

Dettagli sull'implementazione

Configurare CVO su Azure e replicare i volumi su CVO

Il primo passaggio consiste nel configurare Cloud Volumes ONTAP su Azure ("Collegamento") E replicare i volumi desiderati su Cloud Volumes ONTAP con le frequenze desiderate e le ritentioni di snapshot.

Figura che mostra la finestra di dialogo input/output o rappresenta il contenuto scritto

Configurare gli host AVS e l'accesso ai dati CVO

Due fattori importanti da considerare durante l'implementazione di SDDC sono le dimensioni del cluster SDDC nella soluzione VMware di Azure e il tempo necessario per mantenere il SDDC in servizio. Queste due considerazioni chiave per una soluzione di disaster recovery contribuiscono a ridurre i costi operativi complessivi. Il controller SDDC può contenere fino a tre host, fino a un cluster multi-host in un'implementazione su larga scala.

La decisione di implementare un cluster AVS si basa principalmente sui requisiti RPO/RTO. Con la soluzione VMware Azure, il provisioning SDDC può essere eseguito in tempo, in preparazione di test o di un evento di disastro effettivo. Un SDDC implementato Just in Time consente di risparmiare sui costi degli host ESXi quando non si affronta un disastro. Tuttavia, questa forma di implementazione influisce sull'RTO di alcune ore durante il provisioning di SDDC.

L'opzione implementata più comunemente è l'esecuzione di SDDC in una modalità di funzionamento always-on, con illuminazione pilota. Questa opzione offre un ingombro ridotto di tre host sempre disponibili e accelera le operazioni di recovery fornendo una base di riferimento per le attività di simulazione e i controlli di conformità, evitando così il rischio di deriva operativa tra i siti di produzione e DR. Il cluster pilota-light può essere scalato rapidamente fino al livello desiderato quando necessario per gestire un evento DR effettivo.

Per configurare AVS SDDC (sia esso on-demand o in modalità pilota-light), vedere "Implementare e configurare l'ambiente di virtualizzazione su Azure". Come prerequisito, verificare che le macchine virtuali guest che risiedono sugli host AVS siano in grado di utilizzare i dati provenienti da Cloud Volumes ONTAP dopo aver stabilito la connettività.

Dopo aver configurato correttamente Cloud Volumes ONTAP e AVS, iniziare a configurare Jetstream per automatizzare il ripristino dei carichi di lavoro on-premise su AVS (macchine virtuali con VMDK delle applicazioni e macchine virtuali con storage in-guest) utilizzando il meccanismo VAIO e sfruttando SnapMirror per le copie dei volumi delle applicazioni su Cloud Volumes ONTAP.

Installare JetStream DR nel data center on-premise

Il software Jetstream DR è costituito da tre componenti principali: L'appliance virtuale JetStream DR Management Server (MSA), l'appliance virtuale DR (DRVA) e i componenti host (pacchetti di filtri i/o). MSA viene utilizzato per installare e configurare i componenti host sul cluster di calcolo e quindi per amministrare il software DR JetStream. La procedura di installazione è la seguente:

Verificare i prerequisiti.
Eseguire Capacity Planning Tool per consigli su risorse e configurazione.
Distribuire l'MSA DR JetStream su ciascun host vSphere nel cluster designato.
Avviare MSA utilizzando il nome DNS in un browser.
Registrare il server vCenter con MSA.
Una volta implementato JetStream DR MSA e registrato vCenter Server, accedere al plug-in JetStream DR con vSphere Web Client. Per eseguire questa operazione, accedere a Datacenter > Configure > JetStream DR.
Dall'interfaccia DR JetStream, completare le seguenti attività:
1. Configurare il cluster con il pacchetto di filtri i/O.
2. Aggiungere lo storage Azure Blob situato nel sito di ripristino.
Implementare il numero richiesto di DRVA (DR Virtual Appliances) dalla scheda Appliances (appliance).

Utilizzare lo strumento di pianificazione della capacità per stimare il numero di DRA richiesti.
Creare volumi di log di replica per ogni DRVA utilizzando VMDK dagli archivi dati disponibili o dal pool di storage iSCSI condiviso indipendente.
Dalla scheda Protected Domains (domini protetti), creare il numero richiesto di domini protetti utilizzando le informazioni relative al sito Azure Blob Storage, all'istanza DRVA e al registro di replica. Un dominio protetto definisce una macchina virtuale specifica o un insieme di macchine virtuali dell'applicazione all'interno del cluster che sono protetti insieme e assegnati un ordine di priorità per le operazioni di failover/failback.
Selezionare le macchine virtuali da proteggere e raggrupparle in gruppi di applicazioni in base alla dipendenza. Le definizioni delle applicazioni consentono di raggruppare set di macchine virtuali in gruppi logici che contengono i relativi ordini di avvio, ritardi di avvio e validazioni opzionali delle applicazioni che possono essere eseguite al momento del ripristino.

Assicurarsi di utilizzare la stessa modalità di protezione per tutte le macchine virtuali in un dominio protetto.

La modalità Write-Back (VMDK) offre performance superiori.
Assicurarsi che i volumi dei log di replica siano posizionati su uno storage dalle performance elevate.
Al termine dell'operazione, fare clic su Start Protection (Avvia protezione) per il dominio protetto. In questo modo viene avviata la replica dei dati per le macchine virtuali selezionate nell'archivio Blob designato.

Una volta completata la replica, lo stato di protezione della macchina virtuale viene contrassegnato come ripristinabile.

Figura che mostra la finestra di dialogo input/output o rappresenta il contenuto scritto

Le runbook di failover possono essere configurate per raggruppare le macchine virtuali (denominate gruppo di ripristino), impostare la sequenza dell'ordine di avvio e modificare le impostazioni della CPU/memoria insieme alle configurazioni IP.

Fare clic su Impostazioni, quindi sul collegamento Configura runbook per configurare il gruppo runbook.

Fare clic sul pulsante Create Group (Crea gruppo) per iniziare a creare un nuovo gruppo di runbook.

Se necessario, nella parte inferiore della schermata, applicare pre-script e post-script personalizzati da eseguire automaticamente prima e dopo l'operazione del gruppo di runbook. Assicurarsi che gli script Runbook risiedano sul server di gestione.

Figura che mostra la finestra di dialogo input/output o rappresenta il contenuto scritto

Modificare le impostazioni della macchina virtuale secondo necessità. Specificare i parametri per il ripristino delle macchine virtuali, tra cui la sequenza di avvio, il ritardo di avvio (specificato in secondi), il numero di CPU e la quantità di memoria da allocare. Modificare la sequenza di avvio delle macchine virtuali facendo clic sulle frecce verso l'alto o verso il basso. Sono inoltre disponibili opzioni per conservare MAC.
Gli indirizzi IP statici possono essere configurati manualmente per le singole macchine virtuali del gruppo. Fare clic sul collegamento NIC View (visualizzazione NIC) di una macchina virtuale per configurare manualmente le impostazioni dell'indirizzo IP.
Fare clic sul pulsante Configure (Configura) per salvare le impostazioni NIC per le rispettive macchine virtuali.

Lo stato dei runbook di failover e failback è ora elencato come configurato. I gruppi runbook di failover e failback vengono creati in coppie utilizzando lo stesso gruppo iniziale di macchine virtuali e impostazioni. Se necessario, le impostazioni di qualsiasi gruppo di runbook possono essere personalizzate singolarmente facendo clic sul relativo link Details (Dettagli) e apportando modifiche.

Installare JetStream DR per AVS nel cloud privato

Una Best practice per un sito di recovery (AVS) consiste nella creazione anticipata di un cluster pilota a tre nodi. Ciò consente di preconfigurare l'infrastruttura del sito di ripristino, tra cui:

Segmenti di rete di destinazione, firewall, servizi come DHCP e DNS e così via
Installazione di JetStream DR per AVS
Configurazione dei volumi ANF come datastore e altro ancora

Jetstream DR supporta una modalità RTO quasi zero per i domini mission-critical. Per questi domini, lo storage di destinazione deve essere preinstallato. ANF è un tipo di storage consigliato in questo caso.

La configurazione di rete, inclusa la creazione di segmenti, deve essere configurata sul cluster AVS per soddisfare i requisiti on-premise.

A seconda dei requisiti SLA e RTO, è possibile utilizzare il failover continuo o la normale modalità di failover (standard). Per un RTO vicino allo zero, è necessario avviare una reidratazione continua nel sito di ripristino.

Per installare JetStream DR per AVS su un cloud privato Azure VMware Solution, utilizzare il comando Esegui. Dal portale Azure, accedere alla soluzione Azure VMware, selezionare il cloud privato e selezionare Esegui comando > pacchetti > Configurazione JSDR.

L'utente CloudAdmin predefinito di Azure VMware Solution non dispone di privilegi sufficienti per installare JetStream DR per AVS. Azure VMware Solution consente un'installazione semplificata e automatica del DR JetStream invocando il comando Azure VMware Solution Run per il DR JetStream.

La seguente schermata mostra l'installazione utilizzando un indirizzo IP basato su DHCP.

Figura che mostra la finestra di dialogo input/output o rappresenta il contenuto scritto

Una volta completata l'installazione di JetStream DR per AVS, aggiornare il browser. Per accedere all'interfaccia utente DR JetStream, accedere a SDDC Datacenter > Configure > JetStream DR.
Dall'interfaccia DR JetStream, completare le seguenti attività:
1. Aggiungere l'account Azure Blob Storage utilizzato per proteggere il cluster on-premise come sito di storage, quindi eseguire l'opzione Scan Domains.
2. Nella finestra di dialogo a comparsa visualizzata, selezionare il dominio protetto da importare, quindi fare clic sul relativo collegamento Importa.
Il dominio viene importato per il ripristino. Accedere alla scheda Protected Domains (domini protetti) e verificare che sia stato selezionato il dominio desiderato oppure scegliere quello desiderato dal menu Select Protected Domain (Seleziona dominio protetto). Viene visualizzato un elenco delle macchine virtuali ripristinabili nel dominio protetto.
Una volta importati i domini protetti, implementare le appliance DRVA.

Questi passaggi possono anche essere automatizzati utilizzando piani creati da CPT.
Creare volumi di log di replica utilizzando datastore vSAN o ANF disponibili.

Importare i domini protetti e configurare il VA di ripristino in modo che utilizzi un datastore ANF per il posizionamento delle macchine virtuali.

Figura che mostra la finestra di dialogo input/output o rappresenta il contenuto scritto

Assicurarsi che DHCP sia attivato sul segmento selezionato e che sia disponibile un numero sufficiente di IP. Gli IP dinamici vengono temporaneamente utilizzati durante il ripristino dei domini. Ogni macchina virtuale di ripristino (inclusa la reidratazione continua) richiede un IP dinamico individuale. Una volta completato il ripristino, l'IP viene rilasciato e può essere riutilizzato.

Selezionare l'opzione di failover appropriata (failover o failover continuo). In questo esempio, viene selezionata la reidratazione continua (failover continuo).

Anche se le modalità di failover continuo e failover differiscono quando viene eseguita la configurazione, entrambe le modalità di failover vengono configurate utilizzando le stesse procedure. I passaggi di failover vengono configurati ed eseguiti insieme in risposta a un evento di emergenza. È possibile configurare il failover continuo in qualsiasi momento e consentire l'esecuzione in background durante il normale funzionamento del sistema. In seguito a un evento di emergenza, il failover continuo viene completato per trasferire immediatamente la proprietà delle macchine virtuali protette al sito di ripristino (RTO quasi nullo).

Figura che mostra la finestra di dialogo input/output o rappresenta il contenuto scritto

Viene avviato il processo di failover continuo, che può essere monitorato dall'interfaccia utente. Facendo clic sull'icona blu nella sezione Current Step (fase corrente) viene visualizzata una finestra a comparsa che mostra i dettagli della fase corrente del processo di failover.

Failover e failover

In caso di disastro nel cluster protetto dell'ambiente on-premise (errore parziale o completo), è possibile attivare il failover per le macchine virtuali utilizzando Jetstream dopo aver interrotto la relazione SnapMirror per i rispettivi volumi applicativi.

Questo passaggio può essere facilmente automatizzato per facilitare il processo di recovery.
Accedere all'interfaccia utente Jetstream su AVS SDDC (lato destinazione) e attivare l'opzione di failover per completare il failover. La barra delle applicazioni mostra lo stato di avanzamento delle attività di failover.

Nella finestra di dialogo visualizzata al completamento del failover, è possibile specificare l'attività di failover come pianificata o presunta come forzata.

Il failover forzato presuppone che il sito primario non sia più accessibile e che la proprietà del dominio protetto debba essere direttamente assunta dal sito di ripristino.

Una volta completato il failover continuo, viene visualizzato un messaggio che conferma il completamento dell'attività. Al termine dell'attività, accedere alle macchine virtuali ripristinate per configurare le sessioni ISCSI o NFS.

La modalità di failover diventa in esecuzione in failover e lo stato della macchina virtuale è ripristinabile. Tutte le macchine virtuali del dominio protetto sono ora in esecuzione nel sito di ripristino nello stato specificato dalle impostazioni del runbook di failover.

Per verificare la configurazione e l'infrastruttura di failover, è possibile utilizzare JetStream DR in modalità test (opzione Test failover) per osservare il ripristino delle macchine virtuali e dei relativi dati dall'archivio di oggetti in un ambiente di test recovery. Quando una procedura di failover viene eseguita in modalità test, il suo funzionamento assomiglia a un processo di failover effettivo.

Figura che mostra la finestra di dialogo input/output o rappresenta il contenuto scritto

Una volta ripristinate le macchine virtuali, utilizzare il disaster recovery dello storage per lo storage in-guest. Per dimostrare questo processo, in questo esempio viene utilizzato SQL Server.

Accedere alla macchina virtuale SnapCenter recuperata su AVS SDDC e attivare la modalità DR.

Accedere all'interfaccia utente di SnapCenter utilizzando il browserN.
Nella pagina Settings (Impostazioni), accedere a Settings (Impostazioni) > Global Settings (Impostazioni globali) > Disaster Recovery (Ripristino di emergenza).
Selezionare Enable Disaster Recovery (attiva ripristino di emergenza).
Fare clic su Applica.

Verificare che il processo DR sia attivato facendo clic su Monitor > Jobs (Monitor > processi).

Per il disaster recovery dello storage è necessario utilizzare NetApp SnapCenter 4.6 o versione successiva. Per le versioni precedenti, è necessario utilizzare snapshot coerenti con l'applicazione (replicati utilizzando SnapMirror) e eseguire il ripristino manuale nel caso in cui i backup precedenti debbano essere ripristinati nel sito di disaster recovery.

Verificare che la relazione di SnapMirror non sia più stabilita.
Collegare il LUN da Cloud Volumes ONTAP alla macchina virtuale SQL guest recuperata con le stesse lettere di unità.
Aprire iSCSI Initiator, cancellare la sessione disconnessa precedente e aggiungere la nuova destinazione insieme al multipath per i volumi Cloud Volumes ONTAP replicati.
Assicurarsi che tutti i dischi siano collegati utilizzando le stesse lettere di unità utilizzate prima del DR.
Riavviare il servizio del server MSSQL.

Assicurarsi che le risorse SQL siano nuovamente in linea.

Figura che mostra la finestra di dialogo input/output o rappresenta il contenuto scritto

Nel caso di NFS, collegare i volumi utilizzando il comando mount e aggiornare /etc/fstab voci.

A questo punto, è possibile eseguire le operazioni e continuare normalmente il business.

Sull'estremità NSX-T, è possibile creare un gateway Tier-1 dedicato separato per simulare scenari di failover. Ciò garantisce che tutti i carichi di lavoro possano comunicare tra loro, ma che nessun traffico possa essere instradato all'interno o all'esterno dell'ambiente, in modo che qualsiasi attività di triage, contenimento o protezione avanzata possa essere eseguita senza rischi di contaminazione incrociata. Questa operazione non rientra nell'ambito del presente documento, ma può essere facilmente eseguita per simulare l'isolamento.

Una volta che il sito primario è stato nuovamente operativo, è possibile eseguire il failback. La protezione delle macchine virtuali viene ripristinata da Jetstream e la relazione SnapMirror deve essere invertita.

Ripristinare l'ambiente on-premise. A seconda del tipo di incidente, potrebbe essere necessario ripristinare e/o verificare la configurazione del cluster protetto. Se necessario, potrebbe essere necessario reinstallare il software DR JetStream.

Accedere all'ambiente on-premise ripristinato, accedere all'interfaccia utente DR Jetstream e selezionare il dominio protetto appropriato. Una volta che il sito protetto è pronto per il failback, selezionare l'opzione failover nell'interfaccia utente.

Il piano di failback generato da CPT può anche essere utilizzato per avviare il ritorno delle macchine virtuali e dei relativi dati dall'archivio di oggetti all'ambiente VMware originale.

Figura che mostra la finestra di dialogo input/output o rappresenta il contenuto scritto

Specificare il ritardo massimo dopo la pausa delle macchine virtuali nel sito di ripristino e il riavvio nel sito protetto. Il tempo necessario per completare questo processo include il completamento della replica dopo l'arresto delle macchine virtuali di failover, il tempo necessario per pulire il sito di ripristino e il tempo necessario per ricreare le macchine virtuali nel sito protetto. NetApp consiglia 10 minuti.

Figura che mostra la finestra di dialogo input/output o rappresenta il contenuto scritto

Completare il processo di failback e confermare la ripresa della protezione delle macchine virtuali e la coerenza dei dati.
Una volta ripristinate le macchine virtuali, scollegare lo storage secondario dall'host e connettersi allo storage primario.
Riavviare il servizio del server MSSQL.
Verificare che le risorse SQL siano nuovamente in linea.

Per eseguire il failback allo storage primario, assicurarsi che la direzione della relazione rimanga la stessa di prima del failover eseguendo un'operazione di risincronizzazione inversa.

Per mantenere i ruoli dello storage primario e secondario dopo l'operazione di risincronizzazione inversa, eseguire nuovamente l'operazione di risincronizzazione inversa.

Questo processo è applicabile ad altre applicazioni come Oracle, ad altri tipi di database simili e ad altre applicazioni che utilizzano lo storage connesso al guest.

Come sempre, verifica le fasi necessarie per il ripristino dei carichi di lavoro critici prima di portarli in produzione.

Vantaggi di questa soluzione

Utilizza la replica efficiente e resiliente di SnapMirror.
Effettua il ripristino in qualsiasi punto disponibile in tempo con la conservazione delle snapshot di ONTAP.
È disponibile un'automazione completa per tutte le fasi necessarie per il ripristino di centinaia o migliaia di macchine virtuali, dalle fasi di convalida di storage, calcolo, rete e applicazioni.
SnapCenter utilizza meccanismi di cloning che non modificano il volume replicato.
- In questo modo si evita il rischio di corruzione dei dati per volumi e snapshot.
- Evita le interruzioni di replica durante i flussi di lavoro dei test di DR.
- Sfrutta i dati di DR per flussi di lavoro oltre il DR, come sviluppo/test, test di sicurezza, test di patch e upgrade e test di correzione.
L'ottimizzazione della CPU e della RAM può contribuire a ridurre i costi del cloud consentendo il ripristino di cluster di calcolo più piccoli.

Disaster Recovery con CVO e AVS (storage connesso agli ospiti)

Creating your file...

Panoramica

Presupposti

Implementazione della soluzione DR

Panoramica sull'implementazione della soluzione

Dettagli sull'implementazione

Vantaggi di questa soluzione