Skip to main content
NetApp Solutions
La version française est une traduction automatique. La version anglaise prévaut sur la française en cas de divergence.

Reprise après incident avec CVO et AVS (stockage connecté à l'invité)

Contributeurs

La reprise d'activité dans le cloud est une solution résiliente et économique qui protège les charges de travail contre les pannes sur site et la corruption des données, comme les attaques par ransomware. NetApp SnapMirror permet de répliquer les charges de travail VMware sur site utilisant un stockage connecté à l'invité vers NetApp Cloud Volumes ONTAP exécuté dans Azure.

Présentation

Auteurs : Ravi BCB et Niyaz Mohamed, NetApp

 This covers application data; however, what about the actual VMs themselves. Disaster recovery should cover all dependent components, including virtual machines, VMDKs, application data, and more. To accomplish this, SnapMirror along with Jetstream can be used to seamlessly recover workloads replicated from on-premises to Cloud Volumes ONTAP while using vSAN storage for VM VMDKs.
Ce document présente une approche détaillée de la configuration et des performances de la reprise après incident à l'aide de NetApp SnapMirror, JetStream et d'Azure VMware solution (AVS).

Erreur : image graphique manquante

Hypothèses

Ce document est axé sur le stockage invité pour les données d'applications (également appelé « invité connecté »), et nous supposons que l'environnement sur site utilise SnapCenter pour assurer des sauvegardes cohérentes au niveau des applications.

Remarque Ce document s'applique à toute solution de sauvegarde et de restauration tierce. En fonction de la solution utilisée dans l'environnement, suivez les bonnes pratiques pour créer des stratégies de sauvegarde conformes aux SLA de l'entreprise.

Pour la connectivité entre l'environnement sur site et le réseau virtuel Azure, utilisez la voie express à portée globale ou un WAN virtuel avec une passerelle VPN. Les segments doivent être créés en fonction de la conception VLAN sur site.

Remarque Plusieurs options de connexion des data centers sur site à Azure restent disponibles. Ainsi, nous ne pouvons pas présenter un workflow spécifique dans ce document. Pour en savoir plus sur la méthode de connectivité, consultez la documentation Azure.

Déploiement de la solution de reprise d'activité

Présentation du déploiement de la solution

  1. Assurez-vous que les données applicatives sont sauvegardées à l'aide de SnapCenter avec les exigences de RPO requises.

  2. Provisionnez Cloud Volumes ONTAP avec la taille d'instance appropriée à l'aide de Cloud Manager dans l'abonnement et le réseau virtuel appropriés.

    1. Configurer SnapMirror pour les volumes applicatifs concernés.

    2. Mettez à jour les règles de sauvegarde dans SnapCenter pour déclencher des mises à jour SnapMirror après les tâches planifiées.

  3. Installez le logiciel JetStream DR dans le data Center sur site et commencez à protéger les machines virtuelles.

  4. Installez le logiciel JetStream DR dans le cloud privé Azure VMware solution.

  5. En cas d'incident, interrompre la relation SnapMirror avec Cloud Manager et déclencher le basculement des machines virtuelles vers des datastores Azure NetApp Files ou VSAN sur le site AVS dédié.

    1. Reconnectez les LUN ISCSI et les montages NFS pour les machines virtuelles d'applications.

  6. Annulez le rétablissement du site protégé après la restauration du site primaire.

Détails du déploiement

Configurez CVO pour Azure et répliquez les volumes dans CVO

La première étape consiste à configurer Cloud Volumes ONTAP sur Azure ("Lien") Et répliquez les volumes souhaités dans Cloud Volumes ONTAP avec les fréquences et les instantanés souhaités.

Erreur : image graphique manquante

Configurez l'accès aux données des hôtes AVS et CVO

Deux facteurs importants à prendre en compte lors du déploiement d'un SDDC sont la taille du cluster SDDC dans la solution Azure VMware et le délai de conservation d'un SDDC. Ces deux considérations clés à prendre en compte dans une solution de reprise sur incident permettent de réduire les coûts d'exploitation globaux. Le SDDC peut héberger jusqu'à trois hôtes, tout comme un cluster multi-hôtes dans un déploiement à grande échelle.

La décision de déployer un cluster AVS se base principalement sur les exigences en matière de RPO/RTO. Avec la solution Azure VMware, le SDDC peut être provisionné dans le temps en préparation des tests ou d'un incident. Un SDDC déployé juste à temps fait gagner des coûts d'hôtes ESXi lorsque vous ne traitez pas d'incident. Néanmoins, ce type de déploiement affecte le RTO de quelques heures lors du provisionnement du SDDC.

L'option la plus courante consiste à faire fonctionner le SDDC en mode de fonctionnement toujours actif avec un voyant allumé. Cette option réduit l'empreinte de trois hôtes disponibles en continu et accélère les opérations de reprise en fournissant une base en cours d'exécution pour les activités de simulation et les vérifications de conformité, ce qui évite le risque de dérive opérationnelle entre les sites de production et de reprise. Le cluster de lampe témoin peut être rapidement étendu au niveau souhaité si nécessaire pour gérer un événement de reprise après incident réel.

Pour configurer AVS (qu'il s'agit de IT à la demande ou en mode témoin lumineux), voir "Déploiement et configuration de l'environnement de virtualisation sur Azure". Avant cela, vérifiez que les machines virtuelles invitées résidant sur les hôtes AVS peuvent consommer des données depuis Cloud Volumes ONTAP une fois la connectivité établie.

Une fois que Cloud Volumes ONTAP et AVS ont été correctement configurés, commencez par configurer Jetstream pour automatiser la restauration des charges de travail sur site vers AVS (machines virtuelles avec VMDK des applications et machines virtuelles avec stockage « Guest ») à l'aide du mécanisme VAIO et en exploitant SnapMirror pour les copies de volumes d'applications vers Cloud Volumes ONTAP.

Installer JetStream DR dans le data Center sur site

Le logiciel Jetstream DR est constitué de trois composants principaux : le serveur virtuel JetStream DR Management Server (MSA), le dispositif virtuel DR (DRVA) et les composants hôtes (packages de filtres E/S). MSA est utilisé pour installer et configurer des composants hôtes sur le cluster de calcul, puis pour administrer le logiciel JetStream DR. La procédure d'installation est la suivante :

  1. Vérifiez les prérequis.

  2. Exécutez l'outil de planification de la capacité pour obtenir des recommandations en matière de ressources et de configuration.

  3. Déployez JetStream DR MSA sur chaque hôte vSphere du cluster désigné.

  4. Lancez le MSA à l'aide de son nom DNS dans un navigateur.

  5. Enregistrez le serveur vCenter avec MSA.

  6. Après le déploiement de JetStream DR MSA et l'enregistrement du serveur vCenter, accédez au plug-in JetStream DR avec le client Web vSphere. Pour ce faire, accédez à Datacenter > configurer > JetStream DR.

    Erreur : image graphique manquante

  7. À partir de l'interface JetStream DR, effectuez les tâches suivantes :

    1. Configurez le cluster avec le package de filtre d'E/S.

      Erreur : image graphique manquante

    2. Ajoutez le stockage Azure Blob situé sur le site de reprise.

      Erreur : image graphique manquante

  8. Déployez le nombre requis d'appliances virtuelles de reprise sur incident (DR) dans l'onglet appliances.

    Remarque Utiliser l'outil de planification de la capacité pour estimer le nombre d'ACR requis.

    Erreur : image graphique manquante

    Erreur : image graphique manquante

  9. Créez des volumes de journal de réplication pour chaque DRVA à l'aide du VMDK provenant des datastores disponibles ou du pool de stockage iSCSI partagé indépendant.

    Erreur : image graphique manquante

  10. À partir de l'onglet domaines protégés, créez le nombre requis de domaines protégés à l'aide des informations concernant le site Azure Blob Storage, l'instance DRVA et le journal de réplication. Un domaine protégé définit un ordinateur virtuel ou un ensemble de VM d'applications spécifiques au sein du cluster, qui sont protégés ensemble et ont un ordre de priorité pour les opérations de basculement/retour arrière.

    Erreur : image graphique manquante

    Erreur : image graphique manquante

  11. Sélectionnez les VM à protéger et regroupez-les dans des groupes d'applications en fonction de la dépendance. Les définitions d'application vous permettent de regrouper des jeux de machines virtuelles en groupes logiques contenant leurs ordres de démarrage, leurs retards de démarrage et les validations d'applications en option qui peuvent être exécutées à la reprise.

    Remarque Assurez-vous que le même mode de protection est utilisé pour toutes les machines virtuelles d'un domaine protégé.
    Remarque Le mode Write-Back (VMDK) offre de meilleures performances.

    Erreur : image graphique manquante

  12. Assurez-vous que les volumes des journaux de réplication sont placés sur un stockage haute performance.

    Erreur : image graphique manquante

  13. Une fois que vous avez terminé, cliquez sur Démarrer la protection du domaine protégé. La réplication des données démarre pour les machines virtuelles sélectionnées vers le magasin de objets blob désigné.

    Erreur : image graphique manquante

  14. Une fois la réplication terminée, l'état de protection de la VM est marqué comme récupérable.

    Erreur : image graphique manquante

    Remarque Les runbooks de basculement peuvent être configurés pour regrouper les VM (appelé groupe de reprise), définir l'ordre de démarrage et modifier les paramètres CPU/mémoire avec les configurations IP.
  15. Cliquez sur Paramètres, puis sur le lien Runbook Configure pour configurer le groupe Runbook.

    Erreur : image graphique manquante

  16. Cliquez sur le bouton Créer un groupe pour commencer à créer un nouveau groupe de runbook.

    Remarque Si nécessaire, dans la partie inférieure de l'écran, appliquez des pré-scripts personnalisés et des post-scripts pour s'exécuter automatiquement avant et après l'opération du groupe Runbook. Assurez-vous que les scripts Runbook résident sur le serveur de gestion.

    Erreur : image graphique manquante

  17. Modifiez les paramètres de la machine virtuelle selon vos besoins. Spécifier les paramètres de restauration des VM, y compris la séquence de démarrage, le délai de démarrage (spécifié en secondes), le nombre de CPU et la quantité de mémoire à allouer. Modifier la séquence de démarrage des machines virtuelles en cliquant sur les flèches vers le haut ou vers le bas. Des options sont également fournies pour conserver MAC.

    Erreur : image graphique manquante

  18. Les adresses IP statiques peuvent être configurées manuellement pour les machines virtuelles individuelles du groupe. Cliquez sur le lien vue NIC d'une machine virtuelle pour configurer manuellement ses paramètres d'adresse IP.

    Erreur : image graphique manquante

  19. Cliquez sur le bouton configurer pour enregistrer les paramètres NIC pour les machines virtuelles respectives.

    Erreur : image graphique manquante

    Erreur : image graphique manquante

L'état des runbooks de basculement et de retour arrière est désormais répertorié comme configuré. Les groupes de runbooks de basculement et de retour arrière sont créés par paires en utilisant le même groupe initial de machines virtuelles et de paramètres. Si nécessaire, les paramètres d'un groupe de runbook peuvent être personnalisés individuellement en cliquant sur son lien Détails respectifs et en effectuant des modifications.

Installer JetStream DR pour AVS dans le cloud privé

Il est recommandé de créer à l'avance un cluster Pilot-light à trois nœuds sur le site de récupération (AVS). L'infrastructure du site de reprise peut ainsi être préconfigurée, notamment :

  • Segments de réseau de destination, pare-feu, services comme DHCP et DNS, etc

  • Installation de JetStream DR pour AVS

  • Configuration des volumes ANF comme datastore et plus encore

Jetstream DR prend en charge un mode RTO proche de zéro pour les domaines stratégiques. Pour ces domaines, le stockage de destination doit être préinstallé. ANF est un type de stockage recommandé dans ce cas.

Remarque La configuration réseau comprenant la création de segments doit être configurée sur le cluster AVS afin de répondre aux exigences sur site.
Remarque Selon les exigences des contrats de niveau de service et de durée de restauration, vous pouvez utiliser un mode de basculement continu ou standard. Pour un RTO proche de zéro, vous devez commencer la réhydratation continue sur le site de restauration.
  1. Pour installer JetStream DR pour AVS sur un cloud privé Azure VMware solution, utilisez la commande Exécuter. Depuis le portail Azure, accédez à la solution VMware Azure, sélectionnez le cloud privé et sélectionnez Exécuter la commande > packages > JSDR.Configuration.

    Remarque L'utilisateur CloudAdmin par défaut de la solution Azure VMware ne dispose pas des privilèges suffisants pour installer JetStream DR pour AVS. La solution Azure VMware permet une installation simplifiée et automatisée de JetStream DR en appelant la commande Azure VMware solution Run pour JetStream DR.

    La capture d'écran suivante montre l'installation à l'aide d'une adresse IP DHCP.

    Erreur : image graphique manquante

  2. Une fois l'installation de JetStream DR pour AVS terminée, actualisez le navigateur. Pour accéder à l'interface de reprise après incident JetStream, allez dans SDDC Datacenter > configurer > JetStream DR.

    Erreur : image graphique manquante

  3. À partir de l'interface JetStream DR, effectuez les tâches suivantes :

    1. Ajoutez le compte Azure Blob Storage qui a été utilisé pour protéger le cluster sur site en tant que site de stockage, puis exécutez l'option Scan Domains.

    2. Dans la boîte de dialogue qui s'affiche, sélectionnez le domaine protégé à importer, puis cliquez sur son lien Importer.

      Erreur : image graphique manquante

  4. Le domaine est importé pour la récupération. Accédez à l'onglet domaines protégés et vérifiez que le domaine prévu a été sélectionné ou choisissez le domaine souhaité dans le menu Sélectionner un domaine protégé. La liste des VM récupérables du domaine protégé s'affiche.

    Erreur : image graphique manquante

  5. Une fois les domaines protégés importés, déployez les appareils DRVA.

    Remarque Ces étapes peuvent également être automatisées à l'aide de plans créés par CPT.
  6. Créez des volumes du journal de réplication à l'aide des datastores VSAN ou ANF disponibles.

  7. Importez les domaines protégés et configurez le va de restauration de manière à utiliser un datastore ANF pour le positionnement des VM.

    Erreur : image graphique manquante

    Remarque Assurez-vous que DHCP est activé sur le segment sélectionné et qu'un nombre suffisant d'adresses IP est disponible. Des adresses IP dynamiques sont utilisées temporairement pendant la restauration des domaines. Chaque machine virtuelle de restauration (y compris la réhydratation continue) requiert une adresse IP dynamique individuelle. Une fois la récupération terminée, le IP est libéré et peut être réutilisé.
  8. Sélectionnez l'option de basculement appropriée (basculement continu ou basculement). Dans cet exemple, la réhydratation continue (basculement continu) est sélectionnée.

    Remarque Bien que les modes de basculement et de basculement continu diffèrent lorsque la configuration est effectuée, les deux modes de basculement sont configurés à l'aide des mêmes étapes. Les étapes de basculement sont configurées et effectuées ensemble en cas d'incident. Le basculement continu peut être configuré à tout moment, puis s'exécuter en arrière-plan pendant le fonctionnement normal du système. Après un incident, un basculement continu est effectué pour transférer immédiatement la propriété des machines virtuelles protégées vers le site de reprise (RTO quasi nul).

    Erreur : image graphique manquante

Le processus de basculement continu démarre et sa progression peut être surveillée dans l'interface utilisateur. Un clic sur l'icône bleue dans la section Etape actuelle permet d'afficher une fenêtre contextuelle affichant les détails de l'étape en cours du processus de basculement.

Basculement et rétablissement
  1. Après un incident se produit dans le cluster protégé de l'environnement sur site (défaillance partielle ou complète), vous pouvez déclencher le basculement pour les machines virtuelles à l'aide de Jetstream après avoir déclenché la relation SnapMirror pour les volumes d'application respectifs.

    Erreur : image graphique manquante

    Erreur : image graphique manquante

    Remarque Cette étape peut facilement être automatisée afin de faciliter le processus de reprise.
  2. Accédez à l'interface utilisateur Jetstream sur AVS SDDC (côté destination) et activez l'option de basculement pour terminer le basculement. La barre des tâches affiche la progression des activités de basculement.

    Dans la boîte de dialogue qui s'affiche lors de la fin du basculement, la tâche de basculement peut être spécifiée comme planifié ou supposée être forcée.

    Erreur : image graphique manquante

    Erreur : image graphique manquante

    Le basculement forcé suppose que le site principal n'est plus accessible et que la propriété du domaine protégé devrait être directement assumée par le site de reprise.

    Erreur : image graphique manquante

    Erreur : image graphique manquante

  3. Une fois le basculement continu terminé, un message confirmant la fin de la tâche s'affiche. Une fois la tâche terminée, accédez aux VM récupérées pour configurer les sessions ISCSI ou NFS.

    Remarque Le mode de basculement passe en mode d'exécution en basculement et l'état de la VM peut être récupérable. Toutes les machines virtuelles du domaine protégé sont à présent exécutées sur le site de reprise, dans l'état spécifié par les paramètres de runbook de basculement.
    Remarque Pour vérifier la configuration et l'infrastructure de basculement, JetStream DR peut être utilisé en mode test (option Test Failover) afin d'observer la récupération des machines virtuelles et de leurs données à partir du magasin d'objets dans un environnement de restauration de test. Lorsqu'une procédure de basculement est exécutée en mode test, son fonctionnement ressemble à un processus de basculement réel.

    Erreur : image graphique manquante

  4. Une fois les machines virtuelles restaurées, utilisez la reprise après incident du stockage pour le stockage invité. Pour démontrer ce processus, SQL Server est utilisé dans cet exemple.

  5. Connectez-vous à la machine virtuelle SnapCenter récupérée sur AVS SDDC et activez le mode DR.

    1. Accédez à l'interface utilisateur SnapCenter à l'aide du navigateur.

      Erreur : image graphique manquante

    2. Dans la page Paramètres, accédez à Paramètres > Paramètres globaux > reprise après incident.

    3. Sélectionnez Activer la reprise après incident.

    4. Cliquez sur appliquer.

      Erreur : image graphique manquante

    5. Vérifiez si la tâche DR est activée en cliquant sur Monitor > Jobs.

      Remarque NetApp SnapCenter 4.6 ou version ultérieure doit être utilisé pour la reprise après incident du stockage. Pour les versions précédentes, des snapshots cohérents avec les applications (répliqués à l'aide de SnapMirror) doivent être utilisés. Il convient également d'exécuter une restauration manuelle si les sauvegardes précédentes doivent être restaurées sur le site de reprise après incident.
  6. S'assurer que la relation SnapMirror est rompue.

    Erreur : image graphique manquante

  7. Reliez le LUN de Cloud Volumes ONTAP à la machine virtuelle hôte SQL récupérée à l'aide des mêmes lettres de disque.

    Erreur : image graphique manquante

  8. Ouvrez l'initiateur iSCSI, effacez la session précédente déconnectée et ajoutez la nouvelle cible avec les chemins d'accès multiples pour les volumes Cloud Volumes ONTAP répliqués.

    Erreur : image graphique manquante

  9. Assurez-vous que tous les disques sont connectés à l'aide des mêmes lettres que celles utilisées avant la reprise sur incident.

    Erreur : image graphique manquante

  10. Redémarrez le service serveur MSSQL.

    Erreur : image graphique manquante

  11. Assurez-vous que les ressources SQL sont de nouveau en ligne.

    Erreur : image graphique manquante

    Remarque Dans le cas d'un système NFS, reliez les volumes à l'aide de la commande mount et mettez à jour le /etc/fstab entrées.

    À ce stade, le fonctionnement de l'entreprise peut se faire et son activité se poursuit normalement.

    Remarque Sur la fin NSX-T, il est possible de créer une passerelle de niveau 1 dédiée distincte pour simuler des scénarios de basculement. Cela permet de s'assurer que toutes les charges de travail peuvent communiquer les unes avec les autres, mais qu'aucun trafic ne peut être acheminé depuis et vers l'environnement, de manière à ce que les tâches de triage, de confinement ou de durcissement puissent être effectuées sans risque de contamination croisée. Cette opération est hors du champ d'application de ce document, mais elle peut être facilement réalisée pour simuler l'isolement.

Une fois que le site primaire est de nouveau opérationnel, vous pouvez effectuer le rétablissement. La protection de machine virtuelle est reprise par Jetstream et la relation SnapMirror doit être inversée.

  1. Restaurer l'environnement sur site. Selon le type d'incident, il peut être nécessaire de restaurer et/ou de vérifier la configuration du cluster protégé. Si nécessaire, il peut être nécessaire de réinstaller le logiciel JetStream DR.

  2. Accédez à l'environnement sur site restauré, accédez à l'interface utilisateur Jetstream DR et sélectionnez le domaine protégé approprié. Une fois que le site protégé est prêt à être restauré, sélectionnez l'option de retour arrière dans l'interface utilisateur.

    Remarque Le plan de restauration généré par CPT peut également être utilisé pour initier le retour des VM et de leurs données du magasin d'objets vers l'environnement VMware d'origine.

    Erreur : image graphique manquante

    Remarque Préciser le délai maximal après la mise en pause des VM dans le site de reprise, puis leur redémarrage sur le site protégé. Le temps nécessaire à l'exécution de ce processus comprend l'achèvement de la réplication après l'arrêt des VM de basculement, le temps nécessaire pour nettoyer le site de reprise et le temps nécessaire pour recréer les VM sur le site protégé. NetApp recommande 10 minutes.

    Erreur : image graphique manquante

  3. Suivre le processus de retour arrière, puis confirmer la reprise de la protection des machines virtuelles et la cohérence des données.

    Erreur : image graphique manquante

  4. Une fois les machines virtuelles restaurées, déconnectez le stockage secondaire de l'hôte et connectez-vous au stockage primaire.

    Erreur : image graphique manquante

    Erreur : image graphique manquante

  5. Redémarrez le service serveur MSSQL.

  6. Vérifiez que les ressources SQL sont de nouveau en ligne.

    Erreur : image graphique manquante

    Remarque Pour revenir au stockage primaire, veillez à ce que la direction de la relation reste la même qu'avant le basculement en effectuant une opération de resynchronisation inverse.
    Remarque Pour conserver les rôles de stockage primaire et secondaire après l'opération de resynchronisation inverse, effectuez à nouveau l'opération de resynchronisation inverse.

Ce processus s'applique à d'autres applications telles qu'Oracle, des versions similaires des bases de données et à toutes les autres applications qui utilisent un système de stockage connecté par l'invité.

Comme toujours, testez les étapes de récupération des charges de travail critiques avant de les porter en production.

Avantages de cette solution

  • Utilise la réplication efficace et résiliente de SnapMirror.

  • Restauration des points disponibles à temps avec la conservation des snapshots de ONTAP.

  • Une automatisation complète est disponible pour toutes les étapes nécessaires à la restauration de centaines de milliers de machines virtuelles, depuis les étapes de validation du stockage, du calcul, du réseau et des applications.

  • SnapCenter utilise des mécanismes de clonage qui ne modifient pas le volume répliqué.

    • Cela permet d'éviter le risque de corruption des données pour les volumes et les snapshots.

    • Evite les interruptions de réplication pendant les workflows de test de reprise après incident

    • Optimise les données de reprise après incident pour les flux de travail autres que la reprise après incident, comme le développement/test, les tests de sécurité, les tests de correctifs et de mise à niveau, et les tests de résolution des problèmes.

  • L'optimisation du processeur et de la RAM permet de réduire les coûts liés au cloud en permettant la restauration sur des clusters de calcul plus petits.