简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

最佳实践:采用 Cleondris 的 NetApp HCI 灾难恢复

提供者 kevin-hoke 下载此页面的 PDF

成功建议

以下提示可帮助您更成功地完成 BCDr 工作。

应用程序

了解您的应用程序及其工作原理。您在这些故障转移上花费的时间越多,您的实际故障转移和测试故障转移就越成功。如果出现问题,您将能够更快地解决这些问题。

首先保护一个应用程序。选择一个相对简单的选项,并向对等方和管理层演示测试故障转移。此演示将帮助您获得管理和对等支持,在保护其他应用程序之前,此测试将帮助您了解更多信息。

第 1 层应用程序应位于其自己的卷上。

实践

您需要在尽可能切合实际的情况下经常练习。例如,在异地练习,有时会在酒店会议室中使用较差的网络。经常练习是关键,请尝试改变团队,以便应用程序团队 X 能够恢复应用程序 Y ;这种方法有助于知识共享。

执行发起人

请确保获得执行发起人。当各个团队之间的协作不好或者您需要应用程序团队合理地安排恢复时间时,您需要获得高管支持。

计划部分中断或完全中断

大多数灾难恢复事件都是部分灾难恢复事件,因此请确保第 1 层应用程序可以恢复,而无需恢复所有内容。

触发时间

练习故障转移,同时练习管理有权触发故障转移的其他人。他们需要练习,并且需要了解故障转移的成功与否。确保他们尽可能在现实的场景中与您一起练习。您可以执行沙桌式练习,让操作人员提出问题,经理讨论他们的响应。

灾难恢复为何失败?

灾难恢复计划失败的原因有多种:

  • 需要 BCDr 。

  • 态度缺失:人们不会过多地关注。

  • 缺少执行发起人或未分配此发起人。

  • 实践不足或不够真实。

  • 测试中的数据会流入产品。这种情况非常严重,必须避免。

灾难恢复业务流程工具的其他用途

随着时间的推移,客户发现灾难恢复流程编排工具还有其他用途。例如,他们会在测试故障转移中测试应用程序和操作系统升级。此测试优于实验室测试,因为它使用实际生产位,这意味着,在生产环境中完成此过程将与测试故障转移过程一样平稳。此外,我还发现,安全漏洞测试是在测试故障转移时首先完成的,用于确定哪些应用程序可能会受到负面影响。

主动 - 主动站点

目前,要保护主动 - 主动站点,您必须在两个站点上安装 HCC 并正常进行保护。目前尚无保护概述。最佳模式是主动 - 主动,因为您可以将应用程序拆分为两个站点;发生中断时,只需进行一半故障转移。

允许在测试故障转移中使用额外资源

有时,在测试故障转移中需要有更多资源,以便可以进行正确的应用程序测试。例如,这些资源可能包括物理防垃圾邮件设备或负载平衡器等内容。此外,您还可以包括数据库等内容,这些内容可能会导致发生原因问题,因为您必须确保测试数据不会投入生产。要可靠地执行此过程,请参考以下步骤。

  1. 脚本会在灾难恢复测试过程中执行(或在必要时使用手动过程)。

  2. 此时将创建一个单独的逻辑分区( LPAR )。

  3. 虚拟网络将添加到单独的 LPAR 中,并且它已连接到测试网络。

  4. 脚本会将相应数据导出并复制到单独的新 LPAR 。您可能还需要将应用程序放在单独的分区上。

  5. 要访问此新服务器,您可能需要在测试网络中调整 DNS 名称或应用程序的配置。

  6. 测试成功完成。

  7. 完成测试并进行清理后,另一个脚本将运行,并删除单独的分区。该步骤可防止任何事情意外投入生产。

您可以使用类似的过程使域控制器进入测试故障转移:

  1. 关闭灾难恢复站点中的域控制器。确保还有其他域控制器仍在运行。

  2. 关闭域控制器后,将其克隆。

  3. 打开原始域控制器的电源。

  4. 将克隆的域控制器置于测试网络上。

  5. 打开克隆域控制器的电源。

  6. 您现在应该能够在测试中使用域控制器,无论是用于身份验证还是 DNS 。

  7. 完成测试后,删除克隆的域控制器。请勿跳过此步骤,因为您不希望该域数据库与生产域进行通信。

最好编写这些步骤的脚本并从恢复计划中执行该脚本。但是,要执行此操作,您需要一个脚本或批处理文件,该脚本或批处理文件可以判断它是在测试中执行还是在实际故障转移中执行,而在实际故障转移中,它不起作用。

系统日志

使用系统日志从 Cleondris 捕获事件非常有用。安全性或操作等组可能会受益。

  1. 要执行此操作,请使用设置页面和事件选项卡。然后使用添加接收器按钮。

错误:缺少图形映像

  1. 指定要发送的事件。在本示例中,最佳做法可能是现在发送所有这些消息。选择相应框;有些不适用于 Cleondris HCC 和 BCDr ,但如果不使用它们,则不会生成这些框。

您可以在列表底部的事件部分中查看 BCDr 事件。

错误:缺少图形映像

虚拟机状态

虚拟机状态会在故障转移期间保留下来。在生产环境中启动或关闭的虚拟机在故障转移后或测试故障转移期间仍保持相同状态。但是,请注意, HCC 每 20 分钟扫描一次 vCenter 。因此,您需要等待该扫描,或者使用 HCC 中的刷新按钮立即刷新。

错误:缺少图形映像

添加 " 仅执行帐户 "

只有执行帐户对于管理器在不保存更改的情况下触发故障转移非常有用。您自己创建此帐户。首先,创建具有以下权限的角色:

  • 登录

  • Inventory_sf_view

  • Inventory_vc_view

  • restore_exec_sf_failover

  • failover_view

  • failover_job_modify

  • failover_config_view

完成此角色后,创建具有此角色的用户;生成的帐户为只执行帐户。这组权限允许用户查看和更改内容,但不能保存更改。

闲置超时

可以将此参数设置为在浏览器中无活动时执行自动注销。使用其他选项卡将视为活动。

选择设置选项,然后选择高级选项卡以查看高级配置窗口。

错误:缺少图形映像

单击添加选项按钮以添加选项和值。在上面的屏幕截图中,如果浏览器中没有任何活动,则必须在超时之前经过 360 秒。

清单重新扫描

如果未保留虚拟机状态,则会使用清单重新扫描设置。例如,如果 VM 在生产环境中关闭,则不应在故障转移中打开其电源。可以将重新扫描间隔的值设置为 5 分钟到 1440 分钟;默认情况下,该值设置为 20 分钟。

错误:缺少图形映像

在上一屏幕截图中,此间隔设置为 10 分钟。

请注意,此设置会更改 vCenter 重新扫描时间以及 SolidFire 重新扫描时间。

常规支持

以下最佳实践可改善您与 Cleondris 的合作体验,并为您提供支持。

  • 在请求支持时,请始终提供支持包。

错误:缺少图形映像

  • 对于某些边缘情形,额外的日志记录对于支持非常有用。启用其他日志记录,然后执行您再次遇到问题的操作。然后,您可以删除 log.level ,因为您不希望定期调试此级别。

错误:缺少图形映像

  • 在某些情况下,繁忙的 vCenter Server 设备( VCSA )可能会出现发生原因问题。要最大程度地减少此问题,请向 VCSA 添加更多内存。

  • 此外,如果在测试故障转移中可能无法清理一个或两个 VM ,也可能会导致出现问题。您可以通过以下步骤清理这些 VM :

    • 关闭 VM 。这可能需要一些时间。

    • 从清单中删除 VM 。通常,这两个步骤会使数据存储库消失。然后,您可以执行重新扫描存储操作。