用例 1:备份 Hadoop 数据
在这种情况下,客户拥有一个大型的内部部署 Hadoop 存储库,并希望将其备份以用于灾难恢复目的。然而,客户当前的备份解决方案成本高昂,并且备份窗口长达 24 小时以上。
要求和挑战
此用例的主要要求和挑战包括:
-
软件向后兼容性:
-
所提出的替代备份解决方案应与生产 Hadoop 集群中当前运行的软件版本兼容。
-
-
为了满足承诺的 SLA,建议的替代解决方案应该实现非常低的 RPO 和 RTO。
-
NetApp备份解决方案创建的备份可用于在数据中心本地构建的 Hadoop 集群以及在远程站点的灾难恢复位置运行的 Hadoop 集群。
-
所提出的解决方案必须具有成本效益。
-
所提出的解决方案必须减少备份期间对当前正在运行的生产分析作业的性能影响。
客户现有的备份解决方案x
下图是原有的Hadoop原生备份方案。
生产数据通过中间备份集群保护到磁带上:
-
通过运行以下命令将 HDFS1 数据复制到 HDFS2 `hadoop distcp -update <hdfs1> <hdfs2>`命令。
-
备份集群充当NFS网关,通过Linux手动将数据复制到磁带 `cp`通过磁带库命令。
Hadoop原生备份方案的优势包括:
-
该解决方案基于 Hadoop 原生命令,使用户无需学习新的程序。
-
该解决方案利用行业标准架构和硬件。
原有Hadoop原生备份方案的缺点包括:
-
备份窗口时间过长超过24小时,导致生产数据容易受到攻击。
-
备份期间集群性能明显下降。
-
复制到磁带是一个手动过程。
-
就所需硬件和手动流程所需的人力而言,备份解决方案的成本很高。
备份解决方案
基于这些挑战和要求,并考虑到现有的备份系统,提出了三种可能的备份解决方案。以下小节分别描述这三种不同的备份解决方案,标记为解决方案 A 到解决方案 C。
解决方案 A
在解决方案 A 中,备份 Hadoop 集群将二级备份发送到NetApp NFS 存储系统,从而无需磁带,如下图所示。
解决方案A的详细任务包括:
-
生产 Hadoop 集群在需要保护的 HDFS 中拥有客户的分析数据。
-
带有 HDFS 的备份 Hadoop 集群充当数据的中间位置。只需一组磁盘(JBOD)即可为生产和备份 Hadoop 集群中的 HDFS 提供存储。
-
通过运行 `Hadoop distcp –update –diff <hdfs1> <hdfs2>`命令。
|
Hadoop快照用于保护从生产到备份Hadoop集群的数据。 |
-
NetApp ONTAP存储控制器提供 NFS 导出卷,该卷配置给备份 Hadoop 集群。
-
通过运行 `Hadoop distcp`命令利用 MapReduce 和多个映射器,分析数据从备份 Hadoop 集群到 NFS 受到保护。
将数据存储在NetApp存储系统上的 NFS 中后,根据需要使用NetApp Snapshot、 SnapRestore和FlexClone技术备份、恢复和复制 Hadoop 数据。
|
通过使用SnapMirror技术,Hadoop 数据可以受到保护,保存到云端以及灾难恢复位置。 |
解决方案A的优点包括:
-
Hadoop 生产数据受到备份集群的保护。
-
HDFS 数据通过 NFS 进行保护,从而实现对云和灾难恢复位置的保护。
-
通过将备份操作卸载到备份集群来提高性能。
-
消除手动磁带操作
-
允许通过NetApp工具实现企业管理功能。
-
只需对现有环境进行最少的改变。
-
是一种经济有效的解决方案。
该解决方案的缺点是它需要备份集群和额外的映射器来提高性能。
客户最近部署了解决方案 A,因为它简单、成本低且整体性能好。
在此解决方案中,可以使用ONTAP的 SAN 磁盘代替 JBOD。此选项将备份集群存储负载转移至ONTAP;但缺点是需要 SAN 结构交换机。
解决方案 B
解决方案B将NFS卷添加到生产Hadoop集群,从而无需备份Hadoop集群,如下图所示。
解决方案B的详细任务包括:
-
NetApp ONTAP存储控制器将 NFS 导出配置到生产 Hadoop 集群。
Hadoop 原生 `hadoop distcp`命令将 Hadoop 数据从生产集群 HDFS 保护到 NFS。
-
将数据存储在NetApp存储系统的NFS中后,根据需要使用Snapshot、 SnapRestore、 FlexClone技术对Hadoop数据进行备份、恢复、复制。
解决方案B的优点包括:
-
生产集群针对备份解决方案进行了轻微修改,简化了实施并降低了额外的基础设施成本。
-
备份操作不需要备份集群。
-
HDFS 生产数据在转换为 NFS 数据时受到保护。
-
该解决方案允许通过NetApp工具实现企业管理功能。
该解决方案的缺点是它是在生产集群中实现的,这会在生产集群中增加额外的管理员任务。
解决方案 C
在解决方案 C 中, NetApp SAN 卷直接配置到 Hadoop 生产集群用于 HDFS 存储,如下图所示。
解决方案C的详细步骤包括:
-
NetApp ONTAP SAN 存储在生产 Hadoop 集群中配置用于 HDFS 数据存储。
-
NetApp Snapshot 和SnapMirror技术用于备份生产 Hadoop 集群的 HDFS 数据。
-
由于备份位于存储层,因此 Snapshot 复制备份过程中不会对 Hadoop/Spark 集群的生产性能产生影响。
|
快照技术可提供在几秒钟内完成的备份,无论数据大小如何。 |
解决方案C的优点包括:
-
可以使用快照技术创建节省空间的备份。
-
允许通过NetApp工具实现企业管理功能。