简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

TR-4657 : NetApp 混合云数据解决方案—基于客户用例的 Spark 和 Hadoop

提供者

NetApp 公司 Karthikeyan Nagalingam 和 Sathish Thyagarajan

本文档介绍使用 NetApp AFF 和 FAS 存储系统, NetApp Cloud Volumes ONTAP , NetApp 互联存储以及适用于 Spark 和 Hadoop 的 NetApp FlexClone 技术的混合云数据解决方案。客户可以通过这些解决方案架构为其环境选择合适的数据保护解决方案。NetApp 在与客户及其业务用例进行交互的基础上设计了这些解决方案。本文档提供了以下详细信息:

  • 为什么我们需要针对 Spark 和 Hadoop 环境以及客户面临的挑战提供数据保护。

  • 由 NetApp 愿景提供支持的 Data Fabric 及其组件和服务。

  • 如何使用这些组件构建灵活的数据保护工作流。

  • 根据实际客户使用情形确定的多个架构的优缺点。每个用例都包含以下组件:

    • 客户情形

    • 要求和挑战

    • 解决方案

    • 解决方案摘要

为什么选择 Hadoop 数据保护?

在 Hadoop 和 Spark 环境中,必须解决以下问题:

  • * 软件或人为故障。 * 执行 Hadoop 数据操作时,软件更新中出现人为错误,可能导致出现错误行为,发生原因从而可能导致作业产生意外结果。在这种情况下,我们需要保护数据,以避免出现故障或出现不合理的结果。例如,由于对流量信号分析应用程序进行的软件更新执行不当,这是一项新功能,无法以纯文本的形式正确分析流量信号数据。该软件仍会分析 JSON 和其他非文本文件格式,从而导致实时流量控制分析系统生成缺少数据点的预测结果。这种情况可能会导致发生原因输出出现故障,从而可能导致交通信号发生意外。通过提供快速回滚到先前工作应用程序版本的功能,数据保护可以解决此问题描述问题。

  • * 大小和规模。 * 由于数据源和卷的数量不断增加,分析数据的大小每天都在增长。社交媒体,移动应用程序,数据分析和云计算平台是当前大数据市场中的主要数据源,该市场的增长速度非常快,因此需要对数据进行保护,以确保准确的数据运行。

  • * Hadoop 的原生数据保护。 * Hadoop 具有一个原生命令来保护数据,但此命令不会在备份期间提供数据的一致性。它仅支持目录级备份。Hadoop 创建的快照为只读快照,不能用于直接重复使用备份数据。

Hadoop 和 Spark 客户面临的数据保护挑战

Hadoop 和 Spark 客户面临的一个常见挑战是,在数据保护期间,在不对生产集群性能产生负面影响的情况下,缩短备份时间并提高备份可靠性。

客户还需要最大限度地减少恢复点目标( RPO )和恢复时间目标( RTO )停机时间,并控制其内部和基于云的灾难恢复站点,以实现最佳业务连续性。这种控制通常来自企业级管理工具。

Hadoop 和 Spark 环境非常复杂,因为不仅数据量庞大且不断增长,而且数据的到达速度也在不断提高。在这种情况下,很难从源数据快速创建高效,最新的 DevTest 和 QA 环境。NetApp 认识到这些挑战,并提供了本白皮书中介绍的解决方案。