사용 사례 1: Hadoop 데이터 백업
이 시나리오에서는 고객이 대규모 사내 Hadoop 저장소를 보유하고 있으며 재해 복구를 위해 백업하려고 합니다. 그러나 고객의 현재 백업 솔루션은 비용이 많이 들고 24시간 이상의 긴 백업 윈도우에 어려움을 겪고 있습니다.
요구사항 및 당면 과제
이 사용 사례의 주요 요구사항과 과제는 다음과 같습니다.
-
소프트웨어 하위 호환성:
-
제안된 대체 백업 솔루션은 운영 Hadoop 클러스터에 사용되는 현재 실행 중인 소프트웨어 버전과 호환되어야 합니다.
-
-
확정된 SLA를 충족하기 위해 제안된 대체 솔루션은 매우 낮은 RPO 및 RTO를 달성해야 합니다.
-
NetApp 백업 솔루션을 통해 생성된 백업은 데이터 센터에서 로컬로 구축된 Hadoop 클러스터뿐만 아니라 원격 사이트의 재해 복구 위치에서 실행되는 Hadoop 클러스터에서도 사용할 수 있습니다.
-
제안된 솔루션은 비용 효율적이어야 합니다.
-
제안 솔루션은 백업 시간 동안 현재 실행 중인 운영 중인 분석 작업의 성능 영향을 줄여야 합니다.
고객의 기존 백업 솔루션 x
아래 그림은 원래 Hadoop 네이티브 백업 솔루션을 보여 줍니다.
운영 데이터는 중간 백업 클러스터를 통해 테이프로 보호됩니다.
-
HDFS1 데이터는 'Hadoop distcp-update<hdfs1><hdfs2>' 명령을 실행하여 HDFS2에 복사됩니다.
-
백업 클러스터는 NFS 게이트웨이 역할을 하며 테이프 라이브러리를 통해 Linux 'CP' 명령을 통해 테이프에 데이터를 수동으로 복사합니다.
원래 Hadoop 네이티브 백업 솔루션의 이점은 다음과 같습니다.
-
이 솔루션은 Hadoop 기본 명령을 기반으로 하므로 사용자가 새로운 절차를 배울 필요가 없습니다.
-
이 솔루션은 업계 표준 아키텍처와 하드웨어를 활용합니다.
원래 Hadoop 네이티브 백업 솔루션의 단점은 다음과 같습니다.
-
긴 백업 시간이 24시간을 초과하므로 운영 데이터가 취약해집니다.
-
백업 시간 동안 클러스터 성능이 크게 저하되었습니다.
-
테이프에 복사하는 것은 수동 프로세스입니다.
-
백업 솔루션은 필요한 하드웨어 및 수동 프로세스에 필요한 인력 시간의 측면에서 비용이 많이 듭니다.
백업 솔루션
이러한 당면 과제와 요구 사항을 바탕으로 기존 백업 시스템을 고려하여 세 가지 가능한 백업 솔루션을 제안하였습니다. 다음 하위 섹션에서는 이러한 세 가지 백업 솔루션 각각에 대해 설명합니다. 솔루션 A에서 솔루션 C까지의 레이블이 지정되어 있습니다
솔루션 A
솔루션 A에서 백업 Hadoop 클러스터는 보조 백업을 NetApp NFS 스토리지 시스템으로 전송하므로 아래 그림과 같이 테이프 요구 사항이 해소됩니다.
솔루션 A에 대한 자세한 작업은 다음과 같습니다.
-
운영 Hadoop 클러스터에는 보호가 필요한 HDFS에 고객의 분석 데이터가 있습니다.
-
HDFS가 포함된 백업 Hadoop 클러스터는 데이터의 중간 위치로 작동합니다. JBOD(Just a Bunch of Disks)는 운영 및 백업 Hadoop 클러스터 모두에서 HDFS용 스토리지를 제공합니다.
-
Hadoop distcp –update –diff <hdfs1><hdfs2>' 명령을 실행하여 운영 클러스터 HDFS에서 백업 클러스터 HDFS로 Hadoop 운영 데이터를 보호합니다.
Hadoop 스냅샷은 운영 환경에서 백업 Hadoop 클러스터로 데이터를 보호하는 데 사용됩니다. |
-
NetApp ONTAP 스토리지 컨트롤러는 NFS로 내보낸 볼륨을 제공하며 백업 Hadoop 클러스터에 프로비저닝됩니다.
-
를 실행합니다
Hadoop distcp
MapReduce 및 여러 매퍼를 활용하여 분석 데이터는 백업 Hadoop 클러스터에서 NFS로 보호됩니다.NetApp 스토리지 시스템의 NFS에 데이터가 저장된 후 NetApp Snapshot, SnapRestore 및 FlexClone 기술을 사용하여 필요에 따라 Hadoop 데이터를 백업, 복원, 복제할 수 있습니다.
SnapMirror 기술을 사용하여 Hadoop 데이터를 클라우드뿐 아니라 재해 복구 위치에도 보호할 수 있습니다. |
솔루션 A의 이점은 다음과 같습니다.
-
Hadoop 운영 데이터는 백업 클러스터로부터 보호됩니다.
-
HDFS 데이터는 NFS를 통해 보호되므로 클라우드 및 재해 복구 위치에 대한 보호가 가능합니다.
-
백업 작업을 백업 클러스터로 오프로드하여 성능을 향상시킵니다.
-
수동 테이프 작업이 필요 없습니다
-
NetApp 툴을 통해 엔터프라이즈 관리 기능을 지원합니다.
-
기존 환경을 최소한으로 변경해야 합니다.
-
비용 효율적인 솔루션입니다.
이 솔루션의 단점은 성능을 향상시키기 위해 백업 클러스터와 추가 매퍼가 필요하다는 것입니다.
이 고객은 단순성, 비용, 전반적인 성능 때문에 최근에 솔루션 A를 배포했습니다.
이 솔루션에서는 JBOD 대신 ONTAP의 SAN 디스크를 사용할 수 있습니다. 이 옵션은 백업 클러스터 스토리지 로드를 ONTAP로 오프로드하지만, 단점은 SAN 패브릭 스위치가 필요하다는 점입니다.
해결 방법 B
솔루션 B는 아래 그림과 같이 NFS 볼륨을 운영 Hadoop 클러스터에 추가하므로 백업 Hadoop 클러스터가 필요하지 않습니다.
솔루션 B에 대한 자세한 작업은 다음과 같습니다.
-
NetApp ONTAP 스토리지 컨트롤러는 운영 Hadoop 클러스터에 NFS 내보내기를 프로비저닝합니다.
Hadoop의 기본 구성
hadoop distcp
명령은 운영 클러스터 HDFS에서 NFS로 Hadoop 데이터를 보호합니다. -
NetApp 스토리지 시스템의 NFS에 데이터가 저장된 후에는 Snapshot, SnapRestore 및 FlexClone 기술을 사용하여 필요에 따라 Hadoop 데이터를 백업, 복원, 복제할 수 있습니다.
솔루션 B의 이점은 다음과 같습니다.
-
운영 클러스터는 백업 솔루션에 맞게 약간 수정되어 구축이 간소화되고 추가 인프라스트럭처 비용이 절감됩니다.
-
백업 작업을 위한 백업 클러스터는 필요하지 않습니다.
-
HDFS 운영 데이터는 NFS 데이터 변환 시 보호됩니다.
-
이 솔루션을 사용하면 NetApp 툴을 통해 엔터프라이즈 관리 기능을 수행할 수 있습니다.
이 솔루션의 단점은 프로덕션 클러스터에 구현되어 운영 클러스터에 추가 관리자 작업을 추가할 수 있다는 것입니다.
솔루션 C
솔루션 C에서는 아래 그림과 같이 NetApp SAN 볼륨을 HDFS 스토리지용 Hadoop 운영 클러스터에 직접 프로비저닝합니다.
솔루션 C에 대한 자세한 단계는 다음과 같습니다.
-
NetApp ONTAP SAN 스토리지는 HDFS 데이터 스토리지를 위한 운영 Hadoop 클러스터에서 프로비저닝됩니다.
-
NetApp Snapshot 및 SnapMirror 기술은 운영 Hadoop 클러스터의 HDFS 데이터를 백업하는 데 사용됩니다.
-
백업이 스토리지 계층에 있기 때문에 스냅샷 복사본 백업 프로세스 중에 Hadoop/Spark 클러스터의 운영에 미치는 성능 영향은 없습니다.
스냅샷 기술은 데이터 크기에 관계없이 몇 초 내에 백업을 완료합니다. |
솔루션 C의 이점은 다음과 같습니다.
-
스냅샷 기술을 사용하여 공간 효율적인 백업을 생성할 수 있습니다.
-
NetApp 툴을 통해 엔터프라이즈 관리 기능을 지원합니다.