사용 사례 1: Hadoop 데이터 백업
이 시나리오에서 고객은 대규모 온프레미스 Hadoop 저장소를 보유하고 있으며 재해 복구 목적으로 이를 백업하려고 합니다. 그러나 고객의 현재 백업 솔루션은 비용이 많이 들고 백업 시간이 24시간 이상 걸리는 문제점이 있습니다.
요구 사항 및 과제
이 사용 사례에 대한 주요 요구 사항과 과제는 다음과 같습니다.
-
소프트웨어 이전 버전과의 호환성:
-
제안된 대체 백업 솔루션은 프로덕션 Hadoop 클러스터에서 사용되는 현재 실행 중인 소프트웨어 버전과 호환되어야 합니다.
-
-
약속된 SLA를 충족하기 위해 제안된 대안 솔루션은 매우 낮은 RPO와 RTO를 달성해야 합니다.
-
NetApp 백업 솔루션으로 생성된 백업은 데이터 센터에 로컬로 구축된 Hadoop 클러스터뿐만 아니라 원격 사이트의 재해 복구 위치에서 실행되는 Hadoop 클러스터에서도 사용할 수 있습니다.
-
제안된 솔루션은 비용 효율적이어야 합니다.
-
제안된 솔루션은 백업 시간 동안 현재 실행 중인 프로덕션 분석 작업에 미치는 성능 영향을 줄여야 합니다.
고객의 기존 백업 솔루션x
아래 그림은 원래 Hadoop 기본 백업 솔루션을 보여줍니다.
생산 데이터는 중간 백업 클러스터를 통해 테이프로 보호됩니다.
-
HDFS1 데이터는 다음을 실행하여 HDFS2로 복사됩니다.
hadoop distcp -update <hdfs1> <hdfs2>
명령. -
백업 클러스터는 NFS 게이트웨이 역할을 하며 데이터는 Linux를 통해 수동으로 테이프에 복사됩니다.
cp
테이프 라이브러리를 통한 명령.
원래 Hadoop 네이티브 백업 솔루션의 이점은 다음과 같습니다.
-
이 솔루션은 Hadoop 기본 명령을 기반으로 하므로 사용자는 새로운 절차를 배울 필요가 없습니다.
-
이 솔루션은 업계 표준 아키텍처와 하드웨어를 활용합니다.
원래 Hadoop 네이티브 백업 솔루션의 단점은 다음과 같습니다.
-
백업 윈도우 시간이 24시간을 초과하면 운영 데이터가 취약해집니다.
-
백업하는 동안 클러스터 성능이 크게 저하됩니다.
-
테이프에 복사하는 작업은 수동 작업입니다.
-
백업 솔루션은 필요한 하드웨어와 수동 프로세스에 필요한 인력 시간 측면에서 비용이 많이 듭니다.
백업 솔루션
이러한 과제와 요구 사항을 바탕으로 기존 백업 시스템을 고려하여 세 가지 가능한 백업 솔루션이 제안되었습니다. 다음 하위 섹션에서는 솔루션 A부터 솔루션 C까지 라벨이 붙은 세 가지 백업 솔루션 각각에 대해 설명합니다.
솔루션 A
솔루션 A에서는 백업 Hadoop 클러스터가 보조 백업을 NetApp NFS 스토리지 시스템으로 보내서 아래 그림과 같이 테이프가 필요하지 않습니다.
솔루션 A에 대한 세부 작업은 다음과 같습니다.
-
프로덕션 Hadoop 클러스터에는 보호가 필요한 HDFS에 고객의 분석 데이터가 있습니다.
-
HDFS가 있는 백업 Hadoop 클러스터는 데이터의 중간 위치 역할을 합니다. JBOD(Just a Bunch Of Disks)는 프로덕션 및 백업 Hadoop 클러스터 모두에서 HDFS에 대한 스토리지를 제공합니다.
-
Hadoop 프로덕션 데이터는 프로덕션 클러스터 HDFS에서 백업 클러스터 HDFS로 보호됩니다.
Hadoop distcp –update –diff <hdfs1> <hdfs2>
명령.
|
Hadoop 스냅샷은 프로덕션 데이터를 백업 Hadoop 클러스터로 보호하는 데 사용됩니다. |
-
NetApp ONTAP 스토리지 컨트롤러는 백업 Hadoop 클러스터에 프로비저닝되는 NFS 내보낸 볼륨을 제공합니다.
-
실행하여
Hadoop distcp
MapReduce와 여러 매퍼를 활용하는 명령을 사용하면 분석 데이터가 백업 Hadoop 클러스터에서 NFS로 보호됩니다.데이터가 NetApp 스토리지 시스템의 NFS에 저장된 후, NetApp Snapshot, SnapRestore 및 FlexClone 기술을 사용하여 필요에 따라 Hadoop 데이터를 백업, 복원 및 복제합니다.
|
SnapMirror 기술을 사용하면 Hadoop 데이터를 클라우드뿐만 아니라 재해 복구 위치에도 보호할 수 있습니다. |
솔루션 A의 이점은 다음과 같습니다.
-
Hadoop 프로덕션 데이터는 백업 클러스터에서 보호됩니다.
-
HDFS 데이터는 클라우드 및 재해 복구 위치로의 보호를 지원하는 NFS를 통해 보호됩니다.
-
백업 작업을 백업 클러스터로 오프로드하여 성능을 향상시킵니다.
-
수동 테이프 작업을 제거합니다.
-
NetApp 도구를 통해 엔터프라이즈 관리 기능을 제공합니다.
-
기존 환경을 최소한으로 변경해야 합니다.
-
비용 효율적인 솔루션입니다.
이 솔루션의 단점은 성능을 개선하려면 백업 클러스터와 추가 매퍼가 필요하다는 것입니다.
해당 고객은 최근 단순성, 비용, 전반적인 성능 때문에 솔루션 A를 구축했습니다.
이 솔루션에서는 JBOD 대신 ONTAP 의 SAN 디스크를 사용할 수 있습니다. 이 옵션을 선택하면 백업 클러스터 스토리지 부하가 ONTAP 으로 분산됩니다. 하지만 단점은 SAN 패브릭 스위치가 필요하다는 것입니다.
솔루션 B
솔루션 B는 프로덕션 Hadoop 클러스터에 NFS 볼륨을 추가하여 아래 그림과 같이 백업 Hadoop 클러스터가 필요 없게 합니다.
솔루션 B에 대한 세부 작업은 다음과 같습니다.
-
NetApp ONTAP 스토리지 컨트롤러는 프로덕션 Hadoop 클러스터에 NFS 내보내기 기능을 제공합니다.
Hadoop 네이티브
hadoop distcp
명령은 프로덕션 클러스터 HDFS의 Hadoop 데이터를 NFS로 보호합니다. -
데이터가 NetApp 스토리지 시스템의 NFS에 저장된 후 Snapshot, SnapRestore 및 FlexClone 기술을 사용하여 필요에 따라 Hadoop 데이터를 백업, 복원 및 복제합니다.
솔루션 B의 이점은 다음과 같습니다.
-
백업 솔루션을 위해 프로덕션 클러스터를 약간 수정하여 구현을 간소화하고 추가 인프라 비용을 절감했습니다.
-
백업 작업을 위한 백업 클러스터가 필요하지 않습니다.
-
HDFS 프로덕션 데이터는 NFS 데이터로 변환될 때 보호됩니다.
-
이 솔루션은 NetApp 도구를 통해 엔터프라이즈 관리 기능을 제공합니다.
이 솔루션의 단점은 프로덕션 클러스터에서 구현되기 때문에 프로덕션 클러스터에서 추가적인 관리자 작업이 필요할 수 있다는 점입니다.
솔루션 C
솔루션 C에서는 NetApp SAN 볼륨이 아래 그림과 같이 HDFS 스토리지를 위한 Hadoop 프로덕션 클러스터에 직접 프로비저닝됩니다.
솔루션 C에 대한 자세한 단계는 다음과 같습니다.
-
NetApp ONTAP SAN 스토리지는 HDFS 데이터 스토리지를 위해 프로덕션 Hadoop 클러스터에 프로비저닝됩니다.
-
NetApp Snapshot 및 SnapMirror 기술은 프로덕션 Hadoop 클러스터의 HDFS 데이터를 백업하는 데 사용됩니다.
-
백업이 스토리지 계층에서 수행되므로 스냅샷 복사 백업 프로세스 동안 Hadoop/Spark 클러스터의 프로덕션 성능에 영향이 없습니다.
|
스냅샷 기술은 데이터 크기에 관계없이 몇 초 안에 완료되는 백업을 제공합니다. |
솔루션 C의 이점은 다음과 같습니다.
-
스냅샷 기술을 사용하면 공간 효율적인 백업을 만들 수 있습니다.
-
NetApp 도구를 통해 엔터프라이즈 관리 기능을 제공합니다.