TR-4657: NetApp 하이브리드 클라우드 데이터 솔루션 - 고객 사용 사례를 기반으로 Spark 및 Hadoop
NetApp의 Karthikeyan Nagalingam 및 Sathish Thyagarajan
본 문서는 NetApp AFF 및 FAS 스토리지 시스템, NetApp Cloud Volumes ONTAP, NetApp 연결형 스토리지, Spark 및 Hadoop용 NetApp FlexClone 기술을 사용하는 하이브리드 클라우드 데이터 솔루션에 대해 설명합니다. 이러한 솔루션 아키텍처를 통해 고객은 자신의 환경에 적합한 데이터 보호 솔루션을 선택할 수 있습니다. NetApp은 고객과의 상호 작용 및 비즈니스 사용 사례를 기반으로 이러한 솔루션을 설계했습니다. 이 문서에서는 다음과 같은 자세한 정보를 제공합니다.
-
Spark 및 Hadoop 환경 및 고객의 당면 과제를 해결하기 위해 데이터 보호가 필요한 이유
-
NetApp 비전 및 구성 요소와 서비스를 기반으로 하는 Data Fabric
-
이러한 구성 요소를 사용하여 유연한 데이터 보호 워크플로우를 구축하는 방법
-
실제 고객 사용 사례를 기반으로 한 여러 아키텍처의 장단점을 설명합니다. 각 활용 사례는 다음과 같은 구성 요소를 제공합니다.
-
고객 시나리오
-
요구사항 및 당면 과제
-
해결하세요
-
솔루션 요약
-
Hadoop 데이터 보호를 선택해야 하는 이유
Hadoop 및 Spark 환경에서는 다음과 같은 문제를 해결해야 합니다.
-
* 소프트웨어 또는 사용자 오류. * Hadoop 데이터 작업을 수행하는 동안 소프트웨어 업데이트에 사람의 실수가 발생할 수 있으며, 이로 인해 작업에 예상치 못한 결과가 발생할 수 있습니다. 이 경우 오류나 부당한 결과를 방지하려면 데이터를 보호해야 합니다. 예를 들어, 소프트웨어 업데이트가 제대로 실행되지 않아 트래픽 신호 데이터를 일반 텍스트 형식으로 제대로 분석하지 못하는 새로운 기능이 추가되었습니다. 이 소프트웨어는 JSON 및 기타 비 텍스트 파일 형식을 분석하여 실시간 트래픽 제어 분석 시스템을 통해 데이터 포인트가 누락된 예측 결과를 생성합니다. 이 상황은 출력 결함을 초래하여 교통 신호에서 사고를 일으킬 수 있습니다. 데이터 보호는 이전 작업 중인 응용 프로그램 버전으로 빠르게 롤백할 수 있는 기능을 제공하여 이 문제를 해결할 수 있습니다.
-
* 규모와 확장성 * 데이터 소스와 볼륨의 수가 계속 증가함에 따라 분석 데이터의 크기가 매일 증가하고 있습니다. 소셜 미디어, 모바일 앱, 데이터 분석 및 클라우드 컴퓨팅 플랫폼은 현재 빅데이터 시장의 주요 데이터 소스로서 빠르게 증가하고 있으며, 따라서 정확한 데이터 운영을 위해 데이터를 보호해야 합니다.
-
* Hadoop의 기본 데이터 보호. * Hadoop에는 데이터를 보호하는 기본 명령이 있지만 이 명령은 백업 중에 데이터의 일관성을 제공하지 않습니다. 디렉토리 레벨 백업만 지원합니다. Hadoop에서 생성된 스냅샷은 읽기 전용이며 백업 데이터를 직접 재사용하는 데 사용할 수 없습니다.
Hadoop 및 Spark 고객의 데이터 보호 당면 과제
Hadoop 및 Spark 고객의 일반적인 과제는 데이터 보호 중에 운영 클러스터의 성능에 부정적인 영향을 주지 않고 백업 시간을 단축하고 백업 안정성을 높이는 것입니다.
또한 고객은 RPO(복구 시점 목표) 및 RTO(복구 시간 목표) 다운타임을 최소화하고 사내 및 클라우드 기반 재해 복구 사이트를 제어하여 비즈니스 연속성을 최적화해야 합니다. 이 제어 기능은 일반적으로 엔터프라이즈급 관리 툴을 사용하는 데서 비롯됩니다.
Hadoop과 Spark 환경은 데이터 볼륨이 엄청나며 증가하기 때문에 복잡합니다. 하지만 데이터가 도착하는 속도는 점점 증가하고 있습니다. 이 시나리오를 통해 소스 데이터에서 효율적인 최신 DevTest 및 QA 환경을 빠르게 생성하기가 어렵습니다. NetApp은 이러한 과제를 인식하고 이 백서에 제공된 솔루션을 제공합니다.