본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

TR-4570: Apache Spark용 NetApp 스토리지 솔루션: 아키텍처, 사용 사례 및 성능 결과

09/23/2024 기여자

Rick Huang, Karthikeyan Nagalingam, NetApp

이 문서에서는 Apache Spark 아키텍처, 고객 사용 사례 및 빅데이터 분석 및 인공 지능(AI)과 관련된 NetApp 스토리지 포트폴리오에 대해 중점적으로 소개합니다. 또한 적절한 Spark 솔루션을 선택할 수 있도록 업계 표준 AI, 머신 러닝(ML) 및 딥 러닝(DL) 툴을 일반적인 Hadoop 시스템과 비교하여 다양한 테스트 결과를 제공합니다. 시작하려면 Spark 아키텍처, 적절한 구성 요소 및 두 가지 배포 모드(클러스터 및 클라이언트)가 필요합니다.

또한 이 문서는 구성 문제를 해결하기 위한 고객 사용 사례를 제공하며 빅데이터 분석 및 AI, ML, Spark를 지원하는 DL과 관련된 NetApp 스토리지 포트폴리오의 개요를 설명합니다. 그런 다음 Spark 관련 사용 사례 및 NetApp Spark 솔루션 포트폴리오의 테스트 결과를 마무리합니다.

고객의 당면 과제

이 섹션에서는 소매, 디지털 마케팅, 은행, 이산 제조, 프로세스 제조 등 데이터 성장 산업에서 빅데이터 분석 및 AI/ML/DL과 관련된 고객 과제에 대해 정부 및 전문 서비스.

성능을 예측할 수 없습니다

기존 Hadoop 구축에는 일반적으로 일반 하드웨어가 사용됩니다. 성능을 향상시키려면 네트워크, 운영 체제, Hadoop 클러스터, Spark와 같은 에코시스템 구성 요소 및 하드웨어를 조정해야 합니다. 각 계층을 튜닝하더라도 Hadoop은 사용자 환경에서 고성능을 발휘하도록 설계되지 않은 상용 하드웨어에서 실행되기 때문에 원하는 성능 수준을 달성하는 것이 어려울 수 있습니다.

미디어 및 노드 장애

정상적인 조건에서 상용 하드웨어는 장애가 발생하기 쉽습니다. 데이터 노드의 한 디스크에 장애가 발생하면 기본적으로 Hadoop 마스터는 해당 노드가 정상 상태가 아닌 것으로 간주합니다. 그런 다음 네트워크를 통해 해당 노드의 특정 데이터를 복제본에서 정상 노드로 복제합니다. 이 프로세스는 모든 Hadoop 작업에 대한 네트워크 패킷의 속도를 늦춥니다. 그런 다음, 정상적인 상태가 아닌 노드가 정상 상태가 될 때 클러스터가 데이터를 다시 복제하고 초과 복제된 데이터를 제거해야 합니다.

Hadoop 공급업체에 종속

Hadoop 총판은 자체 버전 관리 기능을 통해 Hadoop을 직접 배포하며, 고객은 이 버전을 통해 해당 배포판에 종속됩니다. 그러나 많은 고객들은 특정 Hadoop 배포와 고객을 연계하지 않는 인메모리 분석에 대한 지원을 필요로 합니다. 따라서 고객이 원하는 대로 배포를 변경하고 분석을 실행할 수 있어야 합니다.

둘 이상의 언어를 지원하지 않습니다

고객은 업무를 실행하기 위해 MapReduce Java 프로그램 외에 여러 언어에 대한 지원을 필요로 하는 경우가 많습니다. SQL 및 스크립트와 같은 옵션을 사용하면 답변을 보다 유연하게 얻고, 데이터를 구성 및 검색하는 더 많은 옵션을 사용할 수 있으며, 데이터를 분석 프레임워크로 신속하게 이동할 수 있습니다.

사용의 어려움

Hadoop을 사용하기 어렵다고 불만을 토로하는 사람들이 있습니다. 새로운 버전이 출시될 때마다 Hadoop이 더욱 단순해지고 강력해지기는 했지만 이러한 비판은 지속되었습니다. Hadoop을 사용하려면 Java 및 MapReduce 프로그래밍 패턴을 이해해야 합니다. 이는 데이터베이스 관리자와 기존 스크립팅 기술을 사용하는 사람들에게 어려운 과제입니다.

복잡한 프레임워크 및 도구

엔터프라이즈 AI 팀은 여러 가지 과제에 직면합니다. 전문 데이터 과학 지식을 갖추고 있더라도 다양한 구축 에코시스템과 애플리케이션을 위한 툴과 프레임워크에서 다른 에코시스템으로 변환되지 않을 수 있습니다. 데이터 과학 플랫폼은 Spark 기반의 해당 빅 데이터 플랫폼과 원활하게 통합되어야 하며, 간편한 데이터 이동, 재사용 가능 모델, 즉시 사용 가능한 코드, 프로토타입 제작, 검증, 버전 관리, 공유, 재사용, 운영 환경에 모델을 빠르게 구축할 수 있습니다.

NetApp을 선택해야 하는 이유

NetApp은 다음과 같은 방법으로 Spark 경험을 개선할 수 있습니다.

NetApp NFS 직접 액세스(아래 그림에 표시)를 사용하면 데이터를 이동하거나 복사하지 않고도 기존 또는 새로운 NFSv3 또는 NFSv4 데이터에 대해 빅데이터 분석 작업을 실행할 수 있습니다. 여러 데이터 복제본을 방지하고 소스와 데이터를 동기화할 필요가 없습니다.
스토리지 효율성 향상 및 서버 복제 감소 예를 들어, NetApp E-Series Hadoop 솔루션은 3개의 데이터 복제본이 아닌 2개의 복제본을 필요로 하며 FAS Hadoop 솔루션은 데이터 소스만 필요로 하지만 데이터의 복제 또는 복제본은 필요로 하지 않습니다. NetApp 스토리지 솔루션은 또한 서버 간 트래픽을 줄여 줍니다.
드라이브 및 노드 장애 시 Hadoop 작업 및 클러스터 동작이 향상됩니다.
더 나은 데이터 수집 성능:

대체 Apache Spark 구성

예를 들어, 금융 및 의료 부문에서 데이터를 한 위치에서 다른 위치로 이동하는 것은 쉬운 일이 아닌 법적 의무를 준수해야 합니다. 이 시나리오에서는 NetApp NFS 직접 액세스가 원래의 위치에서 재무 및 의료 데이터를 분석합니다. 또 다른 주요 이점은 NetApp NFS 직접 액세스를 통해 기본 Hadoop 명령을 사용하여 Hadoop 데이터를 간편하게 보호하고 NetApp의 강력한 데이터 관리 포트폴리오를 통해 데이터 보호 워크플로우를 구축할 수 있다는 것입니다.

NetApp NFS 직접 액세스는 Hadoop/Spark 클러스터에 대한 두 가지 유형의 구축 옵션을 제공합니다.

기본적으로 Hadoop 또는 Spark 클러스터는 데이터 스토리지와 기본 파일 시스템에 HDFS(Hadoop Distributed File System)를 사용합니다. NetApp NFS 직접 액세스는 기본 HDFS를 NFS 스토리지로 대체하여 NFS 데이터에 대한 직접 분석을 지원합니다.
다른 구축 옵션에서 NetApp NFS 직접 액세스는 NFS를 단일 Hadoop 또는 Spark 클러스터의 HDFS와 함께 추가 스토리지로 구성할 수 있도록 지원합니다. 이 경우 고객은 NFS 내보내기를 통해 데이터를 공유하고 HDFS 데이터와 함께 동일한 클러스터에서 데이터를 액세스할 수 있습니다.

NetApp NFS 직접 액세스를 사용할 때의 주요 이점은 다음과 같습니다.

현재 위치에서 데이터를 분석하면 분석 데이터를 HDFS와 같은 Hadoop 인프라스트럭처로 이동하는 데 시간과 성능 소모가 큰 작업이 발생하지 않습니다.
복제본 수를 3개부터 1개로 축소
사용자가 컴퓨팅과 스토리지를 분리하여 독립적으로 확장할 수 있도록 지원
ONTAP의 강력한 데이터 관리 기능을 활용하여 엔터프라이즈 데이터 보호 제공
Hortonworks 데이터 플랫폼을 사용한 인증
하이브리드 데이터 분석을 구축할 수 있습니다.
동적 다중 스레드 기능을 활용하여 백업 시간 단축

을 참조하십시오 "TR-4657: NetApp 하이브리드 클라우드 데이터 솔루션 - 고객 사용 사례를 기반으로 Spark 및 Hadoop" Hadoop 데이터, 클라우드에서 사내로 백업 및 재해 복구, 기존 Hadoop 데이터에 대한 DevTest, 데이터 보호 및 멀티 클라우드 연결, 분석 워크로드 가속화 등을 지원합니다.

다음 섹션에서는 Spark 고객에게 중요한 스토리지 기능에 대해 설명합니다.

스토리지 계층화

Hadoop 스토리지 계층화를 사용하면 스토리지 정책에 따라 다양한 스토리지 유형의 파일을 저장할 수 있습니다. 스토리지 유형으로는 핫, 콜드, 웜, 올 SSD, 원 SSD 등이 있습니다. 그리고 게으른 유영이 있습니다.

NetApp AFF 스토리지 컨트롤러에서 Hadoop 스토리지 계층화를 검증하고 SSD 및 SAS 드라이브를 사용하는 E-Series 스토리지 컨트롤러를 다양한 스토리지 정책으로 수행했습니다. AFF-A800의 Spark 클러스터에는 4개의 컴퓨팅 작업자 노드가 있는 반면 E-Series를 사용하는 클러스터는 8개의 노드를 가지고 있습니다. 주로 SSD(Solid-State Drive)와 HDD(하드 드라이브 디스크)의 성능을 비교합니다.

다음 그림은 Hadoop SSD를 위한 NetApp 솔루션의 성능을 보여줍니다.

1TB의 데이터를 정렬할 시간입니다.

기본 NL-SAS 구성에는 8개의 컴퓨팅 노드와 96개의 NL-SAS 드라이브가 사용되었습니다. 이 구성에서는 4분 38초 내에 1TB의 데이터가 생성되었습니다. 을 참조하십시오 "TR-3969 Hadoop용 NetApp E-Series 솔루션" 클러스터 및 스토리지 구성에 대한 자세한 내용은 를 참조하십시오.
TeraGen을 사용하면 SSD 구성에서 NL-SAS 구성보다 1TB의 데이터가 15.66x 더 빠르게 생성됩니다. 또한 SSD 구성에서는 컴퓨팅 노드 수의 절반과 디스크 드라이브 수의 절반을 사용했습니다(총 24개의 SSD 드라이브). 작업 완료 시간을 기준으로 할 때 NL-SAS 구성의 속도는 약 2배였습니다.
TeraSort를 사용하면 SSD 구성에서 NL-SAS 구성에 비해 1TB의 데이터를 1138.36배 더 빠르게 정렬할 수 있습니다. 또한 SSD 구성에서는 컴퓨팅 노드 수의 절반과 디스크 드라이브 수의 절반을 사용했습니다(총 24개의 SSD 드라이브). 따라서 드라이브당 NL-SAS 구성보다 약 3배 빠른 속도를 제공합니다.
여기서 주목할 점은 회전식 디스크에서 All-Flash로 전환하여 성능을 향상할 수 있다는 것입니다. 컴퓨팅 노드의 수는 병목 현상이 아니었습니다. NetApp의 All-Flash 스토리지를 사용하면 런타임 성능이 원활하게 확장됩니다.
NFS를 사용하면 데이터가 모두 함께 풀링되는 것과 기능적으로 동일하므로 워크로드에 따라 컴퓨팅 노드의 수를 줄일 수 있습니다. Apache Spark 클러스터 사용자는 컴퓨팅 노드의 수를 변경할 때 데이터를 수동으로 재조정할 필요가 없습니다.

성능 확장 - 스케일아웃

AFF 솔루션에서 Hadoop 클러스터의 컴퓨팅 성능이 더 많이 필요한 경우 적절한 수의 스토리지 컨트롤러를 사용하여 데이터 노드를 추가할 수 있습니다. 스토리지 컨트롤러 어레이당 4개의 데이터 노드로 시작하고 워크로드 특성에 따라 스토리지 컨트롤러당 8개의 데이터 노드로 숫자를 늘리는 것이 좋습니다.

AFF와 FAS는 데이터 이동 없는 분석에 적합합니다. 계산 요구사항에 따라 노드 관리자를 추가할 수 있으며 무중단 운영을 통해 다운타임 없이 스토리지 컨트롤러를 온디맨드 방식으로 추가할 수 있습니다. NetApp은 AFF NVMe 미디어 지원, 효율성 보장, 데이터 축소, QoS, 예측 분석, FAS 클라우드 계층화, 복제, 클라우드 구축, 보안 고객의 요구사항을 충족할 수 있도록 NetApp에서는 추가 라이센스 비용 없이 파일 시스템 분석, 할당량, 온박스 로드 밸런싱과 같은 기능을 제공합니다. NetApp은 동시 작업 수, 낮은 지연 시간, 단순한 운영, 경쟁업체보다 더 높은 초당 처리 성능 등의 이점을 제공합니다. 또한 NetApp Cloud Volumes ONTAP은 3가지 주요 클라우드 공급자 모두에서 실행됩니다.

성능 확장 - 스케일업

스케일업 기능을 사용하면 스토리지 용량이 더 필요할 때 AFF, FAS, E-Series 시스템에 디스크 드라이브를 추가할 수 있습니다. Cloud Volumes ONTAP를 사용하면 자주 사용되지 않는 데이터를 블록 스토리지의 오브젝트 스토리지로 계층화하고, 추가 컴퓨팅 없이 Cloud Volumes ONTAP 라이센스를 스태킹하는 두 가지 요소의 조합으로 스토리지를 PB 수준으로 확장할 수 있습니다.

다중 프로토콜

NetApp 시스템은 SAS, iSCSI, FCP, InfiniBand를 비롯한 대부분의 Hadoop 구현 프로토콜을 및 NFS 로 이동합니다.

운영 및 지원 솔루션

이 문서에 설명된 Hadoop 솔루션은 NetApp에서 지원됩니다. 또한 이러한 솔루션은 주요 Hadoop 총판에서도 인증되었습니다. 자세한 내용은 "Hortonworks의" 사이트, Cloudera "인증" 및 "파트너" 사이트를 참조하십시오.