Skip to main content
NetApp artificial intelligence solutions
본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

TR-4732: 빅데이터 분석 데이터를 인공지능으로

Karthikeyan Nagalingam, NetApp

이 문서에서는 빅데이터 분석 데이터와 HPC 데이터를 AI로 옮기는 방법을 설명합니다. AI는 NFS 내보내기를 통해 NFS 데이터를 처리하는 반면, 고객은 종종 HDFS, Blob, S3 스토리지와 같은 빅데이터 분석 플랫폼이나 GPFS와 같은 HPC 플랫폼에 AI 데이터를 보관합니다. 이 논문에서는 NetApp XCP와 NIPAM을 사용하여 빅데이터 분석 데이터와 HPC 데이터를 AI로 옮기는 방법에 대한 지침을 제공합니다. 또한 빅데이터와 HPC에서 AI로 데이터를 옮기는 비즈니스 이점에 대해서도 논의합니다.

개념 및 구성 요소

빅데이터 분석 저장

빅데이터 분석은 HDFS의 주요 저장 제공자입니다. 고객은 종종 Windows Azure Blob Storage, MapR File System(MapR-FS), S3 개체 스토리지와 같은 Hadoop 호환 파일 시스템(HCFS)을 사용합니다.

일반 병렬 파일 시스템

IBM의 GPFS는 HDFS에 대한 대안을 제공하는 엔터프라이즈 파일 시스템입니다. GPFS는 애플리케이션이 블록 크기와 복제 레이아웃을 결정할 수 있는 유연성을 제공하여 뛰어난 성능과 효율성을 제공합니다.

NetApp In-Place 분석 모듈

NetApp In-Place Analytics Module(NIPAM)은 Hadoop 클러스터가 NFS 데이터에 액세스하기 위한 드라이버 역할을 합니다. 여기에는 연결 풀, NFS 입력 스트림, 파일 핸들 캐시, NFS 출력 스트림의 4가지 구성 요소가 있습니다. 자세한 내용은 다음을 참조하세요. https://www.netapp.com/pdf.html?item=/media/16351-tr-4382pdf.pdf .

Hadoop 분산 복사

Hadoop Distributed Copy(DistCp)는 대규모 클러스터 간 및 클러스터 내 대처 작업에 사용되는 분산 복사 도구입니다. 이 도구는 데이터 배포, 오류 처리, 보고를 위해 MapReduce를 사용합니다. 파일과 디렉토리 목록을 확장하고 이를 맵 작업에 입력하여 소스 목록에서 데이터를 복사합니다. 아래 이미지는 HDFS와 nonHDFS에서의 DistCp 작업을 보여줍니다.

입력/출력 대화 상자 또는 서면 내용을 나타내는 그림

Hadoop DistCp는 추가 드라이버를 사용하지 않고 두 HDFS 시스템 간에 데이터를 이동합니다. NetApp HDFS가 아닌 시스템에 대한 드라이버를 제공합니다. NFS 대상의 경우, NIPAM은 Hadoop DistCp가 데이터를 복사할 때 NFS 대상과 통신하는 데 사용하는 데이터를 복사하기 위한 드라이버를 제공합니다.

Google Cloud NetApp Volumes

Google Cloud NetApp Volumes 뛰어난 성능을 갖춘 클라우드 기반 파일 서비스입니다. 이 서비스는 고객이 리소스를 빠르게 확장 및 축소하고 NetApp 기능을 사용하여 생산성을 향상시키고 직원의 가동 중지 시간을 줄임으로써 시장 출시 시간을 단축하는 데 도움이 됩니다. Google Cloud NetApp Volumes 재해 복구와 클라우드 백업을 위한 올바른 대안으로, 전체 데이터 센터 공간을 줄이고 기본 퍼블릭 클라우드 스토리지 사용량을 줄입니다.

NetApp XCP

NetApp XCP는 빠르고 안정적인 any-to- NetApp 및 NetApp-to- NetApp 데이터 마이그레이션을 가능하게 하는 클라이언트 소프트웨어입니다. 이 도구는 대량의 비정형 NAS 데이터를 모든 NAS 시스템에서 NetApp 스토리지 컨트롤러로 복사하도록 설계되었습니다. XCP 마이그레이션 도구는 데이터 마이그레이션, 파일 또는 디렉토리 목록, 공간 보고 등 많은 요청을 병렬로 처리할 수 있는 멀티코어, 멀티채널 I/O 스트리밍 엔진을 사용합니다. 이는 기본 NetApp 데이터 마이그레이션 도구입니다. XCP를 사용하면 Hadoop 클러스터와 HPC에서 NetApp NFS 스토리지로 데이터를 복사할 수 있습니다. 아래 다이어그램은 XCP를 사용하여 Hadoop 및 HPC 클러스터에서 NetApp NFS 볼륨으로 데이터를 전송하는 과정을 보여줍니다.

입력/출력 대화 상자 또는 서면 내용을 나타내는 그림

NetApp BlueXP 복사 및 동기화

NetApp BlueXP Copy and Sync는 온프레미스 스토리지와 클라우드 스토리지 간에 NFS, S3, CIFS 데이터를 원활하고 안전하게 전송하고 동기화하는 하이브리드 데이터 복제 소프트웨어입니다. 이 소프트웨어는 데이터 마이그레이션, 보관, 협업, 분석 등에 사용됩니다. 데이터가 전송된 후, BlueXP Copy and Sync는 소스와 대상 간의 데이터를 지속적으로 동기화합니다. 앞으로는 델타를 전송합니다. 또한 자체 네트워크, 클라우드 또는 사내 데이터의 보안도 강화됩니다. 이 소프트웨어는 사용량에 따라 비용을 지불하는 모델을 기반으로 하며, 비용 효율적인 솔루션을 제공하고 데이터 전송에 대한 모니터링 및 보고 기능을 제공합니다.