HDFS 및 MapR-FS에서 ONTAP NFS로
이 솔루션의 경우 NetApp 데이터 레이크(HDFS) 및 MapR 클러스터 데이터에서 ONTAP NFS로의 데이터 마이그레이션을 검증했습니다. 데이터는 MapR-FS와 HDFS에 저장되었습니다. NetApp XCP는 HDFS 및 MapR-FS와 같은 분산 파일 시스템에서 ONTAP NFS로 데이터를 직접 마이그레이션하는 새로운 기능을 도입했습니다. XCP는 비동기 스레드와 HDFS C API 호출을 사용하여 MapR-FS와 HDFS 간에 데이터를 통신하고 전송합니다.
아래 그림은 데이터 레이크(HDFS)와 MapR-FS에서 ONTAP NFS로의 데이터 마이그레이션을 보여줍니다. 이 새로운 기능을 사용하면 소스를 NFS 공유로 내보낼 필요가 없습니다.
고객이 HDFS와 MapR-FS에서 NFS로 이동하는 이유는 무엇입니까?
Cloudera, Hortonworks 등 대부분의 Hadoop 배포판은 HDFS를 사용하고 MapR 배포판은 Mapr-FS라는 자체 파일 시스템을 사용하여 데이터를 저장합니다. HDFS와 MapR-FS 데이터는 머신 러닝(ML)과 딥 러닝(DL)에 활용할 수 있는 귀중한 통찰력을 데이터 과학자에게 제공합니다. HDFS와 MapR-FS의 데이터는 공유되지 않으므로 다른 애플리케이션에서 사용할 수 없습니다. 고객은 공유 데이터를 찾고 있으며, 특히 고객의 민감한 데이터가 여러 애플리케이션에서 사용되는 은행 부문에서 그렇습니다. Hadoop의 최신 버전(3.x 이상)은 추가적인 타사 소프트웨어 없이 액세스할 수 있는 NFS 데이터 소스를 지원합니다. 새로운 NetApp XCP 기능을 사용하면 HDFS 및 MapR-FS에서 NetApp NFS로 직접 데이터를 이동하여 여러 애플리케이션에 액세스할 수 있습니다.
초기 성능 테스트를 위해 12개의 MAPR 노드와 4개의 NFS 서버를 사용하여 MapR-FS에서 NFS로 데이터를 전송하는 테스트는 Amazon Web Services(AWS)에서 수행되었습니다.
수량 | 크기 | vCPU | 메모리 | 스토리지 | 회로망 | |
---|---|---|---|---|---|---|
NFS 서버 |
4 |
i3en.24xlarge |
96 |
488GiB |
8x 7500 NVMe SSD |
100 |
MapR 노드 |
12 |
I3en.12xlarge |
48 |
384GiB |
4x 7500 NVMe SSD |
50 |
초기 테스트 결과, 20GBps 처리량을 얻었고 하루에 2PB의 데이터를 전송할 수 있었습니다.
HDFS를 NFS로 내보내지 않고 HDFS 데이터 마이그레이션에 대한 자세한 내용은 "배포 단계 - NAS" 섹션을 참조하세요."TR-4863: NetApp XCP - 데이터 무버, 파일 마이그레이션 및 분석을 위한 모범 사례 지침" .