TR-4912: NetApp을 통해 Confluent Kafka 계층형 스토리지를 위한 모범 사례 지침
Karthkeyan Nagalingam, Joseph Kandatillarambil, NetApp Rankesh Kumar, Confluent
Apache Kafka는 매일 수조 건의 이벤트를 처리할 수 있는 커뮤니티 분산 이벤트 스트리밍 플랫폼입니다. 처음에 메시징 큐로 구상된 Kafka는 분산 커밋 로그의 추상화를 기반으로 합니다. Kafka는 2011년 LinkedIn에서 제작 및 오픈 소스를 통해 메시지 큐에서 완전한 이벤트 스트리밍 플랫폼으로 발전했습니다. Confluent는 Apache Kafka를 Confluent Platform과 함께 배포할 수 있도록 합니다. Confluent Platform은 Kafka를 보완하는 추가적인 커뮤니티 및 상용 기능을 제공하여 대규모 생산 환경에서 운영자와 개발자 모두의 스트리밍 경험을 개선하도록 설계되었습니다.
이 문서에서는 다음 내용을 제공하여 NetApp의 오브젝트 스토리지 제품에서 Confluent Tiered Storage를 사용하기 위한 모범 사례 지침을 설명합니다.
-
NetApp 오브젝트 스토리지를 위한 Confluent 검증 – NetApp StorageGRID
-
계층형 스토리지 성능 테스트
-
NetApp 스토리지 시스템에 대한 Confluent의 모범 사례 지침
ContFluent Tiered Storage를 선택해야 하는 이유
Confluent는 많은 애플리케이션, 특히 빅데이터, 분석 및 스트리밍 워크로드를 위한 기본 실시간 스트리밍 플랫폼이 되었습니다. 계층적 스토리지를 사용하면 사용자가 Confluent 플랫폼의 스토리지에서 컴퓨팅을 분리할 수 있습니다. Data Fabric을 활용하면 데이터를 보다 경제적으로 저장하고, 사실상 무한대의 데이터를 저장하고, 필요 시 워크로드를 스케일업(또는 스케일다운) 할 수 있으며, 데이터 및 테넌트 재조정과 같은 관리 작업을 더 쉽게 수행할 수 있습니다. S3 호환 스토리지 시스템은 이러한 모든 기능을 활용하여 모든 이벤트의 데이터를 한 곳에서 대중화할 수 있으며, 복잡한 데이터 엔지니어링이 필요하지 않습니다. Kafka에 계층형 스토리지를 사용해야 하는 이유에 대한 자세한 내용은 을 참조하십시오 "이 기사는 Confluent에 의해 작성되었습니다".
NetApp StorageGRID를 계층형 스토리지로 선택해야 하는 이유
StorageGRID은 NetApp에서 제공하는 업계 최고의 오브젝트 스토리지 플랫폼입니다. StorageGRID은 Amazon S3(Simple Storage Service) API를 비롯한 업계 표준 오브젝트 API를 지원하는 소프트웨어 정의 오브젝트 기반 스토리지 솔루션입니다. StorageGRID는 비정형 데이터를 대규모로 저장 및 관리하여 안전하고 내구성 있는 오브젝트 스토리지를 제공합니다. 콘텐츠가 적절한 위치, 적합한 시간 및 적합한 스토리지 계층에 배치되어 전 세계적으로 분산된 다양한 미디어의 워크플로우를 최적화하고 비용을 줄입니다.
StorageGRID의 가장 큰 차별화 요소는 정책 기반 데이터 라이프사이클 관리를 지원하는 ILM(정보 라이프사이클 관리) 정책 엔진입니다. 정책 엔진은 메타데이터를 사용해 수명 주기 동안 데이터가 저장되는 방식을 관리하여 처음에 성능을 최적화하고 데이터 사용 기간에 따라 비용 및 내구성을 자동으로 최적화할 수 있습니다.
ContFluent Tiered Storage 활성화
계층형 스토리지의 기본 개념은 데이터 스토리지와 데이터 처리 작업을 분리하는 것입니다. 이와 같은 분리 덕분에 데이터 스토리지 계층과 데이터 처리 계층이 독립적으로 확장하는 것이 훨씬 쉬워졌습니다.
Confluent를 위한 계층형 스토리지 솔루션은 두 가지 요소를 고려해야 합니다. 먼저, 목록 작업의 일관성 오류, 간헐적인 개체 가용성 손실 등과 같은 일반적인 개체 저장소의 일관성 및 가용성 속성을 문제를 해결 또는 방지해야 합니다. 두 번째로, 이 제품은 계층형 스토리지와 Kafka의 복제 및 내결함성 모델 간의 상호 작용을 올바르게 처리해야 하며, 이러한 상호 작용에는 좀비 리더가 계속해서 오프셋 범위를 계층화할 수 있는 가능성이 포함됩니다. NetApp 오브젝트 스토리지는 일관된 오브젝트 가용성과 HA 모델을 모두 제공하므로 피로한 스토리지를 계층 오프셋 범위에 사용할 수 있습니다. NetApp 오브젝트 스토리지는 일관된 오브젝트 가용성과 HA 모델을 제공하여 지친 스토리지를 계층 오프셋 범위에 사용할 수 있도록 합니다.
계층형 스토리지를 사용하면 스트리밍 데이터의 지연 시간이 짧은 읽기 및 쓰기 작업에 고성능 플랫폼을 사용할 수 있으며, 처리량이 높은 내역 읽기를 위해 NetApp StorageGRID와 같은 경제적이고 확장 가능한 오브젝트 저장소를 사용할 수도 있습니다. NetApp은 Spark with NetApp 스토리지 컨트롤러 및 세부 정보를 위한 기술 솔루션도 갖추고 있습니다. 다음 그림은 Kafka가 실시간 분석 파이프라인에 어떻게 부합하는지를 보여줍니다.
다음 그림은 NetApp StorageGRID가 Confluent Kafka의 오브젝트 스토리지 계층으로 적합한 방식을 보여줍니다.