본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

사용 사례 요약

08/18/2025 기여자

PDF

이 페이지에서는 이 솔루션을 사용할 수 있는 다양한 영역을 설명합니다.

스트리밍 데이터

Apache Spark는 스트리밍 데이터를 처리할 수 있으며, 이 데이터는 스트리밍 추출, 변환 및 로드(ETL) 프로세스, 데이터 강화, 이벤트 감지 트리거, 복잡한 세션 분석에 사용됩니다.

스트리밍 ETL. 데이터는 데이터 저장소에 푸시되기 전에 지속적으로 정리되고 집계됩니다. Netflix는 Kafka와 Spark 스트리밍을 사용하여 다양한 데이터 소스에서 하루에 수십억 개의 이벤트를 처리할 수 있는 실시간 온라인 영화 추천 및 데이터 모니터링 솔루션을 구축합니다. 하지만 일괄 처리를 위한 기존 ETL은 다르게 처리됩니다. 이 데이터는 먼저 읽혀지고, 그런 다음 데이터베이스에 기록되기 전에 데이터베이스 형식으로 변환됩니다.
데이터 강화. Spark 스트리밍은 실시간 데이터에 정적 데이터를 추가하여 보다 실시간적인 데이터 분석을 가능하게 합니다. 예를 들어, 온라인 광고주는 고객 행동에 대한 정보를 바탕으로 개인화되고 타겟이 지정된 광고를 게재할 수 있습니다.
트리거 이벤트 감지. Spark 스트리밍을 사용하면 잠재적으로 심각한 문제를 나타낼 수 있는 비정상적인 동작을 감지하고 신속하게 대응할 수 있습니다. 예를 들어, 금융 기관은 트리거를 사용하여 사기 거래를 감지하고 중단하고, 병원에서는 트리거를 사용하여 환자의 생체 신호에서 발견된 위험한 건강 변화를 감지합니다.
복잡한 세션 분석. Spark 스트리밍은 웹사이트나 애플리케이션에 로그인한 후의 사용자 활동과 같은 이벤트를 수집한 다음 이를 그룹화하여 분석합니다. 예를 들어, Netflix는 이 기능을 사용하여 실시간으로 영화를 추천해 줍니다.

스트리밍 데이터 구성, Confluent Kafka 검증 및 성능 테스트에 대한 자세한 내용은 다음을 참조하세요."TR-4912: NetApp 사용한 Confluent Kafka 계층형 스토리지에 대한 모범 사례 가이드라인" .

머신러닝

Spark 통합 프레임워크는 머신 러닝 라이브러리(MLlib)를 사용하여 데이터 세트에 대한 반복 쿼리를 실행하는 데 도움이 됩니다. MLlib은 예측 인텔리전스, 마케팅 목적을 위한 고객 세분화, 감정 분석 등 일반적인 빅데이터 기능에 대한 클러스터링, 분류, 차원 축소와 같은 분야에서 사용됩니다. MLlib은 네트워크 보안에서 악의적인 활동을 나타내는 데이터 패킷의 실시간 검사를 수행하는 데 사용됩니다. 보안 서비스 제공업체가 새로운 위협에 대해 알아내고 해커보다 앞서 나가는 동시에 실시간으로 고객을 보호하는 데 도움이 됩니다.

딥러닝

TensorFlow는 업계 전반에서 사용되는 인기 있는 딥 러닝 프레임워크입니다. TensorFlow는 CPU 또는 GPU 클러스터에서의 분산 학습을 지원합니다. 이 분산형 학습을 통해 사용자는 많은 심층 레이어가 있는 대량의 데이터에서 학습을 실행할 수 있습니다.

얼마 전까지만 해도 Apache Spark에서 TensorFlow를 사용하려면 PySpark에서 TensorFlow에 대한 모든 필수 ETL을 수행한 다음 중간 저장소에 데이터를 써야 했습니다. 그런 다음 해당 데이터는 실제 학습 과정을 위해 TensorFlow 클러스터에 로드됩니다. 이 워크플로를 사용하려면 사용자가 두 개의 서로 다른 클러스터를 유지해야 합니다. 하나는 ETL용이고 다른 하나는 TensorFlow의 분산 학습용입니다. 여러 개의 클러스터를 실행하고 유지 관리하는 일은 일반적으로 지루하고 시간이 많이 걸렸습니다.

이전 Spark 버전의 DataFrames와 RDD는 무작위 접근이 제한되어 있어 딥러닝에 적합하지 않았습니다. Spark 3.0과 Project Hydrogen에서는 딥러닝 프레임워크에 대한 기본 지원이 추가되었습니다. 이 접근 방식을 사용하면 Spark 클러스터에서 MapReduce 기반이 아닌 스케줄링이 가능합니다.

대화형 분석

Apache Spark는 SQL, R, Python 등 Spark 이외의 개발 언어로 샘플링하지 않고도 탐색적 쿼리를 수행할 만큼 빠릅니다. Spark는 시각화 도구를 사용하여 복잡한 데이터를 처리하고 대화형으로 시각화합니다. 구조화된 스트리밍을 탑재한 Spark는 웹 분석에서 라이브 데이터에 대한 대화형 쿼리를 수행하여 웹 방문자의 현재 세션에 대한 대화형 쿼리를 실행할 수 있습니다.

자연어 처리

자연어 처리(NLP)를 통해 가능해진 대화형 AI는 컴퓨터가 인간과 소통하는 데 도움이 되는 AI의 한 분야입니다. NLP는 모든 산업 분야에서 널리 사용되고 있으며, 스마트 어시스턴트와 챗봇부터 Google 검색과 예측 텍스트에 이르기까지 다양한 사용 사례가 있습니다. 에 따르면 "가트너" 예측에 따르면 2022년까지 70%의 사람들이 매일 대화형 AI 플랫폼과 상호작용하게 될 것입니다. 인간과 기계가 고품질 대화를 하려면 응답이 빠르고, 지능적이며, 자연스럽게 들려야 합니다.

고객은 NLP 및 자동 음성 인식(ASR) 모델을 처리하고 훈련하기 위해 대량의 데이터가 필요합니다. 또한 엣지, 코어, 클라우드 전반에서 데이터를 이동해야 하며, 인간과 자연스러운 소통을 구축하기 위해 밀리초 단위로 추론을 수행할 수 있는 능력이 필요합니다. NetApp AI와 Apache Spark는 컴퓨팅, 스토리지, 데이터 처리, 모델 학습, 미세 조정 및 배포에 이상적인 조합입니다.

감정 분석은 NLP 내의 연구 분야로, 텍스트에서 긍정적, 부정적 또는 중립적 감정을 추출합니다. 감정 분석은 통화자와의 대화에서 지원 센터 직원의 성과를 파악하는 것부터 적절한 자동화된 챗봇 응답을 제공하는 것까지 다양한 사용 사례에 적용됩니다. 또한 분기별 실적 발표에서 회사 대표와 청중 간의 상호 작용을 기반으로 회사 주가를 예측하는 데 사용되었습니다. 더욱이, 감정 분석은 브랜드가 제공하는 제품, 서비스 또는 지원에 대한 고객의 견해를 파악하는 데 사용될 수 있습니다.

우리는 사용했다 "스파크 NLP" 도서관에서 "존 스노우 랩스" BERT(Transformers) 모델을 포함하여 사전 학습된 파이프라인 및 양방향 인코더 표현을 로드하려면 "금융 뉴스 감정" 그리고 "핀버트" 대규모로 토큰화, 명명된 엔터티 인식, 모델 학습, 피팅 및 감정 분석을 수행합니다. Spark NLP는 BERT, ALBERT, ELECTRA, XLNet, DistilBERT, RoBERTa, DeBERTa, XLM- RoBERTa, Longformer, ELMO, Universal Sentence Encoder, Google T5, MarianMT, GPT2와 같은 최첨단 변환기를 제공하는 유일한 오픈 소스 NLP 라이브러리입니다. 이 라이브러리는 Python과 R에서 작동할 뿐만 아니라 Apache Spark를 기본적으로 확장하여 JVM 생태계(Java, Scala, Kotlin)에서도 대규모로 작동합니다.

사용 사례 요약

Creating your file...

스트리밍 데이터

머신러닝

딥러닝

대화형 분석

추천 시스템

자연어 처리