日本語は機械翻訳による参考訳です。内容に矛盾や不一致があった場合には、英語の内容が優先されます。

ユースケースの概要

08/18/2025 共同作成者

PDF

このページでは、このソリューションを使用できるさまざまな領域について説明します。

ストリーミングデータ

Apache Spark は、ストリーミング抽出、変換、ロード (ETL) プロセス、データ拡充、イベント検出のトリガー、複雑なセッション分析に使用されるストリーミングデータを処理できます。

*ストリーミング ETL*データは、データストアにプッシュされる前に継続的にクリーンアップされ、集約されます。 Netflix は、Kafka と Spark ストリーミングを使用して、さまざまなデータソースから毎日数十億のイベントを処理できるリアルタイムのオンライン映画推奨およびデータ監視ソリューションを構築しています。ただし、バッチ処理用の従来の ETL は異なる方法で処理されます。このデータは最初に読み取られ、データベースに書き込まれる前にデータベース形式に変換されます。
データの拡充 Spark ストリーミングは、ライブデータを静的データで強化し、よりリアルタイムなデータ分析を可能にします。たとえば、オンライン広告主は、顧客の行動に関する情報に基づいて、パーソナライズされたターゲット広告を配信できます。
トリガーイベント検出。 Spark ストリーミングを使用すると、潜在的に深刻な問題を示唆する異常な動作を迅速に検出して対応できます。たとえば、金融機関はトリガーを使用して不正な取引を検出して阻止し、病院はトリガーを使用して患者のバイタルサインで検出された危険な健康状態の変化を検出します。
複雑なセッション分析。 Spark ストリーミングは、Web サイトまたはアプリケーションにログインした後のユーザーアクティビティなどのイベントを収集し、それらをグループ化して分析します。たとえば、Netflix はこの機能を使用して、リアルタイムの映画推奨を提供しています。

ストリーミングデータの設定、Confluent Kafkaの検証、パフォーマンステストの詳細については、"TR-4912: NetAppを使用した Confluent Kafka 階層型ストレージのベストプラクティスガイドライン" 。

機械学習

Spark 統合フレームワークは、機械学習ライブラリ (MLlib) を使用してデータセットに対して繰り返しクエリを実行するのに役立ちます。 MLlib は、予測インテリジェンス、マーケティング目的の顧客セグメンテーション、感情分析などの一般的なビッグデータ機能のクラスタリング、分類、次元削減などの分野で使用されます。 MLlib は、ネットワークセキュリティで使用され、悪意のあるアクティビティの兆候がないかデータパケットをリアルタイムで検査します。セキュリティプロバイダーが新しい脅威を把握し、ハッカーに先手を打つと同時にクライアントをリアルタイムで保護するのに役立ちます。

ディープラーニング

TensorFlow は、業界全体で使用されている人気のディープラーニングフレームワークです。 TensorFlow は、CPU または GPU クラスターでの分散トレーニングをサポートします。この分散トレーニングにより、ユーザーは多数の深いレイヤーを持つ大量のデータに対してトレーニングを実行できます。

つい最近まで、Apache Spark で TensorFlow を使用する場合は、PySpark で TensorFlow に必要なすべての ETL を実行し、データを中間ストレージに書き込む必要がありました。そのデータは、実際のトレーニングプロセスのために TensorFlow クラスターにロードされます。このワークフローでは、ユーザーは ETL 用と TensorFlow の分散トレーニング用の 2 つの異なるクラスターを維持する必要がありました。複数のクラスターの実行と維持は、通常、面倒で時間がかかります。

以前のバージョンの Spark の DataFrames と RDD は、ランダムアクセスが制限されていたため、ディープラーニングには適していませんでした。プロジェクト Hydrogen を使用した Spark 3.0 では、ディープラーニングフレームワークのネイティブサポートが追加されます。このアプローチにより、Spark クラスター上で MapReduce ベース以外のスケジューリングが可能になります。

インタラクティブ分析

Apache Spark は、SQL、R、Python など、Spark 以外の開発言語でサンプリングせずに探索クエリを実行できるほど高速です。 Spark は視覚化ツールを使用して複雑なデータを処理し、インタラクティブに視覚化します。構造化ストリーミングを備えた Spark は、Web 分析のライブデータに対して対話型クエリを実行し、Web 訪問者の現在のセッションに対して対話型クエリを実行できるようにします。

レコメンデーションシステム

長年にわたり、企業や消費者がオンラインショッピング、オンラインエンターテイメント、その他多くの業界における劇的な変化に対応するにつれ、レコメンデーションシステムは私たちの生活に多大な変化をもたらしてきました。実際、これらのシステムは、生産における AI の最も明らかな成功事例の 1 つです。多くの実際の使用例では、レコメンデーションシステムは、NLP バックエンドとインターフェースされた会話型 AI またはチャットボットと組み合わせられ、関連情報を取得して有用な推論を生成します。

今日、多くの小売業者は、オンラインで購入して店舗で受け取る、カーブサイドピックアップ、セルフチェックアウト、スキャンアンドゴーなどの新しいビジネスモデルを採用しています。これらのモデルは、消費者にとってショッピングをより安全で便利なものにすることで、COVID-19パンデミック中に注目を集めるようになりました。 AI は、消費者の行動に影響を受け、またその逆も起こる、こうした成長を続けるデジタルトレンドにとって極めて重要です。NetAppは、消費者の高まる需要に応え、顧客体験を強化し、運用効率を改善し、収益を増やすために、エンタープライズ顧客と企業が機械学習とディープラーニングのアルゴリズムを使用して、より高速で正確な推奨システムを設計できるよう支援します。

推奨事項を提供するために使用される一般的な手法としては、協調フィルタリング、コンテンツベースシステム、ディープラーニングレコメンデーションモデル (DLRM)、ハイブリッド手法などがあります。これまで、顧客は PySpark を利用して、推奨システムを作成するための協調フィルタリングを実装していました。 Spark MLlib は、DLRM が登場する以前から企業の間で非常に人気があったアルゴリズムである協調フィルタリング用の交代最小二乗法 (ALS) を実装しています。

自然言語処理

自然言語処理 (NLP) によって可能になる会話型 AI は、コンピューターが人間とコミュニケーションするのを支援する AI の分野です。 NLP は、スマートアシスタントやチャットボットから Google 検索や予測テキストまで、あらゆる業界のさまざまなユースケースで普及しています。ある "ガートナー"予測によると、2022 年までに 70% の人々が会話型 AI プラットフォームを日常的に利用するようになるでしょう。人間と機械の間で質の高い会話をするには、応答が迅速で、インテリジェントで、自然な響きでなければなりません。

顧客は、NLP および自動音声認識 (ASR) モデルを処理およびトレーニングするために大量のデータを必要とします。また、エッジ、コア、クラウド間でデータを移動する必要があり、人間との自然なコミュニケーションを確立するために、数ミリ秒単位で推論を実行する能力も必要です。 NetApp AI と Apache Spark は、コンピューティング、ストレージ、データ処理、モデルトレーニング、微調整、および導入に最適な組み合わせです。

感情分析は、テキストから肯定的、否定的、または中立的な感情を抽出する NLP の研究分野です。感情分析には、発信者との会話におけるサポートセンターの従業員のパフォーマンスを判断することから、適切な自動チャットボット応答を提供することまで、さまざまな使用例があります。また、四半期ごとの収益報告の電話会議における企業代表者と聴衆とのやり取りに基づいて、企業の株価を予測するためにも使用されています。さらに、感情分析を使用すると、ブランドが提供する製品、サービス、またはサポートに対する顧客の見解を判断することもできます。

私たちは "スパークNLP"図書館から "ジョン・スノー・ラボ"事前学習済みのパイプラインとBERT（Bidirectional Encoder Representations from Transformers）モデルをロードする。 "金融ニュースの感情"そして "フィンバート"トークン化、固有表現認識、モデルトレーニング、フィッティング、感情分析を大規模に実行します。 Spark NLP は、BERT、ALBERT、ELECTRA、XLNet、DistilBERT、RoBERTa、DeBERTa、XLM-RoBERTa、Longformer、ELMO、Universal Sentence Encoder、Google T5、MarianMT、GPT2 などの最先端のトランスフォーマーを提供する、実稼働中の唯一のオープンソース NLP ライブラリです。このライブラリは、Apache Spark をネイティブに拡張することで、Python や R だけでなく、JVM エコシステム (Java、Scala、Kotlin) でも大規模に動作します。