简体中文版经机器翻译而成，仅供参考。如与英语版出现任何冲突，应以英语版为准。

用例摘要

08/18/2025 贡献者

PDF

本页描述了可以使用该解决方案的不同领域。

流数据

Apache Spark 可以处理流数据，用于流式提取、转换和加载 (ETL) 过程；数据丰富；触发事件检测；以及复杂的会话分析：

流式 ETL。*数据在被推送到数据存储之前会被不断地清理和汇总。 Netflix 使用 Kafka 和 Spark 流构建实时在线电影推荐和数据监控解决方案，每天可以处理来自不同数据源的数十亿个事件。然而，用于批处理的传统 ETL 的处理方式有所不同。首先读取该数据，然后将其转换为数据库格式，再写入数据库。
数据丰富。 Spark 流使用静态数据丰富实时数据，以实现更实时的数据分析。例如，在线广告商可以根据客户行为信息投放个性化、有针对性的广告。
触发事件检测。 Spark 流允许您检测并快速响应可能表明存在严重问题的异常行为。例如，金融机构使用触发器来检测和阻止欺诈交易，医院使用触发器来检测患者生命体征中检测到的危险健康变化。
复杂的会话分析。 Spark 流收集用户登录网站或应用程序后的活动等事件，然后对其进行分组和分析。例如，Netflix 使用此功能提供实时电影推荐。

有关流数据配置、Confluent Kafka 验证和性能测试的更多内容，请参阅"TR-4912： NetApp Confluent Kafka 分层存储的最佳实践指南"。

机器学习

Spark 集成框架可帮助您使用机器学习库 (MLlib) 对数据集运行重复查询。 MLlib 用于聚类、分类和降维等领域，用于一些常见的大数据功能，例如预测智能、用于营销目的的客户细分和情感分析。 MLlib 用于网络安全，对数据包进行实时检查，以发现恶意活动的迹象。它可以帮助安全提供商了解新的威胁并领先于黑客，同时实时保护他们的客户。

深度学习

TensorFlow 是业界流行的深度学习框架。 TensorFlow支持在CPU或GPU集群上进行分布式训练。这种分布式训练允许用户在具有大量深层的数据上运行它。

直到最近，如果我们想将 TensorFlow 与 Apache Spark 一起使用，我们需要在 PySpark 中为 TensorFlow 执行所有必要的 ETL，然后将数据写入中间存储。然后，该数据将被加载到 TensorFlow 集群上，用于实际的训练过程。此工作流程要求用户维护两个不同的集群，一个用于 ETL，一个用于 TensorFlow 的分布式训练。运行和维护多个集群通常很繁琐且耗时。

早期 Spark 版本中的 DataFrames 和 RDD 不太适合深度学习，因为随机访问受到限制。在带有氢项目的 Spark 3.0 中，添加了对深度学习框架的原生支持。这种方法允许在 Spark 集群上进行非基于 MapReduce 的调度。

交互式分析

Apache Spark 的速度足够快，可以使用 Spark 以外的开发语言（包括 SQL、R 和 Python）执行探索性查询而无需采样。 Spark 使用可视化工具来处理复杂数据并以交互方式进行可视化。具有结构化流的 Spark 对网络分析中的实时数据执行交互式查询，使您能够对网络访问者的当前会话运行交互式查询。

自然语言处理

对话式人工智能是通过自然语言处理 (NLP) 实现的，它是帮助计算机与人类交流的人工智能的一个分支。 NLP 在每个垂直行业和许多用例中都很普遍，从智能助手和聊天机器人到谷歌搜索和预测文本。根据 "Gartner"预测到2022年，70%的人将每天与对话式人工智能平台进行互动。为了实现人与机器之间的高质量对话，响应必须快速、智能且听起来自然。

客户需要大量数据来处理和训练他们的 NLP 和自动语音识别 (ASR) 模型。他们还需要在边缘、核心和云端移动数据，并且需要在几毫秒内进行推理的能力，以与人类建立自然的交流。 NetApp AI 和 Apache Spark 是计算、存储、数据处理、模型训练、微调和部署的理想组合。

情感分析是 NLP 中的一个研究领域，它从文本中提取积极、消极或中性情感。情绪分析有多种用例，从确定支持中心员工与呼叫者对话的表现到提供适当的自动聊天机器人响应。它还被用来根据公司代表和季度收益电话会议上的听众之间的互动来预测公司的股价。此外，情绪分析可用于确定客户对品牌提供的产品、服务或支持的看法。

我们使用了 "Spark NLP"来自的图书馆 "约翰·斯诺实验室"加载预训练管道和 Transformer (BERT) 模型的双向编码器表示，包括 "财经新闻情绪"和 "FinBERT"，大规模执行标记化、命名实体识别、模型训练、拟合和情感分析。 Spark NLP 是唯一一个正在生产中的开源 NLP 库，它提供最先进的转换器，例如 BERT、ALBERT、ELECTRA、XLNet、DistilBERT、RoBERTa、DeBERTa、XLM-RoBERTa、Longformer、ELMO、Universal Sentence Encoder、Google T5、MarianMT 和 GPT2。该库不仅适用于 Python 和 R，还可以通过原生扩展 Apache Spark 在 JVM 生态系统（Java、Scala 和 Kotlin）中大规模运行。

用例摘要

Creating your file...

流数据

机器学习

深度学习

交互式分析

推荐系统

自然语言处理