简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

用例 5 :加快分析工作负载的速度

提供者

在这种情况下,一家大型金融服务和投资银行的分析平台使用 NetApp NFS 存储解决方案进行了现代化改造,从而显著改进了资产管理和定量业务部门的投资风险和衍生产品分析。

场景

在客户的现有环境中,用于分析平台的 Hadoop 基础架构利用了 Hadoop 服务器的内部存储。由于 JBOD 环境的专有性,组织内的许多内部客户无法利用其蒙特卡罗量化模型,这种模拟依赖于重复的实时数据样本。无法以最佳方式了解市场波动的不确定性影响,这对量化资产管理业务单位不利。

要求和挑战

该银行的量化业务部门需要一种高效的预测方法来实现准确,及时的预测。为此,该团队认识到需要对基础架构进行现代化改造,减少现有 I/O 等待时间并提高 Hadoop 和 Spark 等分析应用程序的性能,以便高效模拟投资模型,衡量潜在收益并分析风险。

解决方案

客户的现有 Spark 解决方案具有 JBOD 。然后,利用 NetApp ONTAP , NetApp StorageGRID 和从 MinIO 网关到 NFS ,减少了银行的量化财务团队对评估潜在收益和风险的投资模型进行模拟和分析的 I/O 等待时间。此图显示了采用 NetApp 存储的 Spark 解决方案。

错误:缺少图形映像

如上图所示,我们部署了 AFF A800 , A700 系统和 StorageGRID ,以便在具有 Spark 的六节点 Hadoop 集群中通过 NFS 和 S3 协议访问 parquet 文件,并为数据分析操作提供了 YARN 和 Hive 元数据服务。

客户旧环境中的直连存储( DAS )解决方案在独立扩展计算和存储方面存在缺点。借助 NetApp ONTAP 解决方案 for Spark ,该银行的财务分析业务部门能够将存储与计算分离,并根据需要无缝地更有效地提供基础架构资源。

通过将 ONTAP 与 NFS 结合使用,计算服务器 CPU 几乎可以完全用于 Spark SQL 作业, I/O 等待时间缩短了近 70% ,从而为 Spark 工作负载提供了更好的计算能力和性能提升。随后,随着 CPU 利用率的提高,客户还可以利用 GPUDirect 等 GPU 进一步实现平台现代化。此外, StorageGRID 还为 Spark 工作负载提供了低成本存储选项,而 MinIO 网关则可通过 S3 协议安全访问 NFS 数据。对于云中的数据, NetApp 建议使用 Cloud Volumes ONTAP , Azure NetApp Files 和 NetApp Cloud Volumes Service 。