简体中文版经机器翻译而成，仅供参考。如与英语版出现任何冲突，应以英语版为准。

技术概述

11/14/2024 贡献者

PDF

本节将更详细地介绍此解决方案的主要组件。

NetApp AFF 系统

借助NetApp AFF 存储系统、企业可以通过行业领先的性能、卓越的灵活性、云集成和一流的数据管理功能满足企业级存储需求。AFF 系统专为闪存而设计、有助于加速、管理和保护业务关键型数据。

此图显示了NetApp AFF A400存储控制器的正面。

此图展示了NetApp AFF A400存储控制器的背面。

NetApp AFF A400是一款中端NVMe闪存存储系统、具有以下功能：

最大有效容量：~20 PB
最大横向扩展：2-24个节点(12个HA对)
支持25GbE和16GB FC主机
通过融合以太网(RoCE)连接到NVMe扩展存储架的100GbE RDMA
如果未连接NVMe磁盘架、则可以使用100GbE RoCE端口进行主机网络连接
完整的12 Gbps SAS连接扩展存储架
提供两种配置：
- 以太网：4个25 Gb以太网(SFP28)端口
- 光纤通道：4个16 Gb FC (SFP+)端口
100% 8 KB随机读取@.4毫秒400、000次IOPS

适用于入门级AI/ML部署的NetApp AFF A250功能包括：

最大有效容量：35 PB
最大横向扩展：2-24个节点(12个HA对)
440 ， 000 次 IOPS 随机读取 @1 毫秒
基于最新的NetApp ONTAP 版本ONTAP 9.8或更高版本构建
两个25 Gb以太网端口、用于HA和集群互连

此外、NetApp还提供了其他存储系统、例如AFF A800和AFF A700、可为大规模AI/ML部署提供更高的性能和可扩展性。

NetApp ONTAP

ONTAP 9是NetApp推出的最新一代存储管理软件、可帮助企业打造现代化的基础架构并过渡到云就绪数据中心。借助行业领先的数据管理功能，无论数据位于何处， ONTAP 都可以通过一组工具来管理和保护数据。数据也可以自由移动到需要的任何位置：边缘、核心或云。ONTAP 9包含许多功能、可简化数据管理、加快和保护关键数据、以及跨混合云架构打造适应未来需求的基础架构。

简化数据管理

数据管理对于企业 IT 运营至关重要，以便将适当的资源用于应用程序和数据集。ONTAP 具有以下功能，可简化操作并降低总运营成本：

* 实时数据缩减和扩展的重复数据删除。 * 数据缩减可减少存储块中浪费的空间，重复数据删除可显著提高有效容量。此适用场景数据存储在本地，并分层到云。
* 最低，最高和自适应服务质量（ QoS ）。 * 细粒度 QoS 控制有助于在高度共享的环境中保持关键应用程序的性能水平。
* ONTAP FabricPool。*此功能可自动将冷数据分层到公共云和私有云存储选项、包括Amazon Web Services (AWS)、Azure和NetApp StorageGRID 对象存储。

加速和保护数据

ONTAP 可提供卓越的性能和数据保护、并通过以下方式扩展这些功能：

* 性能和低延迟。 * ONTAP 可提供尽可能高的吞吐量，并尽可能降低延迟。
* 数据保护。 * ONTAP 提供内置数据保护功能，并在所有平台之间进行通用管理。
* NetApp 卷加密。 * ONTAP 提供原生卷级加密，并支持板载和外部密钥管理。

Future-Proof 基础架构

ONTAP 9有助于满足不断变化的苛刻业务需求：

无缝扩展和无中断运行。 ONTAP 支持向现有控制器以及横向扩展集群无中断添加容量。客户可以升级到 NVMe 和 32 Gb FC 等最新技术，而无需进行成本高昂的数据迁移或中断。
*云连接*ONTAP是云互联程度最高的存储管理软件、可在所有公有云中选择软件定义的存储(Software-defined Storage、ONTAP Select)和云原生实例(Google Cloud NetApp Volumes)。
与新兴应用程序集成。 ONTAP 使用支持现有企业级应用程序的相同基础架构、为OpenStack、Hadoop和MongoDB等下一代平台和应用程序提供企业级数据服务。

NetApp FlexGroup 卷

培训数据集通常是一组可能包含数十亿个文件的集合。文件可以包括文本，音频，视频以及其他形式的非结构化数据，这些数据必须进行存储和处理才能并行读取。存储系统必须存储许多小文件、并且必须并行读取这些文件、以便执行顺序和随机I/O

FlexGroup 卷(下图)是一个由多个成分卷组成的命名空间、存储管理员可以对其进行管理、使其与NetApp FlexVol 卷类似。FlexGroup 卷中的文件将分配给各个成员卷，并且不会在卷或节点之间进行条带化。它们支持以下功能：

为高元数据工作负载提供高达20 PB的容量和可预测的低延迟
同一命名空间中最多可容纳4000亿个文件
在CPU、节点、聚合和成分卷之间的NAS工作负载中执行并行操作FlexVol

此图显示了一个存储控制器的HA对、其中包含多个卷、其中的主文件位于一个FlexGroup中。

联想ThinkSystem产品组合

联想 ThinkSystem 服务器采用创新的硬件，软件和服务，可解决客户当前面临的挑战，并提供一种循序渐进的模块化设计方法来应对未来的挑战。这些服务器利用同类最佳的行业标准技术以及联想的差异化创新技术，为 x86 服务器提供最大的灵活性。

部署联想ThinkSystem服务器的主要优势包括：

高度可扩展的模块化设计、可随业务发展而扩展
行业领先的弹性，可节省数小时的成本高昂的计划外停机时间
快速闪存技术可实现更低的延迟，更快的响应速度以及更智能的实时数据管理

在 AI 领域，联想正在采取切实可行的方法帮助企业了解 ML 和 AI 的优势并将其用于工作负载。联想客户可以在联想 AI 创新中心探索和评估联想 AI 产品，以充分了解其特定用例的价值。为了缩短实现价值的时间、这种以客户为中心的方法可以为客户提供解决方案开发平台的概念验证、这些平台已准备就绪、可供AI使用并进行优化。

联想SR670V2

联想ThinkSystem SR670V2机架式服务器可为加速AI和高性能计算(HPC)提供最佳性能。SR670V2最多可支持八个GPU、适合ML、DL和推理的计算密集型工作负载要求。

此图显示了三种SR670"配置。第一个显示了四个SXM GPU、其中包含八个2.5英寸HS驱动器和两个PCIe I/O插槽。第二个显示了四个双宽或八个单宽GPU插槽以及两个PCIe I/O插槽、其中包含八个2.5英寸或四个3.5英寸HS驱动器。第三个显示了八个双宽GPU插槽、其中包括六个EDSFF HS驱动器和两个PCIe I/O插槽。

借助支持高端GPU (包括NVIDIA A100 80 GB PCIe 8x GPU)的最新可扩展Intel Xeon CPU、ThinkSystem SR670V2可为AI和HPC工作负载提供经过优化的加速性能。

由于越来越多的工作负载使用加速器的性能、因此对GPU密度的需求也在增加。零售、金融服务、能源和医疗保健等行业正在使用GPU通过ML、DL和推理技术获得更深入的见解并推动创新。

ThinkSystem SR670V2是一款经过优化的企业级解决方案、可在生产环境中部署加速的HPC和AI工作负载、在最大程度地提高系统性能的同时、还能为采用下一代平台的超级计算集群保持数据中心密度。

其他功能包括：

支持GPU直接RDMA I/O、其中高速网络适配器直接连接到GPU、以最大程度地提高I/O性能。
支持GPU直接存储、其中NVMe驱动器直接连接到GPU、以最大程度地提高存储性能。

MLPerf

MLPerf 是用于评估 AI 性能的行业领先基准套件。在此验证中、我们使用了最受欢迎的AI框架之一MXNet的图像分类基准。我们使用了MXNet_Benchmarks培训脚本来推动AI培训。该脚本包含多种常见传统模式的实施、设计速度尽可能快。它可以在一台计算机上运行、也可以在多台主机上以分布式模式运行。