AFX存储系统架构细节
AFX 架构由多个硬件和软件组件组成。这些系统组件被组织成不同的类别。
物理组件
首次开始使用 AFX 时,首先从数据中心安装的物理组件的高级视图开始会很有帮助。
控制节点
AFX 控制器节点运行ONTAP软件的专用功能,旨在支持 AFX 环境的要求。客户端通过多种协议访问节点,包括 NFS、SMB 和 S3。每个节点都有存储的完整视图,并可以根据客户端请求进行访问。这些节点具有状态,并采用非易失性内存来保存关键状态信息,并包含针对目标工作负载的额外增强功能。
存储架和磁盘
AFX 存储架使用非易失性内存快速架构 (NVMe-oF) 连接高密度 SSD。磁盘使用融合以太网上的 RDMA (RoCE) 通过超低延迟结构进行通信。存储架(包括 I/O 模块、NIC、风扇和电源)完全冗余,没有单点故障。自管理技术用于管理和控制 RAID 配置和磁盘布局的各个方面。
集群存储交换机网络
冗余和高性能交换机将 AFX 控制器节点与存储架连接起来。使用先进的协议来优化性能。该设计基于具有多个网络路径的 VLAN 标记以及技术更新配置,以确保持续运行和轻松升级。
客户培训环境
客户端训练环境是一个实验室环境,具有客户提供的硬件,例如GPU集群和AI工作站。它通常被设计用于支持模型训练、推理和其他 AI/ML 相关工作。客户端使用 NFS、SMB 和 S3 等行业标准协议访问 AFX。
客户网络
该内部网络将客户端训练环境连接到 AFX 存储集群。尽管NetApp希望针对需求和设计提供现场建议,但网络由客户提供和管理。
逻辑组件
AFX 包含多个逻辑组件。它们与集群的物理组件一起在软件中实现。逻辑组件强制执行决定 AFX 系统的使用和配置的结构。
公共存储池
存储可用区 (SAZ) 是整个集群的公共存储池。它是存储架上的一组磁盘,所有控制器节点都对其具有读写权限。 SAZ 提供了一种配置模型,对节点可以使用哪些存储架没有固定限制; ONTAP会自动处理跨节点的卷放置。客户可以将可用空间和存储使用情况视为整个 AFX 集群的属性。
FlexVolume、FlexGroup 和 bucket
FlexVolumes、FlexGroups 和 S3 buckets 是基于客户端访问协议向 AFX 管理员公开的_数据容器_。它们的操作方式与 Unified ONTAP完全相同。这些可扩展容器旨在抽象化许多复杂的内部存储细节,例如数据放置和容量平衡。
数据布局和访问
数据布局和访问经过调整,可实现无缝访问和 GPU 的有效利用。这对于消除瓶颈和保持一致的性能起着至关重要的作用。
SVM 和多租户
AFX 提供了一个基于AFF和FAS系统提供的 SVM 模型的租户模型。AFX 租户模型与 Unified ONTAP相同,但经过简化,可在 NAS 和 S3 对象环境中简化管理。例如,SAN、聚合和RAID组的配置选项已被移除。
AFX 集群部署
下图说明了典型的 AFX 集群部署。AFX 集群包括与存储架分离的控制器节点,这些节点通过共享的内部网络连接。在 AFX 集群边界之外,客户端通过单独的客户端网络访问集群。
