适用于本地连接存储的ONTAP Select软件 RAID 配置服务
软件 RAID 是在ONTAP软件堆栈内实施的 RAID 抽象层。它提供的功能与传统ONTAP平台(例如FAS)中的 RAID 层相同。RAID层执行驱动器奇偶校验计算,并针对ONTAP Select节点中的单个驱动器故障提供保护。
除了硬件 RAID 配置之外, ONTAP Select还提供了软件 RAID 选项。在某些环境中,例如在小型商用硬件上部署ONTAP Select时,硬件 RAID 控制器可能不可用或不合适。软件 RAID 扩展了可用的部署选项,使其涵盖此类环境。要在您的环境中启用软件 RAID,请记住以下几点:
-
它可通过 Premium 或 Premium XL 许可证获得。
-
它仅支持ONTAP根磁盘和数据磁盘的 SSD 或 NVMe(需要 Premium XL 许可证)驱动器。
-
它需要一个单独的系统磁盘作为ONTAP Select VM 启动分区。
-
选择一个单独的磁盘(SSD 或 NVMe 驱动器),为系统磁盘(多节点设置中的NVRAM、Boot/CF 卡、Coredump 和 Mediator)创建数据存储。
-
笔记
-
服务磁盘和系统磁盘这两个术语可以互换使用。
-
服务磁盘是ONTAP Select VM 内使用的 VMDK,用于服务各种项目,例如集群、启动等。
-
从主机的角度来看,服务磁盘物理上位于单个物理磁盘上(统称为服务/系统物理磁盘)。该物理磁盘必须包含 DAS 数据存储。ONTAPDeploy 会在集群部署期间为ONTAP ONTAP Select虚拟机创建这些服务磁盘。
-
-
无法进一步跨多个数据存储库或跨多个物理驱动器分离ONTAP Select系统磁盘。
-
硬件 RAID 并未被弃用。
本地连接存储的软件 RAID 配置
使用软件 RAID 时,理想情况下没有硬件 RAID 控制器,但是,如果系统确实有现有的 RAID 控制器,则必须遵守以下要求:
-
必须禁用硬件 RAID 控制器,以便磁盘可以直接呈现给系统(JBOD)。此更改通常可以在 RAID 控制器 BIOS 中进行。
-
或者,硬件 RAID 控制器应处于 SAS HBA 模式。例如,某些 BIOS 配置除了 RAID 之外还允许“AHCI”模式,可以选择该模式来启用 JBOD 模式。这将启用直通功能,以便物理驱动器在主机上可以按原样显示。
根据控制器支持的最大驱动器数量,可能需要额外的控制器。在 SAS HBA 模式下,请确保 IO 控制器 (SAS HBA) 至少支持 6Gb/s 的速度。不过, NetApp建议使用 12Gbps 的速度。
不支持任何其他硬件 RAID 控制器模式或配置。例如,某些控制器允许 RAID 0 支持,这可以人为地启用磁盘直通功能,但其后果可能不堪设想。支持的物理磁盘(仅限 SSD)大小在 200GB 至 16TB 之间。
|
管理员需要跟踪ONTAP Select VM 正在使用的驱动器,并防止在主机上无意中使用这些驱动器。 |
ONTAP Select虚拟磁盘和物理磁盘
对于使用硬件 RAID 控制器的配置,物理磁盘冗余由 RAID 控制器提供。ONTAPONTAP Select会提供一个或多个 VMDK, ONTAP管理员可以从中配置数据聚合。这些 VMDK 以 RAID 0 格式进行条带化,因为ONTAP软件 RAID 冗余、低效且低效,这是由于硬件级别提供的弹性造成的。此外,用于系统磁盘的 VMDK 与用于存储用户数据的 VMDK 位于同一数据存储中。
使用软件 RAID 时, ONTAP Deploy 会向ONTAP Select提供一组虚拟磁盘 (VMDK) 和物理磁盘原始设备映射 [RDM](用于 SSD)以及直通或 DirectPath IO 设备(用于 NVMe)。
下图更详细地展示了这种关系,突出显示了用于ONTAP Select VM 内部的虚拟化磁盘与用于存储用户数据的物理磁盘之间的区别。
-
ONTAP Select软件 RAID:使用虚拟化磁盘和 RDM*
系统磁盘 (VMDK) 位于同一数据存储区和同一物理磁盘上。虚拟NVRAM磁盘需要快速且耐用的介质。因此,仅支持 NVMe 和 SSD 类型的数据存储区。
系统磁盘 (VMDK) 位于同一数据存储区和同一物理磁盘上。虚拟NVRAM磁盘需要快速且耐用的介质。因此,仅支持 NVMe 和 SSD 类型的数据存储区。使用 NVMe 驱动器存储数据时,出于性能考虑,系统磁盘也应为 NVMe 设备。在全 NVMe 配置中,英特尔傲腾卡是系统磁盘的理想选择。
|
在当前版本中,无法进一步跨多个数据存储库或多个物理驱动器分离ONTAP Select系统磁盘。 |
每个数据磁盘分为三部分:一个小的根分区(条带)和两个大小相等的分区,从而创建在ONTAP Select虚拟机中可见的两个数据磁盘。分区使用根数据 (RD2) 模式,如下图所示,针对单节点集群和 HA 对中的节点。
`P`表示奇偶校验驱动器。 `DP`表示双奇偶校验驱动器,并且 `S`表示备用驱动器。
单节点集群的 RDD 磁盘分区
多节点集群(HA 对)的 RDD 磁盘分区
ONTAP软件 RAID 支持以下 RAID 类型:RAID 4、RAID-DP 和RAID-TEC。这些是FAS和AFF平台使用的相同 RAID 结构。对于根配置, ONTAP Select仅支持 RAID 4 和 RAID-DP。当使用RAID-TEC进行数据聚合时,整体保护是 RAID-DP。ONTAPONTAP Select HA 使用无共享架构,将每个节点的配置复制到另一个节点。这意味着每个节点必须存储其根分区及其对等节点根分区的副本。由于数据磁盘只有一个根分区,因此最低数据磁盘数量将取决于ONTAP Select节点是否属于 HA 对。
对于单节点集群,所有数据分区都用于存储本地(活动)数据。对于属于 HA 对的节点,一个数据分区用于存储该节点的本地(活动)数据,另一个数据分区用于镜像来自 HA 对等节点的活动数据。
直通 (DirectPath IO) 设备与原始设备映射 (RDM)
VMware ESX 目前不支持将 NVMe 磁盘用作原始设备映射。要使ONTAP Select直接控制 NVMe 磁盘,必须在 ESX 中将 NVMe 驱动器配置为直通设备。请注意,将 NVMe 设备配置为直通设备需要服务器 BIOS 的支持,并且这是一个中断过程,需要重新启动 ESX 主机。此外,每个 ESX 主机的最大直通设备数量为 16 个。但是, ONTAP Deploy 将其限制为 14 个。每个ONTAP Select节点 14 个 NVMe 设备的限制意味着全 NVMe 配置将提供非常高的 IOP 密度(IOP/TB),但总容量会有所降低。或者,如果需要具有更大存储容量的高性能配置,建议的配置是较大的ONTAP Select VM 大小、用于系统磁盘的 INTEL Optane 卡以及用于数据存储的额定数量的 SSD 驱动器。
|
为了充分利用 NVMe 性能,请考虑较大的ONTAP Select VM 大小。 |
直通设备和 RDM 之间还有一个区别。RDM可以映射到正在运行的虚拟机。直通设备需要重新启动虚拟机。这意味着任何 NVMe 驱动器更换或容量扩展(驱动器添加)过程都需要重新启动ONTAP Select虚拟机。驱动器更换和容量扩展(驱动器添加)操作由ONTAP Deploy 中的工作流驱动。ONTAPONTAP管理单节点集群的ONTAP Select重新启动以及 HA 对的故障转移/故障恢复。但是,必须注意使用 SSD 数据驱动器(不需要ONTAP Select重新启动/故障转移)和使用 NVMe 数据驱动器(需要ONTAP Select重新启动/故障转移)之间的区别。
物理和虚拟磁盘配置
为了提供更简化的用户体验, ONTAP Deploy 会自动从指定的数据存储库(物理系统磁盘)配置系统(虚拟)磁盘,并将其连接到ONTAP Select虚拟机。此操作会在初始设置期间自动执行,以便ONTAP Select虚拟机能够启动。RDM会进行分区,并且会自动构建根聚合。如果ONTAP Select节点属于 HA 对,则数据分区会自动分配给本地存储池和镜像存储池。此分配操作会在集群创建操作和存储添加操作期间自动进行。
由于ONTAP Select VM 上的数据磁盘与底层物理磁盘相关联,因此创建具有大量物理磁盘的配置会对性能产生影响。
|
根聚合的 RAID 组类型取决于可用的磁盘数量。ONTAPONTAP会选择合适的 RAID 组类型。如果分配给节点的磁盘数量足够,则使用 RAID-DP;否则,则创建 RAID-4 根聚合。 |
使用软件 RAID 为ONTAP Select虚拟机添加容量时,管理员必须考虑物理驱动器的大小以及所需的驱动器数量。有关详细信息,请参阅"增加存储容量" 。
与FAS和AFF系统类似,只有容量相等或更大的驱动器才能添加到现有 RAID 组。容量更大的驱动器大小合适。如果您要创建新的 RAID 组,则新 RAID 组的大小应与现有 RAID 组的大小匹配,以确保整体聚合性能不会下降。
将ONTAP Select磁盘与相应的 ESX 磁盘匹配
ONTAP Select磁盘通常标记为 NET xy您可以使用以下ONTAP命令获取磁盘 UUID:
<system name>::> disk show NET-1.1 Disk: NET-1.1 Model: Micron_5100_MTFD Serial Number: 1723175C0B5E UID: *500A0751:175C0B5E*:00000000:00000000:00000000:00000000:00000000:00000000:00000000:00000000 BPS: 512 Physical Size: 894.3GB Position: shared Checksum Compatibility: advanced_zoned Aggregate: - Plex: -This UID can be matched with the device UID displayed in the ‘storage devices’ tab for the ESX host
在 ESXi shell 中,您可以输入以下命令来使给定物理磁盘(由其 naa.unique-id 标识)的 LED 闪烁。
esxcli storage core device set -d <naa_id> -l=locator -L=<seconds>
使用软件 RAID 时出现多个驱动器故障
系统可能会遇到多个驱动器同时处于故障状态的情况。系统的行为取决于聚合 RAID 保护和故障驱动器的数量。
RAID4 聚合可承受一个磁盘故障,RAID-DP 聚合可承受两个磁盘故障,而RAID-TEC聚合可承受三个磁盘故障。
如果故障磁盘数量小于该 RAID 类型支持的最大故障数量,并且有备用磁盘可用,则重建过程将自动启动。如果没有备用磁盘可用,则聚合将以降级状态提供数据,直到添加备用磁盘为止。
如果故障磁盘数量超过 RAID 类型支持的最大故障数量,则本地丛会被标记为故障,聚合状态也会降级。数据由位于 HA 配对节点上的第二个丛提供。这意味着,节点 1 的任何 I/O 请求都会通过集群互连端口 e0e (iSCSI) 发送到物理上位于节点 2 上的磁盘。如果第二个丛也发生故障,则聚合会被标记为故障,数据不可用。
必须删除并重新创建发生故障的 plex,才能恢复正确的数据镜像。请注意,多磁盘故障导致数据聚合降级,也会导致根聚合降级。ONTAP Select使用根-数据-数据 (RDD) 分区模式将每个物理驱动器拆分为一个根分区和两个数据分区。因此,丢失一个或多个磁盘可能会影响多个聚合,包括本地根聚合或远程根聚合的副本,以及本地数据聚合和远程数据聚合的副本。
C3111E67::> storage aggregate plex delete -aggregate aggr1 -plex plex1 Warning: Deleting plex "plex1" of mirrored aggregate "aggr1" in a non-shared HA configuration will disable its synchronous mirror protection and disable negotiated takeover of node "sti-rx2540-335a" when aggregate "aggr1" is online. Do you want to continue? {y|n}: y [Job 78] Job succeeded: DONE C3111E67::> storage aggregate mirror -aggregate aggr1 Info: Disks would be added to aggregate "aggr1" on node "sti-rx2540-335a" in the following manner: Second Plex RAID Group rg0, 5 disks (advanced_zoned checksum, raid_dp) Usable Physical Position Disk Type Size Size ---------- ------------------------- ---------- -------- -------- shared NET-3.2 SSD - - shared NET-3.3 SSD - - shared NET-3.4 SSD 208.4GB 208.4GB shared NET-3.5 SSD 208.4GB 208.4GB shared NET-3.12 SSD 208.4GB 208.4GB Aggregate capacity available for volume use would be 526.1GB. 625.2GB would be used from capacity license. Do you want to continue? {y|n}: y C3111E67::> storage aggregate show-status -aggregate aggr1 Owner Node: sti-rx2540-335a Aggregate: aggr1 (online, raid_dp, mirrored) (advanced_zoned checksums) Plex: /aggr1/plex0 (online, normal, active, pool0) RAID Group /aggr1/plex0/rg0 (normal, advanced_zoned checksums) Usable Physical Position Disk Pool Type RPM Size Size Status -------- --------------------------- ---- ----- ------ -------- -------- ---------- shared NET-1.1 0 SSD - 205.1GB 447.1GB (normal) shared NET-1.2 0 SSD - 205.1GB 447.1GB (normal) shared NET-1.3 0 SSD - 205.1GB 447.1GB (normal) shared NET-1.10 0 SSD - 205.1GB 447.1GB (normal) shared NET-1.11 0 SSD - 205.1GB 447.1GB (normal) Plex: /aggr1/plex3 (online, normal, active, pool1) RAID Group /aggr1/plex3/rg0 (normal, advanced_zoned checksums) Usable Physical Position Disk Pool Type RPM Size Size Status -------- --------------------------- ---- ----- ------ -------- -------- ---------- shared NET-3.2 1 SSD - 205.1GB 447.1GB (normal) shared NET-3.3 1 SSD - 205.1GB 447.1GB (normal) shared NET-3.4 1 SSD - 205.1GB 447.1GB (normal) shared NET-3.5 1 SSD - 205.1GB 447.1GB (normal) shared NET-3.12 1 SSD - 205.1GB 447.1GB (normal) 10 entries were displayed..
|
为了测试或模拟一个或多个驱动器故障,请使用 storage disk fail -disk NET-x.y -immediate`命令。如果系统中有备用磁盘,聚合将开始重建。您可以使用以下命令检查重建的状态 `storage aggregate show 。您可以使用ONTAP Deploy 移除模拟故障驱动器。请注意,ONTAP已将硬盘标记为 Broken 。驱动器实际上并未损坏,可以使用ONTAP Deploy 重新添加。要清除“Broken”标签,请在ONTAP Select CLI 中输入以下命令
|
set advanced disk unfail -disk NET-x.y -spare true disk show -broken
最后一个命令的输出应该是空的。
虚拟化NVRAM
NetApp FAS系统传统上配备物理NVRAM PCI 卡。该卡是一款高性能卡,包含非易失性闪存,可显著提升写入性能。它通过授予ONTAP立即向客户端确认传入写入的能力来实现这一点。它还可以安排将已修改的数据块移回速度较慢的存储介质,这个过程称为“降级暂存”。
商用系统通常不配备此类设备。因此, NVRAM卡的功能已被虚拟化,并放置在ONTAP Select系统启动磁盘的一个分区中。正因如此,实例的系统虚拟磁盘的放置位置至关重要。