查看最佳实践
在NetApp解决方案 上部署BeeGFS时、请遵循最佳实践准则。
标准约定
在物理组装和创建Ansible清单文件时、请遵循以下标准约定(有关详细信息、请参见 "创建Ansible清单")。
-
文件节点主机名按顺序编号(h01-HN)、机架顶部的数字较低、底部的数字较高。
例如、命名约定`[location][row][rack]HN`的外观如下:
ictad22h01
。 -
每个块节点由两个存储控制器组成、每个控制器都有自己的主机名。
存储阵列名称用于在Ansible清单中引用整个块存储系统。存储阵列名称应按顺序编号(A01 - A)、各个控制器的主机名均根据该命名约定派生。
例如、名为`ictad22a01`的块节点通常可以为每个控制器配置主机名、例如`ictad22a01-A`和`ictad22a01-b`、但在Ansible清单中称为`ictad22a01`。
-
同一构建块中的文件和块节点共享相同的编号方案、并在机架中彼此相邻、两个文件节点位于顶部、两个块节点位于其正下方。
例如、在第一个构建块中、文件节点h01和h02都直接连接到块节点A01和A02。主机名依次为h01、h02、A01和A02。
-
组件会根据主机名按顺序进行安装、因此、编号较低的主机名位于机架顶部、编号较高的主机名位于底部。
其目的是最大限度地缩短连接到机架交换机顶部的缆线长度、并定义标准部署实践以简化故障排除。对于因机架稳定性问题而不允许这样做的数据中心、当然也允许使用相反方法、即从下往上填充机架。
InfiniBand存储网络配置
每个文件节点上一半的InfiniBand端口用于直接连接到块节点。另一半连接到InfiniBand交换机、并用于BeeGFS客户端-服务器连接。在确定用于BeeGFS客户端和服务器的IPoIB子网的大小时、您必须考虑计算/GPU集群和BeeGFS文件系统的预期增长。如果您必须偏离建议的IP范围、请注意、一个构建块中的每个直接连接都有一个唯一的子网、并且与用于客户端-服务器连接的子网没有重叠。
直接连接
每个构建块中的文件和块节点始终使用下表中的IP进行直接连接。
此寻址方案遵循以下规则:第三个八位字节始终为奇数或偶数、具体取决于文件节点是奇数还是偶数。 |
文件节点 | IB端口 | IP 地址 | 块节点 | IB端口 | 物理IP | 虚拟IP |
---|---|---|---|---|---|---|
奇数(H1) |
i1a |
192.168.1.10 |
奇数(C1) |
2a. |
192.168.1.100 |
192.168.1.101 |
奇数(H1) |
I2a. |
192.168.3.10 |
奇数(C1) |
2a. |
192.168.3.100 |
192.168.3.101 |
奇数(H1) |
i3a |
192.168.5.10 |
偶数(C2) |
2a. |
192.168.5.100 |
192.168.5.101 |
奇数(H1) |
i4a |
192.168.7.10 |
偶数(C2) |
2a. |
192.168.7.100 |
192.168.7.101 |
偶数(H2) |
i1a |
192.168.2.10 |
奇数(C1) |
2亿 |
192.168.2.100 |
192.168.2.101 |
偶数(H2) |
I2a. |
192.168.4.10 |
奇数(C1) |
2亿 |
192.168.4.100 |
192.168.4.101 |
偶数(H2) |
i3a |
192.168.6.10 |
偶数(C2) |
2亿 |
192.168.6.100 |
192.168.6.101 |
偶数(H2) |
i4a |
192.168.8.10 |
偶数(C2) |
2亿 |
192.168.8.100 |
192.168.8.101 |
BeeGFS客户端-服务器IPoIB寻址方案(两个子网)
要使BeeGFS客户端能够使用两个InfiniBand端口、需要两个IPoIB子网、其中一半的BeeGFS服务器服务在每个子网上配置了首选IP、以确保客户端使用两个InfiniBand端口最大限度地提高文件系统的冗余和可能的吞吐量。
每个文件节点都运行多个BeeGFS服务器服务(管理、元数据或存储)。为了使每个服务能够独立故障转移到另一个文件节点、每个服务都配置了唯一的IP地址、这些地址可以在两个节点之间浮动(有时称为逻辑接口或LIF)。
此部署虽然不是必需的、但假定这些连接正在使用以下IPoIB子网范围、并定义了一个标准寻址方案、该方案将应用以下规则:
-
根据文件节点InfiniBand端口是奇数还是奇数、第二个八位字节始终是奇数甚至偶数。
-
BeeGFS集群IP始终为`xxx。127.100.yyy`或`xxx.128.100.yyy`。
除了用于带内操作系统管理的接口之外、Corosync还可以使用其他接口进行集群检测和同步。这样可以确保丢失一个接口不会导致整个集群关闭。 |
-
BeeGFS管理服务始终为`xxx.yyy.101.0`或`xxx.yyy.102.0`。
-
BeeGFS元数据服务始终位于`xxx.yyy.101.zzz`或`xxx.yyy.102.zzz`。
-
BeeGFS存储服务始终位于`xxx.yyy.103.zzz`或`xxx.yyy.103.zzz`。
-
范围`100.xxx.1.1`到`100.xxx.99.255`的地址是为客户端预留的。
下表提供了子网A的范围:100.127.0.0/16。
目的 | InfiniBand端口 | IP地址或范围 |
---|---|---|
BeeGFS集群IP |
i1b |
100.127.100.1 - 100.127.100.255 |
BeeGFS管理 |
i1b |
100.127.101.0 |
BeeGFS元数据 |
i1b或i3b |
100.127.101.1 - 100.127.101.255 |
BeeGFS存储 |
i1b或i3b |
100.127.103.1 - 100.127.103.255 |
BeeGFS客户端 |
(因客户端而异) |
100.127.1.1 - 100.127.99.255 |
下表提供了子网B的范围:100.128.0.0/16。
目的 | InfiniBand端口 | IP地址或范围 |
---|---|---|
BeeGFS集群IP |
i4b. |
100.128.100.1 - 100.128.100.255 |
BeeGFS管理 |
i2b. |
100.128.102.0 |
BeeGFS元数据 |
i2b或i4b |
100.128.102.1 - 100.128.102.255 |
BeeGFS存储 |
i2b或i4b |
100.128.104.1 - 100.128.104.255 |
BeeGFS客户端 |
(因客户端而异) |
100.128.1.1 - 100.128.99.255 |
并非上述范围内的所有IP都用于此经过NetApp验证的架构。它们展示了如何预先分配IP地址、以便使用一致的IP寻址方案轻松扩展文件系统。在此方案中、BeeGFS文件节点和服务ID与已知IP范围中的第四个八位字节相对应。如果需要、文件系统可以扩展到255个节点或服务以上。 |