将数据计算节点添加到 AI Data Engine 集群
您可以在创建新的 AI Data Engine (AIDE) 集群或扩展现有集群的过程中添加数据计算节点。工作流程包括使用 ONTAP System Manager 发现和配置节点。
准备添加节点
添加数据计算节点时,请考虑以下内容。
新的 AIDE 集群需要恰好三个可用的数据计算节点。
确保满足以下先决条件:
-
新的数据计算硬件已安装在机架上,接通电源,并连接到集群交换机。
-
您有一个 IP 地址空间范围可用于数据计算节点到 ONTAP 后端子网。
-
ONTAP 集群已初始化,可从集群管理 LIF 访问。
需要 storage administrator 权限才能执行 AIDE 群集创建或扩展任务。
请查看以下文档,以确认您的数据计算硬件和软件版本与您的 ONTAP 集群兼容:
在节点添加操作期间,System Manager 将确认新节点运行与以下内容兼容的软件版本:
-
如果这是添加的第一个数据计算节点,则为 ONTAP 集群有效版本。
-
如果数据计算节点已存在,则为现有数据计算集群版本。
如果节点不兼容:
-
在 添加 对话框中,受影响的数据计算节点旁边会显示错误。
-
您必须首先将数据计算节点软件(或 ONTAP,如适用)更新为兼容版本。
添加数据计算节点
在创建新 AIDE 集群或扩展现有集群时添加数据计算节点。
-
在 System Manager 中,选择导航窗格中的 Dashboard,然后选择 Health 卡。
-
确认有要添加的节点,然后选择 View details 以显示此列表。
该列表包含尚未属于 AIDE 集群的已发现节点。
-
或者,您可以选择 Cluster 和 Overview 以及 Data compute 选项卡来查看列表。
-
在数据计算页面的底部,选择节点列表上方的 添加。
-
在*添加节点*对话框中,选择要添加的数据计算节点。
-
如果这是您第一次添加节点,并且不存在后端子网,请选择 添加子网 并提供:
-
子网名称(供内部使用)
-
子网地址和掩码
-
后端网络上数据计算节点和 ONTAP 节点的 IP 地址范围
System Manager 验证该范围包括足够的可用 IP 地址,用于要添加的所有数据计算节点、集群中的所有 ONTAP 节点,以及用于数据计算节点到 ONTAP 通信的其他集群级浮动 IP。
-
-
无论您是否添加了后端子网或它已经存在,请执行以下操作:
-
查看可用的 IP 地址。
-
如果需要,选择 编辑子网 并扩展 IP 范围。
-
您只能扩大范围。不支持缩小或更改子网。
-
更改子网或 IP 范围可能需要在数据计算节点上重新创建底层 Kubernetes 集群,这可能需要几分钟的时间。
-
-
-
可选择通过提供以下功能来配置 Data Engine 服务接口:
-
服务 IP 地址
-
网络掩码
-
网关(如果您的环境需要)
单个 IP 将在数据计算节点之间进行负载平衡,并用作 AIDE Console 和相关 API 的前端地址。
-
-
查看选定节点、后端子网和 Data Engine 服务接口设置。
-
选择 添加 并等待操作完成。System Manager 将执行以下操作:
-
将所选节点添加到数据计算集群
-
配置后端网络并将节点加入基于 Kubernetes 的数据计算集群
-
更新数据计算节点发现的内部元数据
-
-
完成后,选择 Cluster 和 Overview 并确认:
-
在 Data compute 下,新数据计算节点作为集群的一部分在线显示
-
所有节点均为 Healthy
-
每个节点的 AIDE 版本都正确显示
-
验证仪表板 Health 卡显示更新的节点计数
-
-
(可选)所有节点加入集群后,验证所有服务是否正确启动。
-
验证 Kubernetes pod 状态:
kubectl get pods -n aide-system -
确认所有 pod 显示 Running 或 Completed 状态。
-