Skip to main content
AI Data Engine
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

在第三方服务器上安装 AI Data Engine software

贡献者 netapp-dbagwell

在运行 Red Hat Enterprise Linux (RHEL) 9.7 的第三方服务器上安装 AI Data Engine (AIDE) 软件。此部署选项允许您在基础架构上运行 AIDE,同时 ONTAP 继续编排 AIDE 软件堆栈。

第三方服务器上的 AI Data Engine software 提供与基于 NetApp 提供的数据计算节点设备的 AIDE 部署相同的 Metadata Engine 功能。此部署选项尚不支持 GPU 和 AI 推理工作负载。

在您完成 "安装您的第三方服务器" 之后且在您 "在 ONTAP 中创建计算集群" 之前完成此过程。

准备安装

在第三方服务器上安装 AI Data Engine (AIDE) 之前,请确保执行以下操作。

了解网络分离建议

AIDE 部署使用两个隔离的网络,用于不同的目的:

  • 数据网络:为主机管理访问、AIDE API 访问、下载、DNS、NTP 和其他路由通信提供外部连接。

  • 集群网络:提供 ONTAP 和计算节点之间的内部通信路径。此网络不可路由,必须与数据网络保持隔离。

保持这些网络路径之间的严格分离,以避免内部集群流量和外部数据流量之间的路由冲突和意外访问。

您需要一种连接到互联网或正确服务器的方式来获取操作系统更新、补丁和 AIDE 软件更新。如果数据网络配置为无法访问服务器或互联网进行这些操作,则可能需要第三个管理网络来执行这些管理服务器和 AIDE 操作。

满足环境先决条件
  • ONTAP 9.18.1 或更高版本正在您的 ONTAP AFX 集群上运行

  • 正好有三台满足最低硬件要求的服务器(CPU、内存、NIC、存储)正在运行

  • 每个服务器上都安装了 Red Hat Enterprise Linux (RHEL) 9.7

  • /var 分区中至少有 70GB 的可用空间可用于磁盘子系统分区

网络计划已确定
  • 外部(非集群)主机网络使用 NetworkManager 进行配置

  • 外部维护接口具有静态 IP 地址、默认网关路由和 "已配置静态主机名"

  • "为外部维护接口配置 DNS 和 NTP 时间同步"

  • 您已选择供 AIDE 使用的服务器接口

  • 您已确定了哪些选定接口面向集群和面向数据

  • 面向集群的接口连接到 AFX 集群交换机

  • 面向数据的接口连接到数据网络交换机

  • 在您的集群交换机上配置了对 VLAN-40 的网络访问以进行节点发现

  • 集群网络与数据网络隔离,不路由到数据网络

  • 不支持其他网络连接

  • 管理访问和 AIDE API 访问都使用外部网络连接

可提供访问权限和软件
  • 您有 NetApp 支持站点 (NSS) 访问权限

  • 您有可用于 aide-setup 命令的 DNS 名称服务器地址

备注 基本的仅 Metadata Engine 部署不需要 GPU 驱动程序。
备注 在第三方服务器部署中,您全权负责操作系统安全、修补、防火墙配置、SELinux 实施和 SSH 强化。NetApp 不为您的操作系统提供安全修补程序。

步骤 1:在每个节点上下载安装包

在每台第三方服务器上,直接或通过具有 NetApp 支持站点访问权限的跳板主机,从 NetApp 支持站点 (NSS) 下载 AIDE software 的 RPM 和容器镜像 tar 文件。

步骤
  1. 访问 NetApp 支持站点,网址为 "mysupport.netapp.com/cn"

  2. 导航到 Downloads

  3. 搜索"AI Data Engine"。

  4. 输入由您的 NetApp 代表提供给您的第三方服务器上的 Metadata Engine 版本名称。

  5. 使用 wget 或首选下载方法将这些文件下载到每台服务器:

    • netapp-aide.rpm

    • netapp-aide-images.tar

步骤 2:验证每个节点上的捆绑包完整性

下载后验证每个第三方服务器上的捆绑包校验和。

步骤
  1. 使用提供的校验和验证两个文件的捆绑包完整性:

    sha256sum netapp-aide.rpm
    sha256sum netapp-aide-images.tar
  2. 将输出与下载页面上提供的校验和文件进行比较。

重要说明 安装前验证每个节点上两个文件的 SHA-256 校验和。

步骤 3:在每个节点上安装 RPM 并运行 aide-setup

提取容器映像,安装 AIDE RPM 包,并在每个第三方服务器上运行 aide-setup。安装程序执行自动运行前验证、主机配置和 AIDE 软件部署。

步骤
  1. 以特权用户身份登录到第一个第三方服务器。

  2. 为容器映像创建所需的目录:

    mkdir -p /var/lib/rancher/rke2/agent/images/
  3. 将容器镜像 tar 文件解压缩到以下目录:

    tar -xf netapp-aide-images.tar -C /var/lib/rancher/rke2/agent/images/
    注意 确保除提取的文件外,没有其他文件放置在 /var/lib/rancher/rke2/agent/images/ 目录中。
  4. 安装 netapp-aide RPM:

    sudo dnf install netapp-aide.rpm
  5. 安装 dnsmasq 软件包:

    sudo dnf install dnsmasq
  6. 识别您的内部和外部网络接口:

    ip address show
    • 对于外部接口,仅使用配置了相应 IP 地址的端口

    • 内部接口端口必须_不_配置

  7. 标识要在 aide-setup 命令中使用的 DNS 名称服务器 IP 地址。

  8. 运行 aide-setup 以配置集群和外部接口:

    sudo /usr/sbin/aide-setup --internal_interface_primary_port <iface1> --internal_interface_secondary_port <iface2> --external_interface <external-iface> --dns_nameserver <dns-ip-1> --dns_nameserver <dns-ip-2> --overwrite_config
    • --internal_interface_primary_port--internal_interface_secondary_port 使用面向集群的接口。将这些接口连接到 AFX 集群交换机。

    • 使用主机维护接口进行 --external_interface。此接口必须配置 IP 地址。

    • 使用 --dns_nameserver 选项提供一个或多个 DNS 名称服务器 IP 地址。

      注意 在面向集群的接口上维护等效的安全控制,以保护从 ONTAP 使用的数据。将集群网络路径与外部维护网络路径隔离,以便数据不会以创建访问冲突的方式在这些通道之间传输。
  9. 查看预检输出。请确保在继续之前没有报告硬件配置合规性错误。

    成功完成后,您应该会看到以下消息: AIDE is successfully configured for this node.

  10. 验证节点是否可从 ONTAP 发现。从 ONTAP CLI 中,运行:

    dcn cluster node show -membership available
  11. 对剩余的两个第三方服务器中的每一个重复这些步骤。

备注 每个节点在 `aide-setup`完成后将其序列号、UUID 和链路本地地址通告给 ONTAP。
下一步是什么?

在第三方服务器上安装 AIDE software 后,登录到 ONTAP System Manager 并按照"使用 AFX 集群设置 AIDE"工作流程创建计算群集,分配 IP 地址并启用连接。