Skip to main content
NetApp Data Classification
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

在具有互联网访问权限的主机上安装 NetApp Data Classification

贡献者 netapp-ahibbard

要在网络中的 Linux 主机或具有互联网访问权限的云中的 Linux 主机上部署 NetApp Data Classification,需要在网络或云中手动部署 Linux 主机。

如果您希望使用同样位于本地的数据分类实例来扫描本地ONTAP系统,则本地安装是一个不错的选择。这不是必需的。无论选择哪种安装方法,软件的功能都是相同的。

数据分类安装脚本首先检查系统和环境是否满足所需的先决条件。如果所有先决条件都满足,则安装开始。如果您想独立于运行数据分类安装来验证先决条件,您可以下载一个单独的软件包,该软件包仅测试先决条件。"了解如何检查您的 Linux 主机是否已准备好安装数据分类"

您所在场所的 Linux 主机上的典型安装具有以下组件和连接。

所需控制台和网络组件以及相关连接的图表。

云端 Linux 主机上的典型安装具有以下组件和连接。

所需控制台和网络组件以及相关连接的图表。

快速启动

按照以下步骤快速开始,或者向下滚动到其余部分以获取完整详细信息。

一个创建控制台代理

如果您还没有控制台代理, "在本地部署控制台代理"在您的网络中的 Linux 主机上,或在云中的 Linux 主机上。

您还可以与您的云提供商一起创建控制台代理。看 "在 AWS 中创建控制台代理""在 Azure 中创建控制台代理" , 或者 "在 GCP 中创建控制台代理"

两个审查先决条件

确保您的环境能够满足先决条件。这包括实例的出站互联网访问、控制台代理和数据分类之间通过端口 443 的连接等等。查看完整列表

您还需要一个满足以下条件的 Linux 系统遵循要求

三下载并部署数据分类

从NetApp支持站点下载云数据分类软件,并将安装程序文件复制到您计划使用的 Linux 主机。然后启动安装向导并按照提示部署数据分类实例。

创建控制台代理

在安装和使用 Data Classification 之前,需要 Console 代理。在大多数情况下,在尝试激活 Data Classification 之前,您可能已经设置了 Console 代理。

要在您的云提供商环境中创建一个,请参阅 "在 AWS 中创建控制台代理""在 Azure 中创建控制台代理" , 或者 "在 GCP 中创建控制台代理"

在某些情况下,您必须使用部署在特定云提供商中的控制台代理:

  • 在 AWS 或Amazon FSx for ONTAP中的Cloud Volumes ONTAP中扫描数据时,您可以使用 AWS 中的控制台代理。

  • 在 Azure 中的Cloud Volumes ONTAP或Azure NetApp Files中扫描数据时,您可以使用 Azure 中的控制台代理。

    对于Azure NetApp Files,它必须部署在与您要扫描的卷相同的区域中。

  • 在 GCP 中的Cloud Volumes ONTAP中扫描数据时,您可以使用 GCP 中的控制台代理。

可以使用任何这些云控制台代理来扫描本地ONTAP系统、 NetApp文件共享和数据库帐户。

请注意,您还可以 "在本地部署控制台代理"在您的网络中的 Linux 主机上或云中的 Linux 主机上。一些计划在本地安装数据分类的用户可能还会选择在本地安装控制台代理。

安装数据分类时,您将需要控制台代理系统的 IP 地址或主机名。如果您在您的场所安装了控制台代理,您将获得此信息。如果控制台代理部署在云中,您可以从控制台中找到此信息:选择帮助图标,然后选择*支持*,然后选择控制台代理

准备 Linux 主机系统

数据分类软件必须在满足特定操作系统要求、RAM 要求、软件要求等的主机上运行。 Linux 主机可以在您的网络中,也可以在云中。

确保您可以保持数据分类运行。数据分类机器需要保持开启状态以持续扫描您的数据。

  • 数据分类必须运行在专用主机上。主机不能与其他应用程序或第三方软件(例如防病毒软件)共享。

  • 选择与您计划使用数据分类扫描的数据集相符的大小。

    系统大小 CPU RAM(必须禁用交换内存) 磁盘

    超大

    32 个 CPU

    128 GB 内存

    • / 上 1 TiB SSD,或 /opt 上 100 GiB 可用

    • /var/lib/docker 上可用 895 GiB

    • /tmp 上 5 GiB

    • 对于 Podman,/var/tmp 上有 30 GB

    大的

    16 个 CPU

    64 GB 内存

    • / 上 500 GiB SSD,或 /opt 上 100 GiB 可用

    • /var/lib/docker 或 Podman /var/lib/containers 上可用 400 GiB

    • /tmp 上 5 GiB

    • 对于 Podman,/var/tmp 上有 30 GB

  • 在云中为数据分类安装部署计算实例时,建议您使用满足上述“大型”系统要求的系统:

  • UNIX 文件夹权限:需要以下最低 UNIX 权限:

    文件夹 最低权限

    /tmp

    rwxrwxrwt

    /选择

    rwxr-xr-x

    /var/lib/docker

    rwx------

    /usr/lib/systemd/系统

    rwxr-xr-x

  • 操作系统

    • 以下操作系统需要使用 Docker 容器引擎:

      • Red Hat Enterprise Linux 版本 7.8 和 7.9

      • Ubuntu 22.04(需要数据分类版本 1.23 或更高版本)

      • Ubuntu 24.04(需要数据分类版本 1.23 或更高版本)

    • 以下操作系统需要使用 Podman 容器引擎,并且需要数据分类版本 1.30 或更高版本:

      • Red Hat Enterprise Linux 版本 8.8、8.10、9.0、9.1、9.2、9.3、9.4、9.5、9.6 和 9.7。

    • 必须在主机系统上启用高级矢量扩展 (AVX2)。

  • Red Hat 订阅管理:主机必须在 Red Hat 订阅管理中注册。如果未注册,系统将无法访问存储库来在安装期间更新所需的第三方软件。

  • 附加软件:安装数据分类之前,必须在主机上安装以下软件:

    • 根据您使用的操作系统,您需要安装其中一个容器引擎:

      • Docker Engine 版本 19.3.1 或更高版本。 "查看安装说明"

      • Podman 版本 4 或更高版本。要安装 Podman,请输入(sudo yum install podman netavark -y)。

  • Python 版本 3.6 或更高版本。 "查看安装说明"

    • NTP 注意事项: NetApp建议配置数据分类系统以使用网络时间协议 (NTP) 服务。数据分类系统和控制台代理系统之间的时间必须同步。

  • Firewalld 注意事项:如果您计划使用 firewalld,我们建议您在安装数据分类之前启用它。运行以下命令进行配置 `firewalld`以便与数据分类兼容:

    firewall-cmd --permanent --add-service=http
    firewall-cmd --permanent --add-service=https
    firewall-cmd --permanent --add-port=80/tcp
    firewall-cmd --permanent --add-port=8080/tcp
    firewall-cmd --permanent --add-port=443/tcp
    firewall-cmd --reload

    如果您计划使用其他数据分类主机作为扫描器节点,请在此时将这些规则添加到您的主系统:

    firewall-cmd --permanent --add-port=2377/tcp
    firewall-cmd --permanent --add-port=7946/udp
    firewall-cmd --permanent --add-port=7946/tcp
    firewall-cmd --permanent --add-port=4789/udp

    请注意,每次启用或更新时都必须重新启动 Docker 或 Podman `firewalld`设置。

备注 安装后,数据分类主机系统的 IP 地址无法更改。

启用数据分类的出站互联网访问

数据分类需要出站互联网访问。如果您的虚拟或物理网络使用代理服务器进行互联网访问,请确保数据分类实例具有出站互联网访问权限以联系以下端点。

端点 目的

\ https://api.console.netapp.com

与控制台的通信,其中包括NetApp帐户。

\ https://netapp-cloud-account.auth0.com \ https://auth0.com

与控制台网站通信,实现集中用户身份验证。

\ https://support.compliance.api.bluexp.netapp.com/ \ https://hub.docker.com \ https://auth.docker.io \ https://registry-1.docker.io \ https://index.docker.io/ \ https://dseasb33srnrn.cloudfront.net/ \ https://production.cloudflare.docker.com/

提供对软件映像、清单、模板的访问以及发送日志和指标。

https://support.compliance.api.bluexp.netapp.com/

使NetApp能够从审计记录中流式传输数据。

https://github.com/docker https://download.docker.com

提供docker安装的必备包。

\ http://packages.ubuntu.com/ \ http://archive.ubuntu.com

提供 Ubuntu 安装的必备软件包。

验证所有必需的端口均已启用

您必须确保所有必需的端口都已打开,以便控制台代理、数据分类、Active Directory 和数据源之间进行通信。

连接类型 端口 描述

控制台代理<>数据分类

8080 (TCP)、443 (TCP) 和 80。9000

控制台代理的防火墙或路由规则必须允许通过端口 443 进出数据分类实例的入站和出站流量。确保端口 8080 已打开,以便您可以在控制台中看到安装进度。如果 Linux 主机上使用防火墙,则 Ubuntu 服务器内的内部进程需要端口 9000。

控制台代理<> ONTAP集群 (NAS)

443(TCP)

控制台使用 HTTPS 发现ONTAP集群。如果您使用自定义防火墙策略,则它们必须满足以下要求:

  • 控制台代理主机必须允许通过端口 443 进行出站 HTTPS 访问。如果控制台代理位于云中,则预定义的防火墙或路由规则允许所有出站通信。

  • ONTAP集群必须允许通过端口 443 进行入站 HTTPS 访问。默认的“mgmt”防火墙策略允许来自所有 IP 地址的入站 HTTPS 访问。如果您修改了此默认策略,或者创建了自己的防火墙策略,则必须将 HTTPS 协议与该策略关联并启用从控制台代理主机的访问。

数据分类 <> ONTAP集群

  • 对于 NFS - 111 (TCP\UDP) 和 2049 (TCP\UDP)

  • 对于 CIFS - 139 (TCP\UDP) 和 445 (TCP\UDP)

数据分类需要与每个Cloud Volumes ONTAP子网或本地ONTAP系统建立网络连接。 Cloud Volumes ONTAP的防火墙或路由规则必须允许来自数据分类实例的入站连接。

确保这些端口对数据分类实例开放:

  • 对于 NFS - 111 和 2049

  • 对于 CIFS - 139 和 445

NFS 卷导出策略必须允许从数据分类实例进行访问。

数据分类<> Active Directory

389(TCP 和 UDP)、636(TCP)、3268(TCP)和 3269(TCP)

您必须已经为公司用户设置了 Active Directory。此外,数据分类需要 Active Directory 凭据来扫描 CIFS 卷。

您必须具有 Active Directory 的信息:

  • DNS 服务器 IP 地址,或多个 IP 地址

  • 服务器的用户名和密码

  • 域名(Active Directory 名称)

  • 您是否使用安全 LDAP (LDAPS)

  • LDAP 服务器端口(LDAP 通常为 389,安全 LDAP 通常为 636)

在 Linux 主机上安装数据分类

对于典型配置,您将在单个主机系统上安装该软件。请参阅此处的步骤

该图表显示了使用本地部署且可访问互联网的单个数据分类实例时可以扫描的数据源的位置。

准备 Linux 主机系统审查先决条件了解部署数据分类之前的完整要求列表。

只要实例具有互联网连接,数据分类软件的升级就会自动进行。

备注 当软件安装在本地时,数据分类当前无法扫描 S3 存储桶、 Azure NetApp Files或 FSx for ONTAP 。在这些情况下,您需要在云中部署单独的控制台代理和数据分类实例,并且 "在连接器之间切换"适用于不同的数据源。

典型配置的单主机安装

在单个本地主机上安装数据分类软件时,请查看要求并遵循以下步骤。

"观看此视频"了解如何安装数据分类。

请注意,安装数据分类时会记录所有安装活动。如果您在安装过程中遇到任何问题,您可以查看安装审计日志的内容。它被写给 /opt/netapp/install_logs/

开始之前
  • 验证您的 Linux 系统是否满足主机要求

  • 验证系统是否安装了两个必备软件包(Docker Engine 或 Podman 和 Python 3)。

  • 确保您在 Linux 系统上拥有 root 权限。

  • 如果您使用代理访问互联网:

    • 您将需要代理服务器信息(IP 地址或主机名、连接端口、连接方案:https 或 http、用户名和密码)。

    • 如果代理正在执行 TLS 拦截,您需要知道数据分类 Linux 系统上存储 TLS CA 证书的路径。

    • 代理必须是非透明的。数据分类目前不支持透明代理。

    • 该用户必须是本地用户。不支持域用户。

  • 验证您的离线环境是否满足要求权限和连接性

步骤
  1. 从下载数据分类软件 "NetApp 支持站点"。您应该选择的文件名为 DATASENSE-INSTALLER-<version>.tar.gz

  2. 将安装程序文件复制到您计划使用的 Linux 主机(使用 `scp`或其他方法)。

  3. 在主机上解压安装程序文件,例如:

    tar -xzf DATASENSE-INSTALLER-V1.25.0.tar.gz
  4. 在控制台中,选择*治理>分类*。

  5. 选择*在本地或云中部署分类*。

    选择按钮以激活数据分类的屏幕截图。

  6. 根据您是在云中准备的实例上还是在本地准备的实例上安装数据分类,选择适当的*部署*选项来启动数据分类安装。

  7. 将显示“在本地部署数据分类”对话框。复制提供的命令(例如: sudo ./install.sh -a 12345 -c 27AG75 -t 2198qq ) 并将其粘贴到文本文件中,以便稍后使用。然后选择*关闭*以关闭对话框。

  8. 在主机上,输入您复制的命令,然后按照一系列提示进行操作,或者您可以提供包含所有必需参数的完整命令作为命令行参数。

    请注意,安装程序会执行预检查以确保您的系统和网络要求满足,以便成功安装。 "观看此视频"了解预检信息和含义。

    根据提示输入参数: 输入完整命令:
    1. 粘贴从步骤 7 复制的命令:
      sudo ./install.sh -a <account_id> -c <client_id> -t <user_token>

      如果您在云实例上安装(而不是在您的本地),请添加 --manual-cloud-install <cloud_provider>

    2. 输入数据分类主机的 IP 地址或主机名,以便控制台代理系统可以访问它。

    3. 输入控制台代理主机的 IP 地址或主机名,以便数据分类系统可以访问它。

    4. 根据提示输入代理详细信息。如果您的控制台代理已经使用代理,则无需在此处再次输入此信息,因为数据分类将自动使用控制台代理所使用的代理。

    或者,您可以提前创建整个命令,提供必要的主机和代理参数:
    sudo ./install.sh -a <account_id> -c <client_id> -t <user_token> --host <ds_host> --manager-host <cm_host> --manual-cloud-install <cloud_provider> --proxy-host <proxy_host> --proxy-port <proxy_port> --proxy-scheme <proxy_scheme> --proxy-user <proxy_user> --proxy-password <proxy_password> --cacert-folder-path <ca_cert_dir>

    变量值:

    • account_id = NetApp帐户 ID

    • client_id = 控制台代理客户端 ID(如果客户端 ID 中没有后缀“clients”,则添加后缀)

    • user_token = JWT 用户访问令牌

    • ds_host = 数据分类 Linux 系统的 IP 地址或主机名。

    • cm_host = 控制台代理系统的 IP 地址或主机名。

    • cloud_provider = 在云实例上安装时,根据云提供商输入“AWS”、“Azure”或“Gcp”。

    • proxy_host = 如果主机位于代理服务器后面,则为代理服务器的 IP 或主机名。

    • proxy_port = 连接到代理服务器的端口(默认为 80)。

    • proxy_scheme = 连接方案:https 或 http(默认 http)。

    • proxy_user = 如果需要基本身份验证,则经过身份验证的用户连接到代理服务器。用户必须是本地用户 - 不支持域用户。

    • proxy_password = 您指定的用户名的密码。

    • ca_cert_dir = 数据分类 Linux 系统上包含附加 TLS CA 证书包的路径。仅当代理执行 TLS 拦截时才需要。

结果

数据分类安装程序安装包、注册安装并安装数据分类。安装可能需要 10 到 20 分钟。

如果主机和控制台代理实例之间通过端口 8080 建立连接,您将在控制台的“数据分类”选项卡中看到安装进度。

下一步

您可以从配置页面选择要扫描的数据源。