Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

在升级存储之前,请运行 Element 存储运行状况检查

贡献者

您必须在升级 Element 存储之前运行运行运行状况检查,以确保集群中的所有存储节点均已准备好进行下一次 Element 存储升级。

您需要的内容
  • 管理服务:您已更新到最新的管理服务包(2.10.27或更高版本)。

    重要说明 在升级 Element 软件之前,您必须升级到最新的管理服务包。
  • 管理节点:正在运行管理节点11.3或更高版本。

  • * Element Software*:您的集群版本运行的是NetApp Element 软件11.3或更高版本。

  • 最终用户许可协议(EULA):从管理服务2.20.69开始、您必须先接受并保存此EULA、然后才能使用NetApp混合云控制UI或API运行Element存储运行状况检查:

    1. 在Web浏览器中打开管理节点的IP地址:

      https://<ManagementNodeIP>
    2. 通过提供存储集群管理员凭据登录到 NetApp Hybrid Cloud Control 。

    3. 选择靠近接口右上角的 * 升级 * 。

    4. 此时将弹出EULA。向下滚动、选择*我接受当前更新和所有未来更新*、然后选择*保存*。

运行状况检查选项

您可以使用NetApp Hybrid Cloud Control UI或NetApp Hybrid Cloud Control API运行运行状况检查:

您还可以了解有关此服务运行的存储运行状况检查的更多信息:

在升级存储之前,请使用 NetApp Hybrid Cloud Control 运行 Element 存储运行状况检查

使用 NetApp Hybrid Cloud Control ( HCC ),您可以验证存储集群是否已做好升级准备。

步骤
  1. 在Web浏览器中打开管理节点的IP地址:

    https://<ManagementNodeIP>
  2. 通过提供存储集群管理员凭据登录到 NetApp Hybrid Cloud Control 。

  3. 选择靠近接口右上角的 * 升级 * 。

  4. 在 * 升级 * 页面上,选择 * 存储 * 选项卡。

  5. 选择运行状况检查 图标。 对于要检查升级准备情况的集群。

  6. 在 * 存储运行状况检查 * 页面上,选择 * 运行状况检查 * 。

  7. 如果出现问题,请执行以下操作:

    1. 转至为每个问题描述列出的特定知识库文章,或者执行指定的补救措施。

    2. 如果指定了 KB ,请完成相关知识库文章中所述的过程。

    3. 解决集群问题后,选择 * 重新运行运行状况检查 * 。

运行状况检查完成且无错误后,存储集群便可进行升级。请参见存储节点升级 "说明" 以继续。

在升级存储之前,请使用 API 运行 Element 存储运行状况检查

您可以使用 REST API 验证存储集群是否已做好升级准备。运行状况检查可验证升级不存在任何障碍,例如待定节点,磁盘空间问题和集群故障。

步骤
  1. 找到存储集群 ID :

    1. 在管理节点上打开管理节点 REST API UI :

      https://<ManagementNodeIP>/mnode
    2. 选择 * 授权 * 并完成以下操作:

      1. 输入集群用户名和密码。

      2. 如果尚未填充值,请将客户端 ID 输入为 mnode-client

      3. 选择 * 授权 * 以开始会话。

      4. 关闭授权窗口。

    3. 从 REST API UI 中,选择 GET /assets

    4. 选择 * 试用 * 。

    5. 选择 * 执行 * 。

    6. 从响应中,从要检查升级准备情况的集群的 ` storage"` 部分复制 ` id"` 。

      备注 请勿在本节中使用 ` "parent"` 值,因为这是管理节点的 ID ,而不是存储集群的 ID 。
    "config": {},
    "credentialid": "12bbb2b2-f1be-123b-1234-12c3d4bc123e",
    "host_name": "SF_DEMO",
    "id": "12cc3a45-e6e7-8d91-a2bb-0bdb3456b789",
    "ip": "10.123.12.12",
    "parent": "d123ec42-456e-8912-ad3e-4bd56f4a789a",
    "sshcredentialid": null,
    "ssl_certificate": null
  2. 对存储集群运行状况检查:

    1. 在管理节点上打开存储 REST API UI :

      https://<ManagementNodeIP>/storage/1/
    2. 选择 * 授权 * 并完成以下操作:

      1. 输入集群用户名和密码。

      2. 如果尚未填充值,请将客户端 ID 输入为 mnode-client

      3. 选择 * 授权 * 以开始会话。

      4. 关闭授权窗口。

    3. 选择 * POST /health-checks* 。

    4. 选择 * 试用 * 。

    5. 在参数字段中,输入在步骤 1 中获取的存储集群 ID 。

      {
        "config": {},
        "storageId": "123a45b6-1a2b-12a3-1234-1a2b34c567d8"
      }
    6. 选择 * 执行 * 可对指定存储集群运行状况检查。

      响应应指示状态为 initializing

    {
      "_links": {
        "collection": "https://10.117.149.231/storage/1/health-checks",
        "log": "https://10.117.149.231/storage/1/health-checks/358f073f-896e-4751-ab7b-ccbb5f61f9fc/log",
        "self": "https://10.117.149.231/storage/1/health-checks/358f073f-896e-4751-ab7b-ccbb5f61f9fc"
      },
      "config": {},
      "dateCompleted": null,
      "dateCreated": "2020-02-21T22:11:15.476937+00:00",
      "healthCheckId": "358f073f-896e-4751-ab7b-ccbb5f61f9fc",
      "state": "initializing",
      "status": null,
      "storageId": "c6d124b2-396a-4417-8a47-df10d647f4ab",
      "taskId": "73f4df64-bda5-42c1-9074-b4e7843dbb77"
    }
    1. 复制响应中的 healthCheckID

  3. 验证运行状况检查的结果:

    1. 选择 * 获取​ /health-t checks​ / { healthCheckId } * 。

    2. 选择 * 试用 * 。

    3. 在参数字段中输入运行状况检查 ID 。

    4. 选择 * 执行 * 。

    5. 滚动到响应正文的底部。

      如果所有运行状况检查均成功,则返回的结果类似于以下示例:

    "message": "All checks completed successfully.",
    "percent": 100,
    "timestamp": "2020-03-06T00:03:16.321621Z"
  4. 如果 m消息 返回指示存在与集群运行状况相关的问题,请执行以下操作:

    1. 选择 * 获取​ /health-t checks​ / { healthCheckId } /log*

    2. 选择 * 试用 * 。

    3. 在参数字段中输入运行状况检查 ID 。

    4. 选择 * 执行 * 。

    5. 查看任何特定错误并获取相关知识库文章链接。

    6. 转至为每个问题描述列出的特定知识库文章,或者执行指定的补救措施。

    7. 如果指定了 KB ,请完成相关知识库文章中所述的过程。

    8. 解决集群问题后,请再次运行 * 获取​ /health-m checks​ / { healthCheckId } /log* 。

服务执行的存储运行状况检查

存储运行状况检查会对每个集群进行以下检查。

检查名称 节点 / 集群 Description

check_async_results

集群

验证数据库中的异步结果数是否低于阈值数。

check_cluster_faults

集群

验证是否没有任何升级阻止集群故障(如 Element 源中所定义)。

check_upload_speed

Node

测量存储节点与管理节点之间的上传速度。

connection_speed_check

Node

验证节点是否已连接到提供升级软件包的管理节点,并估计连接速度。

check_cores

Node

检查节点上的内核崩溃转储和核心文件。对于最近一段时间(阈值为 7 天)内发生的任何崩溃,此检查将失败。

check_root_disk_space

Node

验证根文件系统是否有足够的可用空间来执行升级。

check_var_log_disk_space

Node

验证 ` /var/log` 可用空间是否满足某个可用百分比阈值。否则,检查将轮换并清除较早的日志,以便低于阈值。如果未能成功创建足够的可用空间,则检查将失败。

check_pending_nodes

集群

验证集群上是否没有待定节点。

了解更多信息