简体中文版经机器翻译而成，仅供参考。如与英语版出现任何冲突，应以英语版为准。

检查集群的状态

08/23/2024 贡献者

PDF

使用pcs查看集群的状态。

概述

正在运行 pcs status 从任何集群节点上、都是查看集群整体状态和每个资源(例如BeeGFS服务及其依赖关系)状态的最简单方法。本节将介绍的输出内容 pcs status 命令：

了解输出 `pcs status`

运行 pcs status 在启动了集群服务(Pacemaker和Corosync)的任何集群节点上。输出顶部将显示集群的摘要：

[root@beegfs_01 ~]# pcs status
Cluster name: hacluster
Cluster Summary:
  * Stack: corosync
  * Current DC: beegfs_01 (version 2.0.5-9.el8_4.3-ba59be7122) - partition with quorum
  * Last updated: Fri Jul  1 13:37:18 2022
  * Last change:  Fri Jul  1 13:23:34 2022 by root via cibadmin on beegfs_01
  * 6 nodes configured
  * 235 resource instances configured

以下部分列出了集群中的节点：

Node List:
  * Node beegfs_06: standby
  * Online: [ beegfs_01 beegfs_02 beegfs_04 beegfs_05 ]
  * OFFLINE: [ beegfs_03 ]

这主要表示处于备用或脱机状态的任何节点。处于备用状态的节点仍在参与集群、但被标记为不符合运行资源的条件。处于脱机状态的节点表示该节点上未运行集群服务、原因可能是已手动停止或节点已重新启动/关闭。

节点首次启动时、集群服务将停止、需要手动启动、以避免意外将资源故障恢复到运行状况不正常的节点。

如果节点由于非管理原因(例如故障)处于备用或脱机状态、则会在节点状态旁边用圆括号显示其他文本。例如、如果禁用了隔离、并且某个资源遇到了您将看到的故障 Node <HOSTNAME>: standby (on-fail)。另一种可能的状态是 Node <HOSTNAME>: UNCLEAN (offline)、该节点会被简要视为已隔离节点、但如果隔离失败、则此隔离将持续存在、指示集群无法确认节点的状态(这可能会阻止其他节点上启动资源)。

下一节显示了集群中所有资源及其状态的列表：

Full List of Resources:
  * mgmt-monitor	(ocf::eseries:beegfs-monitor):	 Started beegfs_01
  * Resource Group: mgmt-group:
    * mgmt-FS1	(ocf::eseries:beegfs-target):	 Started beegfs_01
    * mgmt-IP1	(ocf::eseries:beegfs-ipaddr2):	 Started beegfs_01
    * mgmt-IP2	(ocf::eseries:beegfs-ipaddr2):	 Started beegfs_01
    * mgmt-service	(systemd:beegfs-mgmtd):	 Started beegfs_01
[...]

与节点类似、如果资源存在任何问题、则会在资源状态旁边用圆括号显示其他文本。例如、如果Pacemaker请求停止资源、但此操作无法在分配的时间内完成、则Pacemaker将尝试隔离此节点。如果禁用了隔离或隔离操作失败、则资源状态将为 FAILED <HOSTNAME> (blocked) Pacemaker将无法在其他节点上启动它。

值得注意的是、BeeGFS HA集群使用了许多经过BeeGFS优化的自定义OCF资源代理。特别是、BeeGFS监控器负责在特定节点上的BeeGFS资源不可用时触发故障转移。

检查集群的状态

Creating your file...

概述

了解输出 pcs status

了解输出 `pcs status`