检查集群的状态
使用pcs查看集群的状态。
概述
正在运行 pcs status
从任何集群节点上、都是查看集群整体状态和每个资源(例如BeeGFS服务及其依赖关系)状态的最简单方法。本节将介绍的输出内容 pcs status
命令:
了解输出 pcs status
运行 pcs status
在启动了集群服务(Pacemaker和Corosync)的任何集群节点上。输出顶部将显示集群的摘要:
[root@beegfs_01 ~]# pcs status
Cluster name: hacluster
Cluster Summary:
* Stack: corosync
* Current DC: beegfs_01 (version 2.0.5-9.el8_4.3-ba59be7122) - partition with quorum
* Last updated: Fri Jul 1 13:37:18 2022
* Last change: Fri Jul 1 13:23:34 2022 by root via cibadmin on beegfs_01
* 6 nodes configured
* 235 resource instances configured
以下部分列出了集群中的节点:
Node List:
* Node beegfs_06: standby
* Online: [ beegfs_01 beegfs_02 beegfs_04 beegfs_05 ]
* OFFLINE: [ beegfs_03 ]
这主要表示处于备用或脱机状态的任何节点。处于备用状态的节点仍在参与集群、但被标记为不符合运行资源的条件。处于脱机状态的节点表示该节点上未运行集群服务、原因可能是已手动停止或节点已重新启动/关闭。
节点首次启动时、集群服务将停止、需要手动启动、以避免意外将资源故障恢复到运行状况不正常的节点。 |
如果节点由于非管理原因(例如故障)处于备用或脱机状态、则会在节点状态旁边用圆括号显示其他文本。例如、如果禁用了隔离、并且某个资源遇到了您将看到的故障 Node <HOSTNAME>: standby (on-fail)
。另一种可能的状态是 Node <HOSTNAME>: UNCLEAN (offline)
、该节点会被简要视为已隔离节点、但如果隔离失败、则此隔离将持续存在、指示集群无法确认节点的状态(这可能会阻止其他节点上启动资源)。
下一节显示了集群中所有资源及其状态的列表:
Full List of Resources:
* mgmt-monitor (ocf::eseries:beegfs-monitor): Started beegfs_01
* Resource Group: mgmt-group:
* mgmt-FS1 (ocf::eseries:beegfs-target): Started beegfs_01
* mgmt-IP1 (ocf::eseries:beegfs-ipaddr2): Started beegfs_01
* mgmt-IP2 (ocf::eseries:beegfs-ipaddr2): Started beegfs_01
* mgmt-service (systemd:beegfs-mgmtd): Started beegfs_01
[...]
与节点类似、如果资源存在任何问题、则会在资源状态旁边用圆括号显示其他文本。例如、如果Pacemaker请求停止资源、但此操作无法在分配的时间内完成、则Pacemaker将尝试隔离此节点。如果禁用了隔离或隔离操作失败、则资源状态将为 FAILED <HOSTNAME> (blocked)
Pacemaker将无法在其他节点上启动它。
值得注意的是、BeeGFS HA集群使用了许多经过BeeGFS优化的自定义OCF资源代理。特别是、BeeGFS监控器负责在特定节点上的BeeGFS资源不可用时触发故障转移。