La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Esaminare lo stato del cluster

08/23/2024 Collaboratori

PDF

Utilizzare i PC per visualizzare lo stato del cluster.

Panoramica

In esecuzione pcs status Da qualsiasi nodo del cluster è il modo più semplice per visualizzare lo stato complessivo del cluster e lo stato di ciascuna risorsa (ad esempio i servizi BeeGFS e le relative dipendenze). In questa sezione vengono illustrate le informazioni disponibili nell'output di pcs status comando.

Comprendere l'output di `pcs status`

Eseguire pcs status Su qualsiasi nodo del cluster in cui vengono avviati i servizi del cluster (pacemaker e Corosync). La parte superiore dell'output mostra un riepilogo del cluster:

[root@beegfs_01 ~]# pcs status
Cluster name: hacluster
Cluster Summary:
  * Stack: corosync
  * Current DC: beegfs_01 (version 2.0.5-9.el8_4.3-ba59be7122) - partition with quorum
  * Last updated: Fri Jul  1 13:37:18 2022
  * Last change:  Fri Jul  1 13:23:34 2022 by root via cibadmin on beegfs_01
  * 6 nodes configured
  * 235 resource instances configured

La sezione seguente elenca i nodi nel cluster:

Node List:
  * Node beegfs_06: standby
  * Online: [ beegfs_01 beegfs_02 beegfs_04 beegfs_05 ]
  * OFFLINE: [ beegfs_03 ]

Ciò indica in particolare i nodi in standby o offline. I nodi in standby partecipano ancora al cluster ma sono contrassegnati come non idonei per l'esecuzione delle risorse. I nodi offline indicano che i servizi cluster non sono in esecuzione su quel nodo, a causa di un arresto manuale o perché il nodo è stato riavviato/arrestato.

Quando i nodi si avviano per la prima volta, i servizi del cluster vengono arrestati e devono essere avviati manualmente per evitare il failover accidentale delle risorse su un nodo non integro.

Se i nodi sono in standby o non in linea a causa di un motivo non amministrativo (ad esempio un errore), accanto allo stato del nodo viene visualizzato un testo aggiuntivo tra parentesi. Ad esempio, se la funzione di scherma è disattivata e una risorsa rileva un errore, viene visualizzato Node <HOSTNAME>: standby (on-fail). Un altro stato possibile è Node <HOSTNAME>: UNCLEAN (offline), che sarà visto brevemente come un nodo è in fase di recintamento, ma continuerà se la scherma non è riuscita, indicando che il cluster non può confermare lo stato del nodo (questo può bloccare l'avvio delle risorse su altri nodi).

La sezione successiva mostra un elenco di tutte le risorse del cluster e dei relativi stati:

Full List of Resources:
  * mgmt-monitor	(ocf::eseries:beegfs-monitor):	 Started beegfs_01
  * Resource Group: mgmt-group:
    * mgmt-FS1	(ocf::eseries:beegfs-target):	 Started beegfs_01
    * mgmt-IP1	(ocf::eseries:beegfs-ipaddr2):	 Started beegfs_01
    * mgmt-IP2	(ocf::eseries:beegfs-ipaddr2):	 Started beegfs_01
    * mgmt-service	(systemd:beegfs-mgmtd):	 Started beegfs_01
[...]

In modo simile ai nodi, viene visualizzato un testo aggiuntivo accanto allo stato della risorsa tra parentesi in caso di problemi con la risorsa. Ad esempio, se il pacemaker richiede un arresto della risorsa e non riesce a completarlo entro il tempo assegnato, il pacemaker tenterà di individuare il nodo. Se la funzione di scherma è disattivata o l'operazione di scherma non riesce, lo stato della risorsa sarà FAILED <HOSTNAME> (blocked) E Pacemaker non sarà in grado di avviarlo su un nodo diverso.

Vale la pena notare che i cluster BeeGFS ha utilizzano diversi agenti di risorse OCF personalizzati ottimizzati per BeeGFS. In particolare, il monitor BeeGFS è responsabile dell'attivazione di un failover quando le risorse BeeGFS su un nodo specifico non sono disponibili.

Esaminare lo stato del cluster

Creating your file...

Panoramica

Comprendere l'output di pcs status

Comprendere l'output di `pcs status`