Monitores del sistema
- Descripciones de los monitores
- Monitores métricos
- Monitores de registro
- Monitores de registro de anti-Ransomware
- FSX para monitores ONTAP de NetApp
- Monitores K8S
- Cambiar monitores de registro
- Monitores de recopilación de datos
- Monitores de seguridad
- Monitores de protección de datos
- Monitores de volumen de cloud (CVO)
- SnapMirror para monitores de registro de Mediador de continuidad de negocio (SMBC)
- Monitores de sistema adicionales de alimentación, latido y varios
- Más información
Data Infrastructure Insights incluye una serie de monitores definidos por el sistema tanto para métricas como para registros. Los monitores del sistema disponibles dependen de los recopiladores de datos presentes en el entorno. Por este motivo, los monitores disponibles en Data Infrastructure Insights pueden cambiar a medida que se añaden los recopiladores de datos o se modifican sus configuraciones.
Muchos monitores del sistema están en estado Paused por defecto. Puede activar un monitor del sistema seleccionando la opción Reanudar para el monitor. Asegúrese de que Advanced Counter Data Collection y Enable ONTAP EMS log collection estén habilitados en el recopilador de datos. Estas opciones se pueden encontrar en el recopilador de datos de ONTAP en Configuración avanzada: |
Descripciones de los monitores
Los monitores definidos por el sistema están compuestos por métricas y condiciones predefinidas, así como descripciones predeterminadas y acciones correctivas que no se pueden modificar. Puede modificar la lista de destinatarios de notificaciones para los monitores definidos por el sistema. Para ver las métricas, condiciones, descripción y acciones correctivas, o para modificar la lista de destinatarios, abra un grupo de monitores definido por el sistema y haga clic en el nombre del monitor en la lista.
Los grupos de monitores definidos por el sistema no se pueden modificar ni eliminar.
Los siguientes monitores definidos por el sistema están disponibles, en los grupos anotados.
-
Infraestructura de ONTAP incluye monitores para problemas relacionados con la infraestructura en clústeres ONTAP.
-
Ejemplos de carga de trabajo de ONTAP incluye monitores para problemas relacionados con la carga de trabajo.
-
Los monitores de ambos grupos tienen el estado pausado predeterminado.
A continuación se muestran los monitores del sistema actualmente incluidos con Data Infrastructure Insights:
Monitores métricos
Nombre del monitor |
Gravedad |
Descripción del monitor |
Acción correctiva |
Alta utilización del puerto Fibre Channel |
CRÍTICO |
Los puertos de protocolo Fibre Channel se usan para recibir y transferir el tráfico SAN entre el sistema host del cliente y los LUN de ONTAP. Si el uso del puerto es alto, Entonces se convertirá en un cuello de botella y finalmente afectará al rendimiento de las cargas de trabajo sensibles del Protocolo de Fibre Channel.… Una alerta de advertencia indica que se deben tomar medidas planificadas para equilibrar el tráfico de la red.… Una alerta crítica indica que la interrupción del servicio es inminente y que se deben tomar medidas de emergencia para equilibrar la red tráfico para garantizar la continuidad del servicio. |
Si se supera el umbral crítico, considere medidas inmediatas para minimizar la interrupción del servicio: 1. Mueva cargas de trabajo a otro puerto FCP menos utilizado. 2. Limite el tráfico de determinadas LUN solo al trabajo esencial, ya sea a través de políticas QoS en ONTAP o en la configuración del lado del host para aliviar la utilización de los puertos FCP. Si se incumple el umbral de advertencia, planifique tomar las siguientes acciones: 1. Configure más puertos FCP para manejar el tráfico de datos de modo que la utilización del puerto se distribuya entre más puertos. 2. Mueva cargas de trabajo a otro puerto FCP menos utilizado. 3. Limite el tráfico de determinadas LUN solo al trabajo esencial, ya sea a través de directivas de calidad de servicio en ONTAP o de configuración del lado del host para paliar el uso de los puertos FCP. |
Alta latencia de LUN |
CRÍTICO |
Las LUN son objetos que sirven al tráfico de I/o a menudo controlados por aplicaciones que se ven sensibles al rendimiento, como las bases de datos. Una alta latencia de LUN significa que las propias aplicaciones podrían sufrir y ser incapaces de cumplir con sus tareas… Una alerta de advertencia indica que se deben tomar medidas planificadas para mover la LUN al nodo o agregado apropiado.… Una alerta crítica indica que la interrupción del servicio es inminente y que se deben tomar medidas de emergencia garantice la continuidad del servicio. A continuación se muestran latencias previstas en función del tipo de medio: Unidades SSD de hasta 1-2 milisegundos; SAS de hasta 8-10 milisegundos; y unidades de disco duro SATA de 17-20 milisegundos |
Si se incumple el umbral crítico, considere las siguientes acciones para minimizar la interrupción del servicio: Si el LUN o su volumen tienen una política de calidad de servicio asociada, evalúe sus límites de umbral y valide si están provocando que la carga de trabajo del LUN se ralentice. Si se incumple el umbral de advertencia, planifique tomar las siguientes acciones: 1. Si también el agregado está experimentando un uso elevado, mueva la LUN a otro agregado. 2. Si el nodo también está experimentando una alta utilización, mueva el volumen a otro nodo o reduzca la carga de trabajo total del nodo. 3. Si el LUN o su volumen tienen una política de calidad de servicio asociada, evalúe sus límites de umbrales y valide si están provocando que la carga de trabajo de la LUN se vea afectada. |
Alta utilización del puerto de red |
CRÍTICO |
Se utilizan los puertos de red para recibir y transferir el tráfico de los protocolos NFS, CIFS e iSCSI entre los sistemas host del cliente y los volúmenes de ONTAP. Si el uso del puerto es alto, se convierte en un cuello de botella y, en última instancia, afectará al rendimiento de NFS, Cargas de trabajo CIFS e iSCSI… Una alerta de advertencia indica que se deben tomar medidas planificadas para equilibrar el tráfico de la red.… Una alerta crítica indica que la interrupción del servicio es inminente y se deben tomar medidas de emergencia para equilibrar el tráfico de la red para garantizar la continuidad del servicio. |
Si se supera el umbral crítico, considere la posibilidad de llevar a cabo acciones inmediatas para minimizar la interrupción del servicio: 1. Limite el tráfico de ciertos volúmenes solo al trabajo esencial, ya sea mediante políticas de calidad de servicio en ONTAP o mediante el análisis del lado del host para reducir la utilización de los puertos de red. 2. Configure uno o más volúmenes para usar otro puerto de red más bajo utilizado.… Si se supera el umbral de advertencia, tenga en cuenta las siguientes acciones inmediatas: 1. Configure más puertos de red para manejar el tráfico de datos de modo que la utilización del puerto se distribuya entre más puertos. 2. Configure uno o más volúmenes para que utilicen otro puerto de red menos utilizado. |
Alta latencia de espacio de nombres de NVMe |
CRÍTICO |
Los espacios de nombres de NVMe son objetos que sirven al tráfico de I/o que están impulsados por aplicaciones que se preocupan por el rendimiento, como las bases de datos. Una latencia elevada de espacios de nombres NVMe significa que las propias aplicaciones pueden sufrir y no poder realizar sus tareas.…Una alerta de advertencia indica que se deben tomar medidas planificadas para mover la LUN al nodo o agregado adecuado.…Una alerta crucial indica que la interrupción del servicio es inminente y que se deben tomar medidas de emergencia para garantizar la continuidad del servicio. |
Si se supera el umbral crítico, considere las acciones inmediatas para minimizar la interrupción del servicio: Si el espacio de nombres NVMe o su volumen tienen una política de calidad de servicio asignada, evalúe sus umbrales límite en caso de que estén provocando que la carga de trabajo del espacio de nombres NVMe se acelere. Si se incumple el umbral de advertencia, considere tomar las siguientes medidas: 1. Si también el agregado está experimentando un uso elevado, mueva la LUN a otro agregado. 2. Si el nodo también está experimentando una alta utilización, mueva el volumen a otro nodo o reduzca la carga de trabajo total del nodo. 3. Si el espacio de nombres NVMe o su volumen tienen asignada una política de calidad de servicio, evalúe sus umbrales límite en caso de que estén provocando que la carga de trabajo del espacio de nombres NVMe se acelere. |
Capacidad Qtree completa |
CRÍTICO |
Un qtree es un sistema de archivos definido de forma lógica que puede existir como un subdirectorio especial del directorio raíz dentro de un volumen. Cada qtree tiene una cuota de espacio predeterminada o una cuota definida por una política de cuota para limitar la cantidad de datos almacenados en el árbol dentro de la capacidad de volumen.…una alerta de advertencia indica que se debe tomar una acción planificada para aumentar el espacio.…Una alerta crítica indica que la interrupción del servicio es inminente y. deben tomarse medidas de emergencia para liberar espacio y garantizar la continuidad del servicio. |
Si se supera el umbral crítico, considere medidas inmediatas para minimizar la interrupción del servicio: 1. Aumentar el espacio del qtree para adaptarse al crecimiento. 2. Eliminar datos no deseados para liberar espacio.… Si se supera el umbral de advertencia, planifique tomar las siguientes acciones inmediatas: 1. Aumentar el espacio del qtree para adaptarse al crecimiento. 2. Elimine los datos no deseados para liberar espacio. |
Límite duro de capacidad Qtree |
CRÍTICO |
Un qtree es un sistema de archivos definido de forma lógica que puede existir como un subdirectorio especial del directorio raíz dentro de un volumen. Cada qtree tiene una cuota de espacio medida en KBytes que se utiliza para almacenar datos con el fin de controlar el crecimiento de los datos del usuario en volumen y no exceder su capacidad total.…Un qtree mantiene una cuota de capacidad de almacenamiento suave que proporciona una alerta al usuario de forma proactiva antes de alcanzar el total el límite de cuota de capacidad en el qtree y ya no es posible almacenar datos. La supervisión de la cantidad de datos almacenados dentro de un qtree garantiza que el usuario reciba un servicio de datos ininterrumpido. |
Si se supera el umbral crítico, considere la posibilidad de llevar a cabo acciones inmediatas para minimizar la interrupción del servicio: 1. Aumentar la cuota de espacio de árbol para acomodar el crecimiento 2. Indique al usuario que elimine los datos no deseados en el árbol para liberar espacio |
Límite blando de capacidad Qtree |
ADVERTENCIA |
Un qtree es un sistema de archivos definido de forma lógica que puede existir como un subdirectorio especial del directorio raíz dentro de un volumen. Cada qtree tiene una cuota de espacio medida en KBytes que puede utilizar para almacenar datos con el fin de controlar el crecimiento de los datos de usuario en volumen y no exceder su capacidad total.…Un qtree mantiene una cuota de capacidad de almacenamiento suave que proporciona una alerta al usuario de forma proactiva antes de llegar al el límite de cuota de capacidad total en el qtree y ya no es posible almacenar datos. La supervisión de la cantidad de datos almacenados dentro de un qtree garantiza que el usuario reciba un servicio de datos ininterrumpido. |
Si se supera el umbral de advertencia, tenga en cuenta las siguientes acciones inmediatas: 1. Aumente la cuota de espacio de árbol para adaptarse al crecimiento. 2. Indique al usuario que elimine los datos no deseados del árbol para liberar espacio. |
Límite duro de archivos Qtree |
CRÍTICO |
Un qtree es un sistema de archivos definido de forma lógica que puede existir como un subdirectorio especial del directorio raíz dentro de un volumen. Cada qtree tiene una cuota del número de archivos que puede contener para mantener un tamaño de sistema de archivos manejable dentro del volumen.…Un qtree mantiene una cuota de número de archivo duro más allá de la cual se deniegan los nuevos archivos en el árbol. La supervisión del número de archivos dentro de un qtree garantiza que el usuario reciba un servicio de datos ininterrumpido. |
Si se supera el umbral crítico, considere medidas inmediatas para minimizar la interrupción del servicio: 1. Aumente la cuota de número de archivos para el qtree. 2. Elimine los archivos no deseados del sistema de archivos Qtree. |
Límite blando de archivos Qtree |
ADVERTENCIA |
Un qtree es un sistema de archivos definido de forma lógica que puede existir como un subdirectorio especial del directorio raíz dentro de un volumen. Cada qtree tiene una cuota del número de archivos que puede contener para mantener un tamaño de sistema de archivos gestionable dentro del volumen.…Un qtree mantiene una cuota de número de archivo flexible para proporcionar una alerta al usuario de forma proactiva antes de alcanzar el límite de archivos en el qtree and no se pueden almacenar archivos adicionales. La supervisión del número de archivos dentro de un qtree garantiza que el usuario reciba un servicio de datos ininterrumpido. |
Si se supera el umbral de advertencia, planifique tomar las siguientes acciones inmediatas: 1. Aumente la cuota de número de archivos para el qtree. 2. Elimine los archivos no deseados del sistema de archivos Qtree. |
Espacio de la reserva de Snapshot completo |
CRÍTICO |
La capacidad de almacenamiento de un volumen es necesaria para almacenar los datos de aplicaciones y clientes. Una parte de ese espacio, denominada espacio reservado de la instantánea, se utiliza para almacenar las instantáneas que permiten proteger los datos de forma local. Cuantos más datos nuevos y actualizados haya almacenados en el volumen ONTAP, más capacidad se utilizará para las copias Snapshot y menos capacidad de almacenamiento para los datos nuevos o actualizados del futuro. Si la capacidad de datos de la copia Snapshot dentro de un volumen alcanza el espacio total de reserva de la copia Snapshot, es posible que el cliente no pueda almacenar nuevos datos de esta copia y reducir el nivel de protección de los datos del volumen. La supervisión del volumen Snapshot utilizado garantiza la continuidad de los servicios de datos. |
Si se supera el umbral crítico, considere medidas inmediatas para minimizar la interrupción del servicio: 1. Configure las snapshots para utilizar espacio de datos en el volumen cuando la reserva de snapshots esté llena. 2. Elimina algunas instantáneas no deseadas más antiguas para liberar espacio.… Si se supera el umbral de advertencia, planifique tomar las siguientes acciones inmediatas: 1. Aumentar el espacio de reserva de las copias Snapshot dentro del volumen para adaptarse al crecimiento. 2. Configure las snapshots para utilizar espacio de datos en el volumen cuando la reserva de snapshots esté llena. |
Límite de capacidad de almacenamiento |
CRÍTICO |
Cuando un pool de almacenamiento (agregado) se está llenando, las operaciones de I/o se ralentizan y, finalmente, se detienen en el caso del incidente de interrupción del servicio del almacenamiento. Una alerta de advertencia indica que la acción planificada debe tomarse pronto para restaurar el espacio libre mínimo. Una alerta crítica indica que la interrupción del servicio es inminente y que deben tomarse medidas de emergencia para liberar espacio para garantizar la continuidad del servicio. |
Si se logra superar el umbral crítico, considere inmediatamente las siguientes acciones para minimizar la interrupción del servicio: 1. Elimine Snapshot en volúmenes no cruciales. 2. Elimine volúmenes o LUN que no sean esenciales y que se puedan restaurar a partir de copias fuera del almacenamiento.… Si se incumple el umbral de advertencia, planifique las siguientes acciones inmediatas: 1. Mueva uno o más volúmenes a otra ubicación de almacenamiento. 2. Añadir más capacidad de almacenamiento. 3. Cambie la configuración de eficiencia del almacenamiento o organice en niveles los datos inactivos a almacenamiento en cloud. |
Límite de rendimiento de almacenamiento |
CRÍTICO |
Cuando un sistema de almacenamiento alcanza su límite de rendimiento, las operaciones se ralentizan, la latencia aumenta y las cargas de trabajo y las aplicaciones pueden empezar a fallar. ONTAP evalúa la utilización del pool de almacenamiento para cargas de trabajo y calcula el porcentaje del rendimiento que se ha consumido… Una alerta de advertencia indica que se deben tomar medidas planificadas para reducir la carga de almacenamiento del pool para garantizar que habrá suficiente rendimiento del pool de almacenamiento para mantener los picos de carga de trabajo… una alerta crucial indica esto es inminente un «apagón» del rendimiento y deben tomarse medidas de emergencia para reducir la carga de la agrupación de almacenamiento y garantizar la continuidad del servicio. |
Si se supera el umbral crítico, considere la posibilidad de llevar a cabo acciones inmediatas para minimizar la interrupción del servicio: 1. Suspenda las tareas programadas como la replicación de Snapshot o SnapMirror. 2. Cargas de trabajo no esenciales ociosas.… Si se incumple el umbral de advertencia, realice las siguientes acciones de inmediato: 1. Mueva una o más cargas de trabajo a otra ubicación de almacenamiento. 2. Añada más nodos de almacenamiento (AFF) o bandejas de discos (FAS) y redistribuya las cargas de trabajo 3. Cambiar las características de las cargas de trabajo (tamaño del bloque, almacenamiento en caché de aplicaciones). |
Límite duro de capacidad de cuota de usuario |
CRÍTICO |
ONTAP reconoce a los usuarios de sistemas Unix o Windows que tienen derechos de acceso a volúmenes, archivos o directorios dentro de un volumen. Como resultado, ONTAP permite a los clientes configurar capacidad de almacenamiento para sus usuarios o grupos de usuarios de sus sistemas Linux o Windows. La cuota de la política de usuario o grupo limita la cantidad de espacio que el usuario puede utilizar para sus propios datos.…Un límite duro de esta cuota permite notificar al usuario cuando la cantidad de capacidad utilizada dentro del volumen es correcta antes de alcanzar la cuota de capacidad total. La supervisión de la cantidad de datos almacenados dentro de una cuota de usuario o grupo garantiza que el usuario recibe un servicio de datos ininterrumpido. |
Si se supera el umbral crítico, considere la posibilidad de llevar a cabo acciones inmediatas para minimizar la interrupción del servicio: 1. Aumentar el espacio del usuario o cuota de grupo para adaptarse al crecimiento. 2. Indique al usuario o grupo que elimine datos no deseados para liberar espacio. |
Límite blando de capacidad de cuota de usuario |
ADVERTENCIA |
ONTAP reconoce a los usuarios de sistemas Unix o Windows que tienen derechos de acceso a volúmenes, archivos o directorios dentro de un volumen. Como resultado, ONTAP permite a los clientes configurar capacidad de almacenamiento para sus usuarios o grupos de usuarios de sus sistemas Linux o Windows. La cuota de la política de usuario o grupo limita la cantidad de espacio que el usuario puede utilizar para sus propios datos.… Un límite suave de esta cuota permite notificar al usuario de forma proactiva cuando la cantidad de capacidad utilizada dentro del volumen está alcanzando la cuota de capacidad total. La supervisión de la cantidad de datos almacenados dentro de una cuota de usuario o grupo garantiza que el usuario recibe un servicio de datos ininterrumpido. |
Si se supera el umbral de advertencia, planifique tomar las siguientes acciones inmediatas: 1. Aumentar el espacio del usuario o cuota de grupo para adaptarse al crecimiento. 2. Elimine los datos no deseados para liberar espacio. |
Capacidad del volumen completa |
CRÍTICO |
La capacidad de almacenamiento de un volumen es necesaria para almacenar los datos de aplicaciones y clientes. Cuantos más datos se almacenen en el volumen ONTAP, menos disponibilidad de almacenamiento para los datos futuros. Si la capacidad de almacenamiento de datos dentro de un volumen alcanza la capacidad total de almacenamiento, es posible que el cliente no pueda almacenar datos debido a la falta de capacidad de almacenamiento. La supervisión del volumen de la capacidad de almacenamiento utilizada garantiza la continuidad de los servicios de datos. |
Si se supera el umbral crítico, considere la posibilidad de llevar a cabo acciones inmediatas para minimizar la interrupción del servicio: 1. Aumente el espacio del volumen para adaptarse al crecimiento. 2. Elimine los datos no deseados para liberar espacio. 3. Si las copias snapshot ocupan más espacio que la reserva snapshot, elimine las instantáneas antiguas o habilite la función de eliminación automática de instantáneas de volumen… Si se infringe el umbral de advertencia, realice las siguientes acciones inmediatas: 1. Aumentar el espacio del volumen para adaptarse al crecimiento 2. Si las copias snapshot ocupan más espacio que la reserva de instantánea, elimine las instantáneas antiguas o activando la eliminación automática de instantánea de volumen.… |
Límite de inodos de volumen |
CRÍTICO |
Los volúmenes que almacenan archivos usan nodos de índice (inodo) para almacenar los metadatos de archivos. Cuando un volumen agota su asignación de inodo, Una alerta de advertencia indica que se deben tomar medidas planificadas para aumentar el número de inodos disponibles… Una alerta crítica indica que el agotamiento del archivo es inminente y que deben tomarse medidas de emergencia para liberar inodos para garantizar la continuidad del servicio. |
Si se supera el umbral crítico, considere la posibilidad de llevar a cabo acciones inmediatas para minimizar la interrupción del servicio: 1. Aumente el valor de inodos para el volumen. Si el valor de inodos ya se encuentra en el valor máximo, divida el volumen en dos o más volúmenes, ya que el sistema de archivos ha crecido más allá del tamaño máximo. 2. Utilice FlexGroup como ayuda para acomodar sistemas de archivos grandes.… Si se supera el umbral de advertencia, planifique tomar las siguientes acciones inmediatas: 1. Aumente el valor de inodos para el volumen. Si el valor de inodos ya está en el máximo, divida el volumen en dos o más volúmenes, ya que el sistema de archivos ha crecido más allá del tamaño máximo. 2. Utilice FlexGroup como ayuda para acomodar sistemas de archivos grandes |
Latencia del volumen alta |
CRÍTICO |
Los volúmenes son objetos que sirven al tráfico de I/o a menudo controlados por aplicaciones que se ven sensibles al rendimiento, como aplicaciones de DevOps, directorios iniciales y bases de datos. Cuando se produce una gran latencia en el volumen, las aplicaciones pueden verse afectadas e incapaces de realizar sus tareas. La supervisión de las latencias del volumen es crucial para mantener un rendimiento consistente de las aplicaciones. A continuación se muestran latencias en función del tipo de medio: Unidades SSD de hasta 1-2 milisegundos; SAS de hasta 8-10 milisegundos y unidades de disco duro SATA de 17-20 milisegundos. |
Si se supera el umbral crítico, considere las siguientes acciones inmediatas para minimizar la interrupción del servicio: Si el volumen tiene una política de calidad de servicio asignada, evalúe sus umbrales límite en caso de que esté provocando que la carga de trabajo del volumen se reduzca. Si se supera el umbral de advertencia, tenga en cuenta las siguientes acciones inmediatas: 1. Si el agregado también está experimentando un uso elevado, mueva el volumen a otro agregado. 2. Si el volumen tiene asignada una política de calidad de servicio, evalúe sus umbrales límite en caso de que provoque que la carga de trabajo del volumen se acelere. 3. Si el nodo también está experimentando una alta utilización, mueva el volumen a otro nodo o reduzca la carga de trabajo total del nodo. |
Nombre del monitor |
Gravedad |
Descripción del monitor |
Acción correctiva |
Alta latencia de los nodos |
ADVERTENCIA / CRÍTICA |
La latencia del nodo ha alcanzado los niveles en los que puede afectar al rendimiento de las aplicaciones en el nodo. La latencia del nodo más baja garantiza un rendimiento constante de las aplicaciones. Las latencias esperadas en función del tipo de medio son: SSD de hasta 1-2 milisegundos; SAS de hasta 8-10 milisegundos y HDD SATA de 17-20 milisegundos. |
Si se incumple el umbral crítico, se deben tomar medidas inmediatas para minimizar la interrupción del servicio: 1. Suspender tareas programadas, copias Snapshot o replicación de SnapMirror 2. Reduzca la demanda de cargas de trabajo con prioridad inferior mediante los límites de calidad de servicio 3. Desactivar las cargas de trabajo no esenciales considerar acciones inmediatas cuando se supera el umbral de advertencia: 1. Mover una o más cargas de trabajo a otra ubicación de almacenamiento 2. Reduzca la demanda de cargas de trabajo con prioridad inferior mediante los límites de calidad de servicio 3. Añada más nodos de almacenamiento (AFF) o bandejas de discos (FAS) y redistribuya las cargas de trabajo 4. Cambiar las características de las cargas de trabajo (tamaño del bloque, almacenamiento en caché de aplicaciones, etc.) |
Límite de rendimiento de nodo |
ADVERTENCIA / CRÍTICA |
La utilización del rendimiento del nodo ha alcanzado los niveles en los que puede afectar al rendimiento de iOS y a las aplicaciones compatibles con el nodo. Un bajo uso del rendimiento de los nodos garantiza un rendimiento constante de las aplicaciones. |
Se deberían tomar medidas inmediatas para minimizar la interrupción del servicio si se incumplen los umbrales críticos: 1. Suspender tareas programadas, copias Snapshot o replicación de SnapMirror 2. Reduzca la demanda de cargas de trabajo con prioridad inferior mediante los límites de calidad de servicio 3. Desactivar cargas de trabajo no esenciales tenga en cuenta las siguientes acciones si se supera el umbral de advertencia: 1. Mover una o más cargas de trabajo a otra ubicación de almacenamiento 2. Reduzca la demanda de cargas de trabajo con prioridad inferior mediante los límites de calidad de servicio 3. Añada más nodos de almacenamiento (AFF) o bandejas de discos (FAS) y redistribuya las cargas de trabajo 4. Cambiar las características de las cargas de trabajo (tamaño del bloque, almacenamiento en caché de aplicaciones, etc.) |
Alta latencia de los equipos virtuales de almacenamiento |
ADVERTENCIA / CRÍTICA |
La latencia de las máquinas virtuales de almacenamiento (SVM) ha alcanzado los niveles, donde puede afectar al rendimiento de las aplicaciones en el equipo virtual de almacenamiento. La menor latencia de los equipos virtuales de almacenamiento garantiza un rendimiento constante de las aplicaciones. Las latencias esperadas en función del tipo de medio son: SSD de hasta 1-2 milisegundos; SAS de hasta 8-10 milisegundos y HDD SATA de 17-20 milisegundos. |
Si se logra superar el umbral crítico, evalúe de inmediato los límites del umbral para los volúmenes de la máquina virtual de almacenamiento con una política de calidad de servicio asignada, para verificar si están provocando que las cargas de trabajo del volumen se aceleren teniendo en cuenta acciones inmediatas cuando se supere el umbral de advertencia: 1. Si el agregado también está experimentando un uso elevado, mueva algunos volúmenes del equipo virtual de almacenamiento a otro agregado. 2. Para los volúmenes de la máquina virtual de almacenamiento con una política de calidad de servicio asignada, evalúe los límites de umbrales si están provocando que las cargas de trabajo del volumen se aceleren 3. Si el nodo está experimentando un uso elevado, mueva algunos volúmenes del equipo virtual de almacenamiento a otro nodo o reduzca la carga de trabajo total del nodo |
Límite duro de archivos de cuota de usuario |
CRÍTICO |
El número de archivos creados dentro del volumen ha alcanzado el límite crítico y no se pueden crear más archivos. La supervisión del número de archivos almacenados garantiza que el usuario reciba un servicio de datos ininterrumpido. |
Se requieren acciones inmediatas para minimizar la interrupción del servicio si se supera el umbral crítico.…considere tomar las siguientes acciones: 1. Aumente la cuota de recuento de archivos para el usuario específico 2. Elimine los archivos no deseados para reducir la presión sobre la cuota de archivos para el usuario específico |
Límite de software de archivos de cuota de usuario |
ADVERTENCIA |
El número de archivos creados dentro del volumen ha alcanzado el límite de umbral de la cuota y está cerca del límite crítico. No se pueden crear archivos adicionales si la cuota alcanza el límite crítico. La supervisión del número de archivos almacenados por un usuario garantiza que el usuario recibe un servicio de datos ininterrumpido. |
Considere acciones inmediatas si se incumplen los umbrales de advertencia: 1. Aumente la cuota de recuento de archivos para la cuota de usuario específica 2. Elimine los archivos no deseados para reducir la presión sobre la cuota de archivos para el usuario específico |
Ratio de Miss caché de volumen |
ADVERTENCIA / CRÍTICA |
Miss ratio de caché de volumen es el porcentaje de solicitudes de lectura de las aplicaciones de cliente que se devuelven del disco en lugar de devolverse de la caché. Esto significa que el volumen ha alcanzado el umbral establecido. |
Si se incumple el umbral crítico, se deben tomar medidas inmediatas para minimizar la interrupción del servicio: 1. Mueva algunas cargas de trabajo fuera del nodo del volumen para reducir la carga de I/o 2. Si no está en el nodo del volumen, aumente la caché WAFL al comprar y añadir Flash Cache 3. Reduzca la demanda de cargas de trabajo de menor prioridad en el mismo nodo a través de los límites de calidad de servicio; considere acciones inmediatas cuando se incumple el umbral de advertencia: 1. Mueva algunas cargas de trabajo fuera del nodo del volumen para reducir la carga de I/o 2. Si no está en el nodo del volumen, aumente la caché WAFL al comprar y añadir Flash Cache 3. Reduzca la demanda de cargas de trabajo de menor prioridad en el mismo nodo mediante los límites de calidad de servicio 4. Cambiar las características de las cargas de trabajo (tamaño del bloque, almacenamiento en caché de aplicaciones, etc.) |
Exceso de cuota de qtree de volúmenes |
ADVERTENCIA / CRÍTICA |
La cuota extra de qtree de Volume Qtree especifica el porcentaje en el que se considera que un volumen está demasiado comprometido por las cuotas de qtree. Se alcanza el umbral configurado para la cuota de qtree para el volumen. La supervisión del exceso de cuota de qtree del volumen garantiza que el usuario reciba un servicio de datos ininterrumpido. |
Si se incumple el umbral crítico, se deben tomar medidas inmediatas para minimizar la interrupción del servicio: 1. Aumente el espacio del volumen 2. Elimine los datos no deseados cuando se viole el umbral de advertencia y considere aumentar el espacio del volumen. |
Monitores de registro
Nombre del monitor |
Gravedad |
Descripción |
Acción correctiva |
Las credenciales de AWS no se han inicializado |
INFORMACIÓN |
Este evento se produce cuando un módulo intenta acceder a las credenciales basadas en roles de Amazon Web Services (AWS) Identity and Access Management (IAM) desde el subproceso de credenciales del cloud antes de iniciarlas. |
Espere a que el subproceso de credenciales de la nube, así como el sistema, complete la inicialización. |
Nivel de cloud inaccesible |
CRÍTICO |
Un nodo de almacenamiento no puede conectarse a la API de almacén de objetos Cloud Tier. Algunos datos no serán accesibles. |
Si utiliza productos en las instalaciones, realice las siguientes acciones correctivas: …Compruebe que su LIF de interconexión de clústeres está en línea y funcional mediante el comando "Network interface show".…Compruebe la conectividad de red al servidor del almacén de objetos mediante el comando "ping" en la LIF de interconexión de clústeres del nodo de destino.…Asegúrese de lo siguiente:…la configuración del almacén de objetos no ha cambiado.…la información de conexión y conectividad es Aún vigente.…Póngase en contacto con el soporte técnico de NetApp si el problema persiste. Si utilizas Cloud Volumes ONTAP, realiza las siguientes acciones correctivas: …Asegúrate de que la configuración de tu almacén de objetos no haya cambiado.… Asegúrese de que la información de inicio de sesión y conectividad sigue siendo válida… Póngase en contacto con el soporte técnico de NetApp si el problema persiste. |
Disco fuera de servicio |
INFORMACIÓN |
Este evento se produce cuando un disco se quita del servicio porque se ha marcado como un error, se está saneando o se ha introducido en el centro de mantenimiento. |
Ninguno. |
Componente FlexGroup lleno |
CRÍTICO |
Un componente dentro del volumen FlexGroup está lleno, lo que podría causar una interrupción potencial del servicio. Aún puede crear o expandir archivos en el volumen de FlexGroup. Sin embargo, ninguno de los archivos almacenados en el componente puede modificarse. Como resultado, es posible que se produzcan errores aleatorios de falta de espacio cuando se intentan ejecutar operaciones de escritura en el volumen FlexGroup. |
Se recomienda agregar capacidad al volumen FlexGroup mediante el comando "volume modify -files +X".…de forma alternativa, elimine archivos del volumen FlexGroup. Sin embargo, es difícil determinar qué archivos han aterrizado en el componente. |
Componente FlexGroup casi lleno |
ADVERTENCIA |
Un componente del volumen FlexGroup está casi sin espacio, lo que podría provocar una interrupción potencial del servicio. Los archivos se pueden crear y expandir. Sin embargo, si el componente se queda sin espacio, es posible que no pueda agregar o modificar los archivos del componente. |
Se recomienda agregar capacidad al volumen FlexGroup mediante el comando "volume modify -files +X".…de forma alternativa, elimine archivos del volumen FlexGroup. Sin embargo, es difícil determinar qué archivos han aterrizado en el componente. |
Componente FlexGroup casi fuera de los inodos |
ADVERTENCIA |
Un componente de un volumen FlexGroup está casi fuera de la inoda, lo que podría causar una posible interrupción del servicio. El componente recibe solicitudes de creación menores que la media. Esto puede afectar el rendimiento general del volumen FlexGroup, ya que las solicitudes se dirigen a los componentes con más inodos. |
Se recomienda agregar capacidad al volumen FlexGroup mediante el comando "volume modify -files +X".…de forma alternativa, elimine archivos del volumen FlexGroup. Sin embargo, es difícil determinar qué archivos han aterrizado en el componente. |
FlexGroup componente fuera de inodos |
CRÍTICO |
Un componente de un volumen FlexGroup se ha quedado sin inodos, lo que podría provocar una interrupción potencial del servicio. No puede crear archivos nuevos en este componente. Esto puede provocar una distribución desequilibrada de contenido en todo el volumen FlexGroup. |
Se recomienda agregar capacidad al volumen FlexGroup mediante el comando "volume modify -files +X".…de forma alternativa, elimine archivos del volumen FlexGroup. Sin embargo, es difícil determinar qué archivos han aterrizado en el componente. |
LUN sin conexión |
INFORMACIÓN |
Este evento ocurre cuando una LUN se desconecta de forma manual. |
Vuelva a conectar la LUN. |
Fallo del ventilador de la unidad principal |
ADVERTENCIA |
Uno o más ventiladores de la unidad principal han fallado. El sistema permanece operativo.…sin embargo, si la condición persiste durante demasiado tiempo, la sobretemperatura podría desencadenar un apagado automático. |
Vuelva a colocar los ventiladores fallidos. Si el error persiste, sustitúyalos. |
Ventilador de la unidad principal en estado de advertencia |
INFORMACIÓN |
Este evento ocurre cuando uno o más ventiladores de la unidad principal se encuentran en estado de advertencia. |
Sustituya los ventiladores indicados para evitar el sobrecalentamiento. |
Batería NVRAM baja |
ADVERTENCIA |
La capacidad de la batería de NVRAM es extremadamente baja. Podría haber una pérdida de datos potencial si la batería se queda sin energía.…su sistema genera y transmite un mensaje de AutoSupport o de "llamada a casa" al soporte técnico de NetApp y a los destinos configurados, si está configurado para hacerlo. La correcta entrega de un mensaje de AutoSupport mejora considerablemente la resolución y la determinación de los problemas. |
Lleve a cabo las siguientes acciones correctivas:…Consulte el estado actual, la capacidad y el estado de carga de la batería utilizando el comando "system node sensors show" (mostrar sensores de entorno del nodo del sistema).…Si la batería fue reemplazada recientemente o el sistema no estaba operativo durante un período de tiempo prolongado, Supervise la batería para verificar que se está cargando correctamente.…Póngase en contacto con el soporte técnico de NetApp si el tiempo de ejecución de la batería sigue bajando por debajo de los niveles críticos y el sistema de almacenamiento se apaga automáticamente. |
Service Processor no configurado |
ADVERTENCIA |
Este evento ocurre semanalmente, para recordarle que debe configurar Service Processor (SP). El SP es un dispositivo físico que está incorporado en el sistema para proporcionar acceso remoto y funcionalidades de gestión remota. Debe configurar el SP para utilizar toda su funcionalidad. |
Realice las siguientes acciones correctivas:…Configure el SP utilizando el comando "system service-processor network modify".…opcionalmente, Obtenga la dirección MAC del SP mediante el comando "system service-processor network show".…Compruebe la configuración de la red del SP utilizando el comando "system service-processor network show".…Compruebe que el SP puede enviar un correo electrónico AutoSupport mediante el comando "system service-processor AutoSupport Invoke". NOTA: Los hosts y destinatarios de correo electrónico de AutoSupport se deben configurar en ONTAP antes de emitir este comando. |
Service Processor sin conexión |
CRÍTICO |
ONTAP ya no recibe latidos del procesador de servicio (SP), aunque se hayan tomado todas las acciones de recuperación del SP. ONTAP no puede supervisar el estado del hardware sin el SP… el sistema se apagará para evitar daños en el hardware y pérdidas de datos. Configure una alerta de pánico para recibir una notificación inmediatamente si el SP se desconecta. |
Apague y encienda el sistema realizando las siguientes acciones:…saque el controlador del chasis.…empuje el controlador de nuevo hacia dentro.…vuelva a encender el controlador.…Si el problema persiste, reemplace el módulo del controlador. |
Errores de los ventiladores de la bandeja |
CRÍTICO |
Se produjo un error en el ventilador de refrigeración o módulo de ventilador indicado de la bandeja. Es posible que los discos de la bandeja no reciban suficiente flujo de aire de refrigeración, lo que podría dar como resultado un fallo del disco. |
Lleve a cabo las siguientes acciones correctivas:…Compruebe que el módulo del ventilador está bien asentado y asegurado. NOTA: El ventilador está integrado en el módulo de fuente de alimentación de algunas bandejas de discos.…Si el problema persiste, sustituya el módulo de ventilador.…Si el problema persiste, póngase en contacto con el soporte técnico de NetApp para obtener ayuda. |
El sistema no puede funcionar debido a una falla en el ventilador de la unidad principal |
CRÍTICO |
Uno o más ventiladores de la unidad principal han fallado, lo que interrumpe el funcionamiento del sistema. Esto puede producir una pérdida de datos potencial. |
Sustituya los ventiladores en los que se han producido fallos. |
Discos sin asignar |
INFORMACIÓN |
El sistema tiene discos sin asignar: Se está desperdiciando capacidad y es posible que se haya aplicado algún cambio de configuración errónea o parcial. |
Realice las siguientes acciones correctivas:…determine qué discos no están asignados mediante el comando "disk show -n".…asigne los discos a un sistema mediante el comando "disk assign". |
Servidor antivirus ocupado |
ADVERTENCIA |
El servidor antivirus está demasiado ocupado como para aceptar solicitudes de análisis nuevas. |
Si este mensaje se produce con frecuencia, asegúrese de que hay suficientes servidores antivirus para gestionar la carga de análisis de virus generada por la SVM. |
Las credenciales de AWS para el rol IAM han caducado |
CRÍTICO |
ONTAP de volumen de cloud se ha vuelto inaccesible. Las credenciales basadas en roles de Identity and Access Management (IAM) caducaron. Las credenciales se adquieren del servidor de metadatos de Amazon Web Services (AWS) mediante el rol IAM y se usan para firmar solicitudes de API a Amazon simple Storage Service (Amazon S3). |
Realice lo siguiente:…Inicie sesión en la Consola de administración de AWS EC2.…desplácese a la página instancias.…Busque la instancia de la implementación de Cloud Volumes ONTAP y compruebe su estado.…Compruebe que la función de IAM de AWS asociada a la instancia es válida y se le han concedido privilegios adecuados a la instancia. |
No se han encontrado las credenciales de AWS para el rol IAM |
CRÍTICO |
El subproceso de credenciales del cloud no puede obtener las credenciales basadas en roles de Amazon Web Services (AWS) en el servidor de metadatos de AWS. Las credenciales se utilizan para firmar solicitudes de API en Amazon simple Storage Service (Amazon S3). ONTAP de volumen en la nube se ha vuelto inaccesible.… |
Realice lo siguiente:…Inicie sesión en la Consola de administración de AWS EC2.…desplácese a la página instancias.…Busque la instancia de la implementación de Cloud Volumes ONTAP y compruebe su estado.…Compruebe que la función de IAM de AWS asociada a la instancia es válida y se le han concedido privilegios adecuados a la instancia. |
Las credenciales de AWS para el rol IAM no son válidas |
CRÍTICO |
Las credenciales basadas en roles de Identity and Access Management (IAM) no son válidas. Las credenciales se adquieren del servidor de metadatos de Amazon Web Services (AWS) mediante el rol IAM y se usan para firmar solicitudes de API a Amazon simple Storage Service (Amazon S3). ONTAP de volumen de cloud se ha vuelto inaccesible. |
Realice lo siguiente:…Inicie sesión en la Consola de administración de AWS EC2.…desplácese a la página instancias.…Busque la instancia de la implementación de Cloud Volumes ONTAP y compruebe su estado.…Compruebe que la función de IAM de AWS asociada a la instancia es válida y se le han concedido privilegios adecuados a la instancia. |
No se encuentra el rol IAM de AWS |
CRÍTICO |
El subproceso de roles de gestión de identidades y acceso (IAM) no puede encontrar el rol de Amazon Web Services (AWS) IAM en el servidor de metadatos de AWS. Se requiere el rol IAM para adquirir credenciales basadas en roles que se utilizan para firmar solicitudes de API en Amazon simple Storage Service (Amazon S3). ONTAP de volumen en la nube se ha vuelto inaccesible.… |
Realice lo siguiente:…Inicie sesión en la Consola de administración de AWS EC2.…desplácese a la página instancias.…Busque la instancia de la implementación de Cloud Volumes ONTAP y compruebe su estado.…Compruebe que la función de IAM de AWS asociada a la instancia es válida. |
El rol IAM de AWS no es válido |
CRÍTICO |
La función de gestión de acceso e identidad (IAM) de Amazon Web Services (AWS) en el servidor de metadatos de AWS no es válida. El ONTAP de volumen en la nube se ha vuelto inaccesible.… |
Realice lo siguiente:…Inicie sesión en la Consola de administración de AWS EC2.…desplácese a la página instancias.…Busque la instancia de la implementación de Cloud Volumes ONTAP y compruebe su estado.…Compruebe que la función de IAM de AWS asociada a la instancia es válida y se le han concedido privilegios adecuados a la instancia. |
Error de conexión del servidor de metadatos de AWS |
CRÍTICO |
El subproceso de roles de gestión de identidades y acceso (IAM) no puede establecer un enlace de comunicación con el servidor de metadatos de Amazon Web Services (AWS). Se debe establecer la comunicación para adquirir las credenciales basadas en roles de AWS IAM necesarias que se utilizan para firmar las solicitudes de API en Amazon simple Storage Service (Amazon S3). ONTAP de volumen en la nube se ha vuelto inaccesible.… |
Realice lo siguiente:…Inicie sesión en la Consola de administración de EC2 de AWS.…desplácese a la página instancias.…Busque la instancia para la implementación de Cloud Volumes ONTAP y compruebe su estado.… |
Se ha alcanzado el límite de uso de espacio de FabricPool casi |
ADVERTENCIA |
El uso total del espacio de FabricPool en todo el clúster de almacenes de objetos de proveedores con licencia de capacidad casi ha alcanzado el límite con licencia. |
Realice las siguientes acciones correctivas:…Compruebe el porcentaje de la capacidad bajo licencia utilizada por cada nivel de almacenamiento de FabricPool utilizando el comando "Storage aggregate object-store show-space".…elimine copias Snapshot de volúmenes con la política de organización en niveles "snapshot" o "backup" usando el comando "volume snapshot delete" para borrar espacio.…instale una nueva licencia en el clúster para aumentar la capacidad con licencia. |
Se ha alcanzado el límite de uso de espacio de FabricPool |
CRÍTICO |
El uso total del espacio de FabricPool en todo el clúster de almacenes de objetos de proveedores con licencia de capacidad ha alcanzado el límite de licencia. |
Realice las siguientes acciones correctivas:…Compruebe el porcentaje de la capacidad bajo licencia utilizada por cada nivel de almacenamiento de FabricPool utilizando el comando "Storage aggregate object-store show-space".…elimine copias Snapshot de volúmenes con la política de organización en niveles "snapshot" o "backup" usando el comando "volume snapshot delete" para borrar espacio.…instale una nueva licencia en el clúster para aumentar la capacidad con licencia. |
Error en la devolución del agregado |
CRÍTICO |
Este evento se produce durante la migración de un agregado como parte de una devolución de la conmutación al nodo de respaldo del almacenamiento (SFO), cuando el nodo de destino no puede llegar a los almacenes de objetos. |
Realice las siguientes acciones correctivas:…Compruebe que la LIF de interconexión de clústeres está en línea y funcional mediante el comando "Network interface show".…Compruebe la conectividad de red con el servidor del almacén de objetos mediante el comando"'ping" sobre la LIF de interconexión de clústeres del nodo de destino. …Compruebe que la configuración del almacén de objetos no ha cambiado y que la información de conexión y conectividad sigue siendo precisa mediante el comando "aggregate object-store config show".…alternativamente, Puede anular el error especificando false para el parámetro "require-partner-aning" del comando giveback.…Póngase en contacto con el soporte técnico de NetApp para obtener más información o ayuda. |
HA Interconnect inactivo |
ADVERTENCIA |
La interconexión de alta disponibilidad está inactiva. Riesgo de interrupción del servicio cuando la conmutación por error no está disponible. |
Las acciones correctivas dependen del número y el tipo de enlaces de interconexión de alta disponibilidad que admite la plataforma, así como del motivo por el que la interconexión está inactiva. …Si los enlaces están inactivos:…Verifique que ambos controladores en el par ha estén operativos.…para los enlaces conectados externamente, asegúrese de que los cables de interconexión estén conectados correctamente y que los pequeños pluggables de factor de forma (SFP), si procede, estén colocados correctamente en ambos controladores.…para los enlaces conectados internamente, deshabilite y vuelva a habilitar los enlaces, una tras otra, utilizando las órdenes "ic link off" y "ic link on". …Si se desactivan los vínculos, active los vínculos mediante el comando "ic LINK on". …Si un compañero no está conectado, desactive y vuelva a activar los vínculos, uno tras otro, utilizando las órdenes "ic link off" y "ic link on".…Póngase en contacto con el soporte técnico de NetApp si el problema persiste. |
Se ha excedido el número máximo de sesiones por usuario |
ADVERTENCIA |
Ha superado el número máximo de sesiones permitidas por usuario a través de una conexión TCP. Cualquier solicitud para establecer una sesión será denegada hasta que algunas sesiones sean liberadas. … |
Realice las siguientes acciones correctivas: …Inspeccione todas las aplicaciones que se ejecutan en el cliente y finalice las que no estén funcionando correctamente.…reinicie el cliente.…Compruebe si el problema es causado por una aplicación nueva o existente:…Si la aplicación es nueva, establezca un umbral mayor para el cliente mediante el comando "opción cifs modify -max-abre-same-file-per-tree". En algunos casos, los clientes funcionan según lo esperado, pero requieren un umbral más alto. Debe tener privilegios avanzados para establecer un umbral superior para el cliente. …Si el problema se debe a una aplicación existente, puede haber un problema con el cliente. Póngase en contacto con el soporte técnico de NetApp para obtener más información o ayuda. |
Se ha superado el número máximo de veces que se abre por archivo |
ADVERTENCIA |
Ha superado el número máximo de veces que puede abrir el archivo a través de una conexión TCP. Cualquier solicitud para abrir este archivo se denegará hasta que cierre algunas instancias abiertas del archivo. Esto normalmente indica un comportamiento anómalo de la aplicación.… |
Realice las siguientes acciones correctivas:…Inspeccione las aplicaciones que se ejecutan en el cliente utilizando esta conexión TCP. El cliente podría estar funcionando incorrectamente debido a la aplicación que se está ejecutando.…reinicie el cliente.…Compruebe si el problema es causado por una aplicación nueva o existente:…Si la aplicación es nueva, establezca un umbral más alto para el cliente mediante el comando "opción cifs modify -max-abre-same-file-per-tree". En algunos casos, los clientes funcionan según lo esperado, pero requieren un umbral más alto. Debe tener privilegios avanzados para establecer un umbral superior para el cliente. …Si el problema se debe a una aplicación existente, puede haber un problema con el cliente. Póngase en contacto con el soporte técnico de NetApp para obtener más información o ayuda. |
Conflicto de nombre NetBIOS |
CRÍTICO |
El servicio de nombres NetBIOS ha recibido una respuesta negativa a una solicitud de registro de nombres, procedente de un equipo remoto. Esto suele deberse a un conflicto en el nombre NetBIOS o en un alias. Como resultado, es posible que los clientes no puedan acceder a los datos o conectarse al nodo que sirve los datos correcto en el clúster. |
Realice una de las siguientes acciones correctivas:…Si hay un conflicto en el nombre NetBIOS o en un alias, Realice una de las siguientes acciones:…elimine el alias NetBIOS duplicado utilizando el comando "Vserver cifs delete -alias alias alias alias -vserver Vserver".…cambie el nombre de un alias NetBIOS eliminando el nombre duplicado y agregando un alias con un nombre nuevo mediante el comando "vserver cifs create -alias alias alias alias alias alias alias -vserver". …Si no hay alias configurados y hay un conflicto en el nombre NetBIOS, cambie el nombre del servidor CIFS mediante los comandos "Vserver cifs delete -vserver Vserver" y "vserver cifs create -cifs-Server netbiosname". NOTA: Si se elimina un servidor CIFS, es posible que no se pueda acceder a los datos. …Eliminar nombre NetBIOS o cambiar el nombre NetBIOS del equipo remoto. |
NFSv4 Store Pool agotado |
CRÍTICO |
Se ha agotado un pool de tienda de NFSv4. |
Si el servidor NFS no responde durante más de 10 minutos después de este evento, póngase en contacto con el soporte técnico de NetApp. |
No hay ningún motor de exploración registrado |
CRÍTICO |
El conector antivirus notificó a ONTAP que no tiene un motor de análisis registrado. Esto puede provocar que no se encuentren disponibles los datos si está activada la opción "exploración obligatoria". |
Realice las siguientes acciones correctivas:…Asegúrese de que el software del motor de análisis instalado en el servidor antivirus sea compatible con ONTAP.…Asegúrese de que el software del motor de análisis esté en funcionamiento y configurado para conectarse al conector antivirus a través del bucle invertido local. |
No hay conexión Vscan |
CRÍTICO |
ONTAP no tiene conexión Vscan a las solicitudes de análisis antivirus de servicio. Esto puede provocar que no se encuentren disponibles los datos si está activada la opción "exploración obligatoria". |
Asegúrese de que el grupo de análisis está correctamente configurado y de que los servidores antivirus están activos y conectados a ONTAP. |
Espacio de volumen raíz del nodo bajo |
CRÍTICO |
El sistema ha detectado que el volumen raíz tiene un espacio peligrosamente bajo. El nodo no está completamente operativo. Es posible que los LIF de datos hayan fallado dentro del clúster debido al cual el acceso NFS y CIFS está limitado en el nodo. La capacidad administrativa se limita a los procedimientos de recuperación local para que el nodo borre espacio del volumen raíz. |
Lleve a cabo las siguientes acciones correctivas:…borre espacio en el volumen raíz eliminando copias snapshot antiguas, eliminando archivos que ya no necesite del directorio /mroot o ampliando la capacidad de volumen raíz.…reinicie el controlador.…Póngase en contacto con el soporte técnico de NetApp para obtener más información o asistencia. |
Recursos compartidos de administración no existentes |
CRÍTICO |
VSCAN problema: Un cliente ha intentado conectarse a un recurso compartido ONTAP_ADMIN$ inexistente. |
Asegúrese de que Vscan esté habilitado para el ID de SVM mencionado. Al habilitar Vscan en una SVM, el recurso compartido ONTAP_ADMIN$ se crea automáticamente para la SVM. |
El espacio de nombres de NVMe no está disponible |
CRÍTICO |
Se desconectó un espacio de nombres NVMe debido a un fallo de escritura causado por la falta de espacio. |
Añada espacio al volumen y, a continuación, active el espacio de nombres de NVMe mediante el comando "vserver nvme Namespace modify". |
NVMe-of Grace Period activo |
ADVERTENCIA |
Este evento se produce a diario cuando se utiliza el protocolo NVMe over Fabrics (NVMe-of) y el periodo de gracia de la licencia está activo. La funcionalidad NVMe-of requiere una licencia después de que caduque el periodo de gracia de la licencia. La funcionalidad NVMe-of se deshabilita cuando el periodo de gracia de la licencia finaliza. |
Póngase en contacto con su representante de ventas para obtener una licencia NVMe-of y agregarla al clúster o para quitar todas las instancias de configuración de NVMe-of del clúster. |
NVMe-of Grace caducó |
ADVERTENCIA |
El periodo de gracia de la licencia NVMe over Fabrics (NVMe-of) se acabó y se deshabilita la funcionalidad NVMe-of. |
Póngase en contacto con su representante de ventas para obtener una licencia NVMe-of y agregarla al clúster. |
Inicio del periodo de gracia de NVMe-of |
ADVERTENCIA |
Durante la actualización al software ONTAP 9.5, se detectó la configuración de NVMe over Fabrics (NVMe-of). La funcionalidad NVMe-of requiere una licencia después de que caduque el periodo de gracia de la licencia. |
Póngase en contacto con su representante de ventas para obtener una licencia NVMe-of y agregarla al clúster. |
Host de almacén de objetos no resoluble |
CRÍTICO |
El nombre de host del servidor de almacén de objetos no se puede resolver a una dirección IP. El cliente de almacén de objetos no puede comunicarse con el servidor de almacén de objetos sin resolver con una dirección IP. Como resultado, es posible que no se pueda acceder a los datos. |
Compruebe la configuración de DNS para verificar que el nombre de host esté configurado correctamente con una dirección IP. |
LIF de interconexión de clústeres del almacén de objetos inactivo |
CRÍTICO |
El cliente de almacén de objetos no puede encontrar una LIF operativa para comunicarse con el servidor de almacenamiento de objetos. El nodo no permitirá el tráfico del cliente de almacenamiento de objetos hasta que la LIF de interconexión de clústeres esté operativa. Como resultado, es posible que no se pueda acceder a los datos. |
Realice las siguientes acciones correctivas:…Compruebe el estado de la LIF de interconexión de clústeres mediante el comando "Network interface show -role interclúster".…Compruebe que la LIF de interconexión de clústeres está configurada correctamente y operativa.…Si no está configurada una LIF de interconexión de clústeres, agréguela mediante el comando "network interface create -role interinterconexión de clústeres". |
Discrepancia de firma del almacén de objetos |
CRÍTICO |
La firma de solicitud enviada al servidor de almacén de objetos no coincide con la firma calculada por el cliente. Como resultado, es posible que no se pueda acceder a los datos. |
Compruebe que la clave de acceso secreta está configurada correctamente. Si está configurado correctamente, póngase en contacto con el soporte técnico de NetApp para obtener ayuda. |
Tiempo de espera DE RECARGA |
CRÍTICO |
Una operación DE ARCHIVO DE READDIR ha superado el tiempo de espera permitido su ejecución en WAFL. Esto puede ser debido a directorios muy grandes o escasos. Se recomienda tomar una acción correctiva. |
Realice las siguientes acciones correctivas:…Encuentre información específica de los directorios recientes que han tenido operaciones DE archivo DE READDIR expiran utilizando el siguiente comando de la CLI de privilegios de 'iag' nodeshell: WAFL readdir aviso show.…Compruebe si los directorios se indican como dispersos o no:…Si un directorio se indica como disperso, se recomienda copiar el contenido del directorio en un nuevo directorio para quitar la sparseness del archivo de directorio. …Si un directorio no se indica como sparse y el directorio es grande, se recomienda reducir el tamaño del archivo de directorio reduciendo el número de entradas de archivo en el directorio. |
Fallo en la reubicación del agregado |
CRÍTICO |
Este evento se produce durante la reubicación de un agregado, cuando el nodo de destino no puede llegar a los almacenes de objetos. |
Realice las siguientes acciones correctivas:…Compruebe que la LIF de interconexión de clústeres está en línea y funcional mediante el comando "Network interface show".…Compruebe la conectividad de red con el servidor del almacén de objetos mediante el comando"'ping" sobre la LIF de interconexión de clústeres del nodo de destino. …Compruebe que la configuración del almacén de objetos no ha cambiado y que la información de inicio de sesión y conectividad sigue siendo precisa mediante el comando "aggregate object-store config show".…alternativamente, puede anular el error mediante el parámetro "override-destination-checks" del comando de reubicación.…Póngase en contacto con el soporte técnico de NetApp para obtener más información o ayuda. |
No se pudo copiar sombra |
CRÍTICO |
Se produjo un error en un servicio de copia de volúmenes redundantes (VSS), una operación de servicio de backup y restauración de Microsoft Server. |
Compruebe lo siguiente utilizando la información proporcionada en el mensaje de evento: (…) ¿está activada la configuración de la copia de sombra?…¿están instaladas las licencias adecuadas? …En qué acciones se realiza la operación de copia de sombra?…¿es correcto el nombre de la acción?…existe la ruta de la acción?…¿Cuáles son los estados del conjunto de instantáneas y sus instantáneas? |
Error en las fuentes de alimentación del switch de almacenamiento |
ADVERTENCIA |
Falta un suministro de alimentación en el switch de clúster. Asimismo, se reduce la redundancia, así como el riesgo de interrupciones del servicio en caso de fallos adicionales de alimentación. |
Lleve a cabo las siguientes acciones correctivas:…Asegúrese de que la red eléctrica, que suministra alimentación al conmutador del clúster, esté encendida.…Asegúrese de que el cable de alimentación esté conectado a la fuente de alimentación.…Póngase en contacto con el soporte técnico de NetApp si el problema persiste. |
Hay demasiadas autenticación CIFS |
ADVERTENCIA |
Muchas negociaciones de autenticación se han producido simultáneamente. Hay 256 solicitudes nuevas de sesión incompletas de este cliente. |
Investigue por qué el cliente ha creado 256 o más solicitudes de conexión nuevas. Es posible que tenga que ponerse en contacto con el proveedor del cliente o de la aplicación para determinar el motivo del error. |
Acceso de usuario no autorizado a recurso compartido de administrador |
ADVERTENCIA |
Un cliente ha intentado conectarse al recurso compartido privilegiado de ONTAP_ADMIN$ aunque el usuario que ha iniciado sesión no sea un usuario permitido. |
Realice las siguientes acciones correctivas:…Asegúrese de que el nombre de usuario y la dirección IP mencionados estén configurados en uno de los grupos de escáneres activos de Vscan.…Compruebe la configuración del grupo de escáneres actualmente activa mediante el comando "vserver vscan scanner pool show-active". |
Virus detectado |
ADVERTENCIA |
Un servidor Vscan ha informado de un error en el sistema de almacenamiento. Esto típicamente indica que se ha encontrado un virus. Sin embargo, otros errores en el servidor Vscan pueden provocar este evento.…se deniega el acceso del cliente al archivo. El servidor Vscan puede, dependiendo de su configuración, limpiar el archivo, ponerlo en cuarentena o eliminarlo. |
Compruebe el registro del servidor Vscan notificado en el evento "syslog" para ver si pudo limpiar, poner en cuarentena o eliminar correctamente el archivo infectado. Si no pudo hacerlo, es posible que un administrador del sistema tenga que eliminar manualmente el archivo. |
Volumen sin conexión |
INFORMACIÓN |
Este mensaje indica que un volumen está desconectado. |
Vuelva a conectar el volumen. |
Volumen restringido |
INFORMACIÓN |
Este evento indica que se ha restringido un volumen flexible. |
Vuelva a conectar el volumen. |
Se ha podido detener la máquina virtual de almacenamiento correctamente |
INFORMACIÓN |
Este mensaje se produce cuando se realiza una operación de "parada del Vserver" correctamente. |
Utilice el comando 'Vserver start' para iniciar el acceso a los datos en una máquina virtual de almacenamiento. |
Pic. De nodo |
ADVERTENCIA |
Este evento se emite cuando ocurre un pánico |
Póngase en contacto con el soporte al cliente de NetApp. |
Monitores de registro de anti-Ransomware
Nombre del monitor |
Gravedad |
Descripción |
Acción correctiva |
Supervisión antiransomware de la máquina virtual de almacenamiento deshabilitada |
ADVERTENCIA |
La supervisión antiransomware para la máquina virtual de almacenamiento está deshabilitada. Habilite el ransomware para proteger la máquina virtual de almacenamiento. |
Ninguno |
Supervisión antiransomware de máquina virtual de almacenamiento habilitada (modo de aprendizaje) |
INFORMACIÓN |
La supervisión antiransomware para la máquina virtual de almacenamiento se encuentra habilitada en el modo de aprendizaje. |
Ninguno |
Supervisión antiransomware de volumen habilitada |
INFORMACIÓN |
La supervisión antiransomware para el volumen está habilitada. |
Ninguno |
Supervisión antiransomware de volumen deshabilitada |
ADVERTENCIA |
La supervisión antiransomware para el volumen está deshabilitada. Habilite el antiransomware para proteger el volumen. |
Ninguno |
Supervisión antiransomware de volumen habilitada (modo de aprendizaje) |
INFORMACIÓN |
La supervisión antiransomware para el volumen se encuentra habilitada en el modo de aprendizaje. |
Ninguno |
Supervisión antiransomware de volumen en pausa (modo de aprendizaje) |
ADVERTENCIA |
La supervisión antiransomware del volumen se detiene en el modo de aprendizaje. |
Ninguno |
La supervisión del volumen contra el ransomware se pausó |
ADVERTENCIA |
La supervisión antiransomware del volumen se detiene. |
Ninguno |
Desactivación de la supervisión del ransomware del volumen |
ADVERTENCIA |
La supervisión antiransomware para el volumen se está deshabilitando. |
Ninguno |
Actividad de ransomware detectada |
CRÍTICO |
Para proteger los datos del ransomware detectado, se ha tomado una copia Snapshot que se puede usar para restaurar los datos originales. El sistema genera y transmite un mensaje de AutoSupport o de "llamada a casa" al soporte técnico de NetApp y a cualquier destino configurado. El mensaje de AutoSupport mejora la resolución y la determinación de problemas. |
Consulte el «NOMBRE FINAL del DOCUMENTO» para tomar medidas correctivas para la actividad de ransomware. |
FSX para monitores ONTAP de NetApp
Nombre del monitor |
Umbrales |
Descripción del monitor |
Acción correctiva |
La capacidad del volumen FSX está completa |
Advertencia @ > 85 %…crítica @ > 95 % |
La capacidad de almacenamiento de un volumen es necesaria para almacenar los datos de aplicaciones y clientes. Cuantos más datos se almacenen en el volumen ONTAP, menos disponibilidad de almacenamiento para los datos futuros. Si la capacidad de almacenamiento de datos dentro de un volumen alcanza la capacidad total de almacenamiento, es posible que el cliente no pueda almacenar datos debido a la falta de capacidad de almacenamiento. La supervisión del volumen de la capacidad de almacenamiento utilizada garantiza la continuidad de los servicios de datos. |
Se requieren acciones inmediatas para minimizar la interrupción del servicio si se supera el umbral crítico:…1. Considere la posibilidad de eliminar datos que no sean necesarios para liberar espacio |
Alta latencia de volumen FSX |
Aviso @ > 1000 µs…crítico @ > 2000 µs |
Los volúmenes son objetos que sirven al tráfico de I/o a menudo impulsados por aplicaciones que se ven sensibles al rendimiento, como aplicaciones de DevOps, directorios iniciales y bases de datos. Cuando se produce una gran latencia en el volumen, las aplicaciones pueden verse afectadas e incapaces de realizar sus tareas. La supervisión de las latencias del volumen es crucial para mantener un rendimiento consistente de las aplicaciones. |
Se requieren acciones inmediatas para minimizar la interrupción del servicio si se supera el umbral crítico:…1. Si el volumen tiene asignada una política de calidad de servicio, evalúe sus umbrales de límite en caso de que estén causando que la carga de trabajo del volumen se regule……Planee tomar las siguientes acciones pronto si se inlogra el umbral de advertencia:…1. Si el volumen tiene asignada una política de calidad de servicio, evalúe sus umbrales de límite en caso de que estén causando la aceleración de la carga de trabajo del volumen.…2. Si el nodo también está experimentando una alta utilización, mueva el volumen a otro nodo o reduzca la carga de trabajo total del nodo. |
Límite de inodos de volumen FSX |
Advertencia @ > 85 %…crítica @ > 95 % |
Los volúmenes que almacenan archivos usan nodos de índice (inodo) para almacenar los metadatos de archivos. Cuando un volumen agota su asignación de inodo no se pueden agregar más archivos. Una alerta de advertencia indica que se debe tomar una acción planificada para aumentar el número de inodos disponibles. Una alerta crítica indica que el agotamiento de los archivos es inminente y que deben tomarse medidas de emergencia para liberar inodos para garantizar la continuidad del servicio |
Se requieren acciones inmediatas para minimizar la interrupción del servicio si se supera el umbral crítico:…1. Considere aumentar el valor de inodos para el volumen. Si el valor de inodos ya está en el máximo, considere dividir el volumen en dos o más volúmenes porque el sistema de archivos ha crecido más allá del tamaño máximo……Planee tomar las siguientes acciones pronto si se incumple el umbral de advertencia:…1. Considere aumentar el valor de inodos para el volumen. Si el valor de inodos ya está en el máximo, considere dividir el volumen en dos o más volúmenes, puesto que el sistema de archivos ha crecido más allá del tamaño máximo |
Exceso de cuota de qtree de volumen FSX |
Advertencia @ > 95 %…crítica @ > 100 % |
La cuota extra de qtree de Volume Qtree especifica el porcentaje en el que se considera que un volumen está demasiado comprometido por las cuotas de qtree. Se alcanza el umbral configurado para la cuota de qtree para el volumen. La supervisión del exceso de cuota de qtree del volumen garantiza que el usuario reciba un servicio de datos ininterrumpido. |
Si se incumple el umbral crítico, se deben tomar medidas inmediatas para minimizar la interrupción del servicio: 1. Eliminar datos no deseados… cuando se incumple el umbral de advertencia, considere aumentar el espacio del volumen. |
El espacio de la reserva de la instantánea de FSX está lleno |
Advertencia @ > 90 %…crítica @ > 95 % |
La capacidad de almacenamiento de un volumen es necesaria para almacenar los datos de aplicaciones y clientes. Una parte de ese espacio, denominada espacio reservado de la instantánea, se utiliza para almacenar las instantáneas que permiten proteger los datos de forma local. Cuantos más datos nuevos y actualizados haya almacenados en el volumen ONTAP, más capacidad se emplea en las copias Snapshot y menos capacidad de almacenamiento estarán disponibles para datos nuevos o actualizados futuros. Si la capacidad de datos de la copia Snapshot dentro de un volumen alcanza el espacio total de reserva de la copia Snapshot, es posible que el cliente no pueda almacenar nuevos datos de esta copia y reducir el nivel de protección de los datos del volumen. La supervisión del volumen Snapshot utilizado garantiza la continuidad de los servicios de datos. |
Se requieren acciones inmediatas para minimizar la interrupción del servicio si se supera el umbral crítico:…1. Considere la configuración de instantáneas para utilizar espacio de datos en el volumen cuando la reserva de instantáneas esté llena…2. Considere la posibilidad de eliminar algunas instantáneas más antiguas que pueden no ser necesarias para liberar espacio……Planee tomar las siguientes acciones pronto si se insupera el umbral de advertencia:…1. Considere aumentar el espacio de reserva de instantáneas dentro del volumen para adaptarse al crecimiento…2. Considere la posibilidad de configurar las instantáneas para utilizar espacio de datos en el volumen cuando la reserva de instantáneas esté llena |
Ratio de Miss caché de volumen FSX |
Advertencia @ > 95 %…crítica @ > 100 % |
Miss ratio de caché de volumen es el porcentaje de solicitudes de lectura de las aplicaciones de cliente que se devuelven del disco en lugar de devolverse de la caché. Esto significa que el volumen ha alcanzado el umbral establecido. |
Si se incumple el umbral crítico, se deben tomar medidas inmediatas para minimizar la interrupción del servicio: 1. Mueva algunas cargas de trabajo fuera del nodo del volumen para reducir la carga de I/o 2. Reducir la demanda de cargas de trabajo de menor prioridad en el mismo nodo a través de los límites de calidad de servicio… considerar acciones inmediatas cuando se incumple el umbral de advertencia: 1. Mueva algunas cargas de trabajo fuera del nodo del volumen para reducir la carga de I/o 2. Reduzca la demanda de cargas de trabajo de menor prioridad en el mismo nodo mediante los límites de calidad de servicio 3. Cambiar las características de las cargas de trabajo (tamaño del bloque, almacenamiento en caché de aplicaciones, etc.) |
Monitores K8S
Nombre del monitor |
Descripción |
Acciones correctivas |
Gravedad/Umbral |
Latencia de volumen persistente alta |
Las altas latencias de volumen persistente implican que las propias aplicaciones pueden sufrir y no pueden realizar sus tareas. La supervisión de las latencias de volumen persistente es crucial para mantener un rendimiento consistente de las aplicaciones. A continuación se muestran latencias en función del tipo de medio: Unidades SSD de hasta 1-2 milisegundos; SAS de hasta 8-10 milisegundos y unidades de disco duro SATA de 17-20 milisegundos. |
Acciones Inmediatas Si se incumple el umbral crítico, considere acciones inmediatas para minimizar la interrupción del servicio: Si el volumen tiene una política de calidad de servicio asignada, evalúe sus umbrales límite en caso de que esté provocando que la carga de trabajo del volumen se acelere. Acciones a hacer pronto Si se incumple el umbral de advertencia, planifique las siguientes acciones inmediatas: 1. Si también está aumentando la utilización del pool de almacenamiento, mueva el volumen a otro pool de almacenamiento. 2. Si el volumen tiene asignada una política de calidad de servicio, evalúe sus umbrales límite en caso de que provoque que la carga de trabajo del volumen se acelere. 3. Si la controladora también está experimentando una alta utilización, mueva el volumen a otra controladora o reduzca la carga de trabajo total de la controladora. |
Advertencia @ > 6.000 μs Crítico @ > 12.000 μs |
Saturación de memoria de cluster alta |
La saturación de memoria asignable al cluster es alta. La saturación de CPU del clúster se calcula como la suma del uso de memoria dividida por la suma de la memoria asignable en los K8s nodos. |
Añada nodos. Corrija los nodos no programados. Ajuste el tamaño de los pods para liberar memoria en los nodos. |
Advertencia @ > 80 % crítico @ > 90 % |
Error en la conexión DEL POD |
Esta alerta se produce cuando se produce un error en un archivo adjunto de volumen con POD. |
Advertencia |
|
Alta tasa de retransmisión |
Alta velocidad de retransmisión TCP |
Comprobar congestión de red: Identifique cargas de trabajo que consumen mucho ancho de banda de red. Compruebe si hay un uso elevado de la CPU del Pod. Compruebe el rendimiento de la red de hardware. |
Advertencia @ > 10 % crítico @ > 25 % |
Alta capacidad del sistema de archivos de nodo |
Alta capacidad del sistema de archivos de nodo |
- Aumentar el tamaño de los discos de nodo para asegurarse de que haya suficiente espacio para los archivos de aplicación. - Disminuir el uso del archivo de aplicación. |
Advertencia @ > 80 % crítico @ > 90 % |
Fluctuación de red de carga de trabajo alta |
Alta fluctuación de TCP (variaciones de tiempo de respuesta/latencia elevada) |
Compruebe si hay congestión de la red. Identifique las cargas de trabajo que consumen un gran ancho de banda de la red. Compruebe si hay un uso elevado de la CPU del Pod. Compruebe el rendimiento de la red de hardware |
Advertencia @ > 30 ms crítico @ > 50 ms |
Rendimiento de volumen persistente |
Es posible utilizar los umbrales DE MBPS en volúmenes persistentes para alertar a un administrador cuando los volúmenes persistentes superan las expectativas de rendimiento predefinidas, lo que puede afectar a otros volúmenes persistentes. Si se activa esta supervisión, se generarán alertas adecuadas para el perfil de rendimiento típico de los volúmenes persistentes en SSD. Esta supervisión cubrirá todos los volúmenes persistentes de tu entorno. Los valores de umbral crítico y de advertencia se pueden ajustar en función de sus objetivos de supervisión duplicando este monitor y estableciendo los umbrales adecuados para su clase de almacenamiento. Una supervisión duplicada puede dirigirse aún más a un subconjunto de los volúmenes persistentes del entorno. |
Acciones Inmediatas Si se incumple el umbral crítico, planifique acciones inmediatas para minimizar la interrupción del servicio: 1. Introduzca los límites DE QoS MBPS para el volumen. 2. Revise la aplicación que gestiona la carga de trabajo en el volumen para detectar anomalías. Acciones a hacer pronto Si se incumplen los umbrales de advertencia, planifique tomar las siguientes acciones inmediatas: 1. Introduzca los límites DE QoS MBPS para el volumen. 2. Revise la aplicación que gestiona la carga de trabajo en el volumen para detectar anomalías. |
Advertencia @ > 10.000 MB/s crítica @ > 15.000 MB/s |
Contenedor en riesgo de muerte de OOM |
Los límites de memoria del contenedor están demasiado bajos. El contenedor está en riesgo de ser desalojado (sin memoria). |
Aumente los límites de memoria del contenedor. |
Advertencia @ > 95 % |
Carga de trabajo inactiva |
La carga de trabajo no tiene pods en buen estado. |
Crítico @ < 1 |
|
Error en el enlace de reclamación de volumen persistente |
Esta alerta se produce cuando se produce un error de enlace en una RVP. |
Advertencia |
|
Límites de ResourceQuota Mem a punto de superarse |
Los límites de memoria para el espacio de nombres están a punto de superar ResourceQuota |
Advertencia @ > 80 % crítico @ > 90 % |
|
Solicitudes de miembros de ResourceQuota a punto de superar |
Las solicitudes de memoria para Namespace están a punto de superar ResourceQuota |
Advertencia @ > 80 % crítico @ > 90 % |
|
Fallo al crear el nodo |
No se pudo programar el nodo debido a un error de configuración. |
Compruebe el registro de eventos de Kubernetes para conocer la causa del fallo de configuración. |
Crítico |
Fallo en la recuperación de volumen persistente |
El volumen no superó la recuperación automática. |
Advertencia @ > 0 B |
|
Limitación de CPU del contenedor |
Los límites de CPU del contenedor están establecidos demasiado bajos. Los procesos del contenedor se ralentizan. |
Aumente los límites de CPU del contenedor. |
Advertencia @ > 95 % crítico @ > 98 % |
Fallo al suprimir el equilibrador de carga de servicio |
Advertencia |
||
IOPS de volumen persistente |
Es posible utilizar los umbrales de IOPS en volúmenes persistentes para alertar a un administrador cuando los volúmenes persistentes superan las expectativas de rendimiento predefinidas. Si se activa esta supervisión, se generarán alertas adecuadas para el perfil de IOPS típico de los volúmenes de persistencia. Esta supervisión cubrirá todos los volúmenes persistentes de tu entorno. Los valores de umbral crítico y de advertencia se pueden ajustar en función de sus objetivos de supervisión duplicando este monitor y estableciendo umbrales adecuados para su carga de trabajo. |
Acciones Inmediatas Si se incumple el umbral crítico, planifique acciones inmediatas para minimizar la interrupción del servicio: 1. Introduzca los límites de IOPS de calidad de servicio para el volumen. 2. Revise la aplicación que gestiona la carga de trabajo en el volumen para detectar anomalías. Acciones a hacer pronto Si se incumple el umbral de advertencia, planifique las siguientes acciones inmediatas: 1. Introduzca los límites de IOPS de calidad de servicio para el volumen. 2. Revise la aplicación que gestiona la carga de trabajo en el volumen para detectar anomalías. |
Advertencia @ > 20.000 IO/s Crítica @ > 25.000 IO/s |
Fallo al actualizar el equilibrador de carga de servicio |
Advertencia |
||
Montaje con fallos DE POD |
Esta alerta se produce cuando falla un montaje en un POD. |
Advertencia |
|
Presión PID del nodo |
Los identificadores de proceso disponibles en el nodo (Linux) están por debajo de un umbral de expulsión. |
Busque y corrija los pods que generan muchos procesos y eliminan por completo el nodo de los ID de proceso disponibles. Configure PodPidsLimit para proteger su nodo frente a pods o contenedores que generen demasiados procesos. |
Crítico @ > 0 |
Error de extracción de imagen de POD |
Kubernetes no pudo extraer la imagen del contenedor de pod. |
- Asegúrese de que la imagen del pod se deletrea correctamente en la configuración del pod. - Comprobar etiqueta de imagen existe en su registro. - Verificar las credenciales para el registro de imágenes. - Verificar problemas de conectividad del registro. - Verifique que no está alcanzando los límites de tasa impuestos por los proveedores de registro público. |
Advertencia |
Trabajo en ejecución demasiado largo |
El trabajo se está ejecutando durante demasiado tiempo |
Advertencia a > 1 hora crítica a > 5 hora |
|
Memoria de nodo alta |
El uso de memoria del nodo es alto |
Añada nodos. Corrija los nodos no programados. Ajuste el tamaño de los pods para liberar memoria en los nodos. |
Advertencia @ > 85 % crítico @ > 90 % |
Límites de CPU de ResourceQuota a punto de superarse |
Los límites de CPU para el espacio de nombres están a punto de superar ResourceQuota |
Advertencia @ > 80 % crítico @ > 90 % |
|
Retroceso de bucle de caída de POD |
El pod se ha bloqueado e intentó reiniciarse varias veces. |
Crítico @ > 3 |
|
CPU de nodo alta |
El uso de CPU del nodo es alto. |
Añada nodos. Corrija los nodos no programados. Ajuste el tamaño de los pods para liberar la CPU en los nodos. |
Advertencia @ > 80 % crítico @ > 90 % |
RTT de latencia de red de carga de trabajo alta |
Alta latencia RTT (tiempo de ida y vuelta) de TCP |
Comprobar congestión de red ▒ Identificar cargas de trabajo que consumen mucho ancho de banda de red. Compruebe si hay un uso elevado de la CPU del Pod. Compruebe el rendimiento de la red de hardware. |
Advertencia @ > 150 ms crítico @ > 300 ms |
Error de trabajo |
El trabajo no se ha completado correctamente debido a un bloqueo o reinicio del nodo, agotamiento de recursos, tiempo de espera del trabajo o fallo de programación del pod. |
Compruebe los registros de eventos de Kubernetes para ver las causas del fallo. |
Advertencia @ > 1 |
Volumen persistente lleno en unos pocos días |
El volumen persistente se quedará sin espacio en unos pocos días |
-Aumentar el tamaño del volumen para asegurarse de que haya suficiente espacio para los archivos de aplicación. -Reducir la cantidad de datos almacenados en las aplicaciones. |
Advertencia @ < 8 día crítico @ < 3 día |
Presión de memoria del nodo |
El nodo se está quedando sin memoria. La memoria disponible ha alcanzado el umbral de expulsión. |
Añada nodos. Corrija los nodos no programados. Ajuste el tamaño de los pods para liberar memoria en los nodos. |
Crítico @ > 0 |
Nodo no preparado |
El nodo se ha despreparado durante 5 minutos |
Compruebe que el nodo tiene suficientes recursos de CPU, memoria y disco. Compruebe la conectividad de red del nodo. Compruebe los registros de eventos de Kubernetes para ver las causas del fallo. |
Crítico @ < 1 |
Capacidad de volumen persistente alta |
La capacidad utilizada del back-end de volumen persistente es alta. |
- Aumentar el tamaño del volumen para asegurarse de que haya suficiente espacio para los archivos de la aplicación. - Reducir la cantidad de datos almacenados en las aplicaciones. |
Advertencia @ > 80 % crítico @ > 90 % |
Fallo al crear el equilibrador de carga de servicio |
Fallo al crear el equilibrador de carga de servicio |
Crítico |
|
Discrepancia de réplica de carga de trabajo |
Algunos pods no están disponibles actualmente para un Deployment o DaemonSet. |
Advertencia @ > 1 |
|
Solicitudes de CPU de ResourceQuota a punto de superarse |
Las solicitudes de CPU para Namespace están a punto de superar ResourceQuota |
Advertencia @ > 80 % crítico @ > 90 % |
|
Alta tasa de retransmisión |
Alta velocidad de retransmisión TCP |
Comprobar congestión de red: Identifique cargas de trabajo que consumen mucho ancho de banda de red. Compruebe si hay un uso elevado de la CPU del Pod. Compruebe el rendimiento de la red de hardware. |
Advertencia @ > 10 % crítico @ > 25 % |
Presión de disco de nodo |
El espacio en disco y los inodos disponibles en el sistema de archivos raíz del nodo o en el sistema de archivos de imagen han cumplido un umbral de expulsión. |
- Aumentar el tamaño de los discos de nodo para asegurarse de que haya suficiente espacio para los archivos de aplicación. - Disminuir el uso del archivo de aplicación. |
Crítico @ > 0 |
Saturación de CPU del clúster alta |
La saturación de CPU asignable al cluster es alta. La saturación de CPU del clúster se calcula como la suma del uso de CPU dividida por la suma de CPU asignable en los K8s nodos. |
Añada nodos. Corrija los nodos no programados. Ajuste el tamaño de los pods para liberar la CPU en los nodos. |
Advertencia @ > 80 % crítico @ > 90 % |
Cambiar monitores de registro
Nombre del monitor |
Gravedad |
Descripción del monitor |
Se detectó el volumen interno |
Informativo |
Este mensaje ocurre cuando se detecta un volumen interno. |
Se ha modificado el volumen interno |
Informativo |
Este mensaje ocurre cuando se modifica un volumen interno. |
Se detectó el nodo de almacenamiento |
Informativo |
Este mensaje se produce cuando se detecta un nodo de almacenamiento. |
Se quitó el nodo de almacenamiento |
Informativo |
Este mensaje ocurre cuando se quita un nodo de almacenamiento. |
Se detectó el pool de almacenamiento |
Informativo |
Este mensaje se produce cuando se detecta un pool de almacenamiento. |
Se detectó la máquina virtual de almacenamiento |
Informativo |
Este mensaje ocurre cuando se detecta una máquina virtual de almacenamiento. |
Máquina virtual de almacenamiento modificada |
Informativo |
Este mensaje ocurre cuando se modifica una máquina virtual de almacenamiento. |
Monitores de recopilación de datos
Nombre del monitor |
Descripción |
Acción correctiva |
Apagado de la unidad de adquisición |
Información sobre la infraestructura de datos Las unidades de adquisición se reinician periódicamente como parte de las actualizaciones para introducir nuevas funciones. Esto ocurre una vez al mes o menos en un entorno normal. Una alerta de advertencia de que una unidad de adquisición se ha apagado debe seguirse poco después de una resolución que indique que la unidad de adquisición recién reiniciado ha completado un registro con Data Infrastructure Insights. Normalmente, este ciclo de apagado y registro lleva de 5 a 15 minutos. |
Si la alerta se produce con frecuencia o dura más de 15 minutos, compruebe el funcionamiento del sistema que aloja la unidad de adquisición, la red y cualquier proxy que conecte la unidad AU a Internet. |
Error del recopilador |
El sondeo de un recopilador de datos ha encontrado una situación de fallo inesperada. |
Visite la página del recopilador de datos en Data Infrastructure Insights para obtener más información sobre la situación. |
Advertencia del recolector |
Esta alerta puede surgir normalmente debido a una configuración errónea del recopilador de datos o del sistema de destino. Revise la configuración para evitar alertas futuras. También puede ser debido a una recuperación de datos menos que-completos donde el recopilador de datos recopiló todos los datos que podría. Esto puede suceder cuando las situaciones cambian durante la recopilación de datos (por ejemplo, una máquina virtual presente al comienzo de la recopilación de datos se elimina durante la recopilación de datos y antes de que se capturen sus datos). |
Compruebe la configuración del recopilador de datos o del sistema de destino. Tenga en cuenta que el monitor de Collector Warning puede enviar más alertas que otros tipos de monitor, por lo que se recomienda no establecer destinatarios de alertas a menos que se esté solucionando problemas. |
Monitores de seguridad
Nombre del monitor |
Umbral |
Descripción del monitor |
Acción correctiva |
Transporte HTTPS de AutoSupport deshabilitado |
Advertencia @ < 1 |
AutoSupport admite HTTPS, HTTP y SMTP para los protocolos de transporte. Debido a la naturaleza sensible de los mensajes de AutoSupport, NetApp recomienda encarecidamente utilizar HTTPS como protocolo de transporte predeterminado para enviar mensajes de AutoSupport a la compatibilidad de NetApp. |
Para establecer HTTPS como protocolo de transporte para mensajes AutoSupport, ejecute el siguiente comando ONTAP:…nodo del sistema AutoSupport modify -transport https |
Cifrados no seguros del clúster para SSH |
Advertencia @ < 1 |
Indica que SSH está usando cifrados no seguros, por ejemplo, cifrados que empiecen por *cbc. |
Para quitar los cifrados de CBC, ejecute el siguiente comando de ONTAP:…Security ssh remove -vserver <admin vserver> -cifrados aes256-cbc,aes192-cbc,aes128-cbc,3des-cbc |
Se deshabilitará el banner de inicio de sesión del clúster |
Advertencia @ < 1 |
Indica que el banner de inicio de sesión está deshabilitado para los usuarios que acceden al sistema ONTAP. Mostrar un banner de inicio de sesión es útil para establecer las expectativas de acceso y uso del sistema. |
Para configurar el banner de inicio de sesión de un clúster, ejecute el siguiente comando de ONTAP:…Security login banner modify -vserver <admin svm> -message "acceso restringido a usuarios autorizados" |
Comunicación entre iguales de clúster no cifrada |
Advertencia @ < 1 |
Al replicar datos para recuperación ante desastres, almacenamiento en caché o backup, debe proteger esos datos durante el transporte por el cable de un clúster de ONTAP a otro. El cifrado debe configurarse en los clústeres de origen y destino. |
Para habilitar el cifrado en relaciones de paridad de clústeres que se crearon antes de ONTAP 9.6, los clústeres de origen y destino deben actualizarse a 9.6. A continuación, utilice el comando "cluster peer modify" para cambiar los pares de clústeres de origen y de destino con el cifrado Cluster peering.…Consulte la Guía de fortalecimiento de la seguridad de NetApp para ONTAP 9 para obtener más información. |
Usuario administrador local predeterminado habilitado |
Advertencia @ > 0 |
NetApp recomienda bloquear (deshabilitar) cualquier cuenta de usuario administrador predeterminado que no se necesite con el comando lock. Son principalmente cuentas predeterminadas para las que las contraseñas nunca se han actualizado o modificado. |
Para bloquear la cuenta "admin" incorporada, ejecute el siguiente comando ONTAP:…Security login lock -username admin |
Modo FIPS deshabilitado |
Advertencia @ < 1 |
Cuando se habilita el cumplimiento FIPS 140-2, TLSv1 y SSLv3 están deshabilitados y solo TLSv1.1 y TLSv1.2 permanecen habilitados. ONTAP evita que habilite TLSv1 y SSLv3 cuando el cumplimiento de FIPS 140-2 está habilitado. |
Para habilitar el cumplimiento FIPS 140-2 en un clúster, ejecute el siguiente comando ONTAP en modo de privilegio avanzado:…Security config modify -interface SSL -is-fips-enabled true |
Reenvío de registros no cifrado |
Advertencia @ < 1 |
Descargar la información de syslog es necesario para limitar el alcance o la huella de una intrusión en un solo sistema o solución. Por ello, NetApp recomienda descargar la información de syslog de forma segura en una ubicación segura de almacenamiento o retención. |
Una vez creado un destino de reenvío de registros, su protocolo no se puede cambiar. Para cambiar a un protocolo cifrado, elimine y vuelva a crear el destino de reenvío de registros mediante el siguiente comando ONTAP:…reenvío de registros de clúster cree -destino <destination ip> -protocol cifrado tcp |
MD5 ha hash la contraseña |
Advertencia @ > 0 |
NetApp recomienda encarecidamente usar la función hash SHA-512 más segura para las contraseñas de cuentas de usuario de ONTAP. Las cuentas que usan la función hash MD5 menos segura deben migrar a la función hash SHA-512. |
NetApp recomienda encarecidamente que las cuentas de usuario migren a la solución SHA-512 más segura haciendo que los usuarios cambien sus contraseñas.…para bloquear las cuentas con contraseñas que utilizan la función hash MD5, ejecute el siguiente comando ONTAP:…Security login lock -vserver * -username * -hash-function md5 |
No hay servidores NTP configurados |
Advertencia @ < 1 |
Indica que el clúster no tiene servidores NTP configurados. Para obtener redundancia y un servicio óptimo, NetApp recomienda asociar al menos tres servidores NTP al clúster. |
Para asociar un servidor NTP al clúster, ejecute el siguiente comando ONTAP: Cluster time-service ntp Server create -Server <ntp server host name or ip address> |
El número de servidores NTP es bajo |
Advertencia @ < 3 |
Indica que el clúster tiene menos de 3 servidores NTP configurados. Para obtener redundancia y un servicio óptimo, NetApp recomienda asociar al menos tres servidores NTP al clúster. |
Para asociar un servidor NTP con el clúster, ejecute el siguiente comando ONTAP:…cluster time-service ntp Server create -Server <ntp server host name or ip address> |
Shell remoto activado |
Advertencia @ > 0 |
El Shell remoto no es un método seguro para establecer el acceso de la línea de comandos a la solución ONTAP. El Shell remoto debe estar desactivado para un acceso remoto seguro. |
NetApp recomienda Secure Shell (SSH) para el acceso remoto seguro.…para deshabilitar el shell remoto en un clúster, ejecute el siguiente comando ONTAP en modo de privilegio avanzado:…Security protocol modify -Application rsh- enabled false |
Registro de auditoría de la máquina virtual de almacenamiento deshabilitado |
Advertencia @ < 1 |
Indica que el registro de auditoría está deshabilitado para la SVM. |
Para configurar el registro de auditoría para un Vserver, ejecute el siguiente comando ONTAP:…vserver audit enable -vserver <svm> |
Cifrados no seguros de máquinas virtuales de almacenamiento para SSH |
Advertencia @ < 1 |
Indica que SSH está usando cifrados no seguros, por ejemplo, cifrados que empiecen por *cbc. |
Para quitar los cifrados de CBC, ejecute el siguiente comando de ONTAP:…Security ssh remove -vserver <vserver> -cifrados aes256-cbc,aes192-cbc,aes128-cbc,3des-cbc |
Se deshabilitó el banner de inicio de sesión de máquina virtual de almacenamiento |
Advertencia @ < 1 |
Indica que el banner de inicio de sesión está deshabilitado para los usuarios que acceden a las SVM del sistema. Mostrar un banner de inicio de sesión es útil para establecer las expectativas de acceso y uso del sistema. |
Para configurar el banner de inicio de sesión de un clúster, ejecute el siguiente comando de ONTAP:…Security login banner modify -vserver <svm> -message "acceso restringido a usuarios autorizados" |
Protocolo Telnet activado |
Advertencia @ > 0 |
Telnet no es un método seguro para establecer el acceso de línea de comandos a la solución ONTAP. Telnet debería estar desactivado para un acceso remoto seguro. |
NetApp recomienda Secure Shell (SSH) para el acceso remoto seguro. Para desactivar Telnet en un clúster, ejecute el siguiente comando ONTAP en modo de privilegio avanzado:…modificación del protocolo de seguridad -aplicación telnet -enabled false |
Monitores de protección de datos
Nombre del monitor |
Umbrales |
Descripción del monitor |
Acción correctiva |
Espacio insuficiente para la copia snapshot de LUN |
(Filtro contiene_lun = Sí) Advertencia @ > 95 %…crítico @ > 100 % |
La capacidad de almacenamiento de un volumen es necesaria para almacenar los datos de aplicaciones y clientes. Una parte de ese espacio, denominada espacio reservado de la instantánea, se utiliza para almacenar las instantáneas que permiten proteger los datos de forma local. Cuantos más datos nuevos y actualizados haya almacenados en el volumen ONTAP, más capacidad se emplea en las copias Snapshot y menos capacidad de almacenamiento estarán disponibles para datos nuevos o actualizados futuros. Si la capacidad de datos de la copia Snapshot dentro de un volumen alcanza el espacio total de reserva de la copia Snapshot, es posible que el cliente no pueda almacenar nuevos datos de esta copia y reducir el nivel de protección de los datos de las unidades lógicas del volumen. La supervisión del volumen Snapshot utilizado garantiza la continuidad de los servicios de datos. |
Acciones inmediatas Si se incumplen los umbrales críticos, considere acciones inmediatas para minimizar la interrupción del servicio: 1. Configure las snapshots para utilizar espacio de datos en el volumen cuando la reserva de snapshots esté llena. 2. Elimine algunas instantáneas no deseadas antiguas para liberar espacio. Acciones a hacer pronto Si se incumplen los umbrales de advertencia, planifique tomar las siguientes acciones inmediatas: 1. Aumentar el espacio de reserva de las copias Snapshot dentro del volumen para adaptarse al crecimiento. 2. Configure las snapshots para utilizar espacio de datos en el volumen cuando la reserva de snapshots esté llena. |
Desfase de la relación con SnapMirror |
Advertencia @ > 150 %…crítica @ > 300 % |
La diferencia entre la Marca de hora de Snapshot y la hora en el sistema de destino es el desfase de la relación de SnapMirror. El valor lag_Time_Percent es la proporción del tiempo de desfase con respecto al intervalo de programación de la política de SnapMirror. Si el tiempo de desfase es igual al intervalo de programación, el valor de lag_Time_Percent será del 100 %. Si la política de SnapMirror no tiene una programación, no se calculará lag_Time_Percent. |
Supervise el estado de SnapMirror mediante el comando "snapmirror show". Compruebe el historial de transferencia de SnapMirror con el comando "snapmirror show-History" |
Monitores de volumen de cloud (CVO)
Nombre del monitor |
Gravedad de CI |
Descripción del monitor |
Acción correctiva |
Disco de CVO fuera de servicio |
INFORMACIÓN |
Este evento se produce cuando un disco se quita del servicio porque se ha marcado como un error, se está saneando o se ha introducido en el centro de mantenimiento. |
Ninguno |
Error de restauración de CVO del pool de almacenamiento |
CRÍTICO |
Este evento se produce durante la migración de un agregado como parte de una devolución de la conmutación al nodo de respaldo del almacenamiento (SFO), cuando el nodo de destino no puede llegar a los almacenes de objetos. |
Realice las siguientes acciones correctivas: Compruebe que la LIF de interconexión de clústeres está en línea y funcional mediante el comando "network interface show". Compruebe la conectividad de red con el servidor de almacenes de objetos mediante el comando"'ping" en la LIF de interconexión de clústeres del nodo de destino. Compruebe que la configuración del almacén de objetos no ha cambiado y que la información de inicio de sesión y conectividad sigue siendo precisa con el comando "Aggregate object-store config show". También puede anular el error especificando false para el parámetro "require-partner-waiting" del comando giveback. Póngase en contacto con el soporte técnico de NetApp para obtener más información o ayuda. |
Interconexión de alta disponibilidad CVO abajo |
ADVERTENCIA |
La interconexión de alta disponibilidad está inactiva. Riesgo de interrupción del servicio cuando la conmutación por error no está disponible. |
Las acciones correctivas dependen del número y el tipo de enlaces de interconexión de alta disponibilidad que admite la plataforma, así como del motivo por el que la interconexión está inactiva. Si los enlaces están inactivos: Compruebe que ambas controladoras de la pareja de alta disponibilidad estén operativas. En el caso de los enlaces conectados externamente, asegúrese de que los cables de interconexión están conectados correctamente y que los plugggggggggables de factor de forma pequeño (SFP), si corresponde, están colocados correctamente en ambas controladoras. Para los enlaces conectados internamente, desactive y vuelva a activar los vínculos, uno tras otro, utilizando las órdenes "ic link off" y "ic link on". Si los vínculos están desactivados, active los vínculos mediante el comando "ic link on". Si un interlocutor no está conectado, desactive y vuelva a activar los vínculos, uno tras otro, utilizando las órdenes "ic link off" y "ic link on". Póngase en contacto con el soporte técnico de NetApp si el problema persiste. |
Se ha excedido el número máximo de sesiones de CVO por usuario |
ADVERTENCIA |
Ha superado el número máximo de sesiones permitidas por usuario a través de una conexión TCP. Cualquier solicitud para establecer una sesión será denegada hasta que algunas sesiones sean liberadas. |
Realice las siguientes acciones correctivas: Inspeccione todas las aplicaciones que se ejecutan en el cliente y finalice las que no funcionen correctamente. Reiniciar el cliente. Compruebe si el problema está provocado por una aplicación nueva o existente: Si la aplicación es nueva, establezca un umbral más alto para el cliente mediante el comando "cifs option modify -max-abre-same-file-per-tree". En algunos casos, los clientes funcionan según lo esperado, pero requieren un umbral más alto. Debe tener privilegios avanzados para establecer un umbral superior para el cliente. Si el problema se debe a una aplicación existente, es posible que haya un problema con el cliente. Póngase en contacto con el soporte técnico de NetApp para obtener más información o ayuda. |
Conflicto de nombre NetBIOS CVO |
CRÍTICO |
El servicio de nombres NetBIOS ha recibido una respuesta negativa a una solicitud de registro de nombres, procedente de un equipo remoto. Esto suele deberse a un conflicto en el nombre NetBIOS o en un alias. Como resultado, es posible que los clientes no puedan acceder a los datos o conectarse al nodo que sirve los datos correcto en el clúster. |
Realice una de las siguientes acciones correctivas: Si hay un conflicto en el nombre NetBIOS o en un alias, realice una de las siguientes acciones: Elimine el alias NetBIOS duplicado utilizando el comando "vserver cifs delete -aliases alias alias alias -vserver Vserver". Cambie el nombre de un alias NetBIOS eliminando el nombre duplicado y agregando un alias con un nombre nuevo mediante el comando "vserver cifs create -aliases alias alias alias -vserver Vserver". Si no hay ningún alias configurado y hay un conflicto en el nombre NetBIOS, cambie el nombre del servidor CIFS utilizando los comandos "vserver cifs delete -vserver Vserver" y "vserver cifs create -cifs-Server netbiosname". NOTA: Si se elimina un servidor CIFS, es posible que no se pueda acceder a los datos. Elimine el nombre NetBIOS o cambie el nombre NetBIOS del equipo remoto. |
CVO NFSv4 Store Pool agotado |
CRÍTICO |
Se ha agotado un pool de tienda de NFSv4. |
Si el servidor NFS no responde durante más de 10 minutos después de este evento, póngase en contacto con el soporte técnico de NetApp. |
Error de nodo CVO |
ADVERTENCIA |
Este evento se emite cuando ocurre un pánico |
Póngase en contacto con el soporte al cliente de NetApp. |
Espacio de volumen raíz del nodo CVO bajo |
CRÍTICO |
El sistema ha detectado que el volumen raíz tiene un espacio peligrosamente bajo. El nodo no está completamente operativo. Es posible que los LIF de datos hayan fallado dentro del clúster debido al cual el acceso NFS y CIFS está limitado en el nodo. La capacidad administrativa se limita a los procedimientos de recuperación local para que el nodo borre espacio del volumen raíz. |
Realice las siguientes acciones correctivas: Elimine espacio en el volumen raíz eliminando copias Snapshot antiguas, eliminando archivos que ya no es necesario del directorio /mroot o ampliando la capacidad del volumen raíz. Reinicie la controladora. Póngase en contacto con el soporte técnico de NetApp para obtener más información o ayuda. |
Recursos compartidos de administración no existentes de CVO |
CRÍTICO |
VSCAN problema: Un cliente ha intentado conectarse a un recurso compartido ONTAP_ADMIN$ inexistente. |
Asegúrese de que Vscan esté habilitado para el ID de SVM mencionado. Al habilitar Vscan en una SVM, el recurso compartido ONTAP_ADMIN$ se crea automáticamente para la SVM. |
Host de almacén de objetos CVO no se puede resolver |
CRÍTICO |
El nombre de host del servidor de almacén de objetos no se puede resolver a una dirección IP. El cliente de almacén de objetos no puede comunicarse con el servidor de almacén de objetos sin resolver con una dirección IP. Como resultado, es posible que no se pueda acceder a los datos. |
Compruebe la configuración de DNS para verificar que el nombre de host esté configurado correctamente con una dirección IP. |
LIF de interconexión de clústeres del almacén de objetos CVO inactivo |
CRÍTICO |
El cliente de almacén de objetos no puede encontrar una LIF operativa para comunicarse con el servidor de almacenamiento de objetos. El nodo no permitirá el tráfico del cliente de almacenamiento de objetos hasta que la LIF de interconexión de clústeres esté operativa. Como resultado, es posible que no se pueda acceder a los datos. |
Realice las siguientes acciones correctivas: Compruebe el estado de la LIF entre clústeres mediante el comando «network interface show -role interinterconexión de clústeres». Compruebe que la LIF de interconexión de clústeres está configurada correctamente y es operativa. Si no se configura una LIF de interconexión de clústeres, añádala con el comando «network interface create -role interinterconexión de clústeres». |
Discrepancia de firma del almacén de objetos CVO |
CRÍTICO |
La firma de solicitud enviada al servidor de almacén de objetos no coincide con la firma calculada por el cliente. Como resultado, es posible que no se pueda acceder a los datos. |
Compruebe que la clave de acceso secreta está configurada correctamente. Si está configurado correctamente, póngase en contacto con el soporte técnico de NetApp para obtener ayuda. |
Se ha agotado la memoria de control CVO QoS |
CRÍTICO |
La memoria dinámica del subsistema QoS ha alcanzado su límite para el hardware de la plataforma actual. Algunas funciones de calidad de servicio pueden funcionar en una capacidad limitada. |
Elimine algunas cargas de trabajo o flujos activos para liberar memoria. Utilice el comando “Statistics show -object Workload -counter OPS” para determinar qué cargas de trabajo están activas. Las cargas de trabajo activas muestran operaciones que no son cero. A continuación, utilice el comando “Workload delete <workload_name>” varias veces para eliminar cargas de trabajo específicas. También puede utilizar el comando “stream delete -Workload <workload name> *” para eliminar las secuencias asociadas de la carga de trabajo activa. |
Tiempo de espera DE RECARGA de CVO |
CRÍTICO |
Una operación DE ARCHIVO DE READDIR ha superado el tiempo de espera permitido su ejecución en WAFL. Esto puede ser debido a directorios muy grandes o escasos. Se recomienda tomar una acción correctiva. |
Realice las siguientes acciones correctivas: Encuentre la información específica de los directorios recientes que han tenido operaciones DE ARCHIVO READDIR expiran utilizando el siguiente comando de privilegio 'iag' nodesinfierno CLI: WAFL readdir note show. Compruebe si los directorios se indican como dispersos o no: Si se indica un directorio como sparse, se recomienda copiar el contenido del directorio en un nuevo directorio para eliminar el sparseness del archivo de directorio. Si un directorio no se indica como sparse y el directorio es grande, se recomienda reducir el tamaño del archivo de directorio reduciendo el número de entradas de archivo en el directorio. |
Error en la reubicación de CVO del pool de almacenamiento |
CRÍTICO |
Este evento se produce durante la reubicación de un agregado, cuando el nodo de destino no puede llegar a los almacenes de objetos. |
Realice las siguientes acciones correctivas: Compruebe que la LIF de interconexión de clústeres está en línea y funcional mediante el comando "network interface show". Compruebe la conectividad de red con el servidor de almacenes de objetos mediante el comando"'ping" en la LIF de interconexión de clústeres del nodo de destino. Compruebe que la configuración del almacén de objetos no ha cambiado y que la información de inicio de sesión y conectividad sigue siendo precisa con el comando "Aggregate object-store config show". Como alternativa, puede anular el error utilizando el parámetro "override-destine-checks" del comando de reubicación. Póngase en contacto con el soporte técnico de NetApp para obtener más información o ayuda. |
Error de copia de sombra de CVO |
CRÍTICO |
Se produjo un error en un servicio de copia de volúmenes redundantes (VSS), una operación de servicio de backup y restauración de Microsoft Server. |
Compruebe lo siguiente utilizando la información proporcionada en el mensaje de evento: ¿Está activada la configuración de la copia oculta? ¿Se instalan las licencias correspondientes? ¿En qué recursos compartidos se realiza la operación de copia en sombra? ¿Es correcto el nombre del recurso compartido? ¿Existe la ruta de uso compartido? ¿Cuáles son los estados del conjunto de instantáneas y sus instantáneas? |
Se ha realizado correctamente la detención del equipo virtual de almacenamiento de CVO |
INFORMACIÓN |
Este mensaje se produce cuando se realiza una operación de "parada del Vserver" correctamente. |
Utilice el comando 'Vserver start' para iniciar el acceso a los datos en una máquina virtual de almacenamiento. |
CVO demasiada autenticación CIFS |
ADVERTENCIA |
Muchas negociaciones de autenticación se han producido simultáneamente. Hay 256 solicitudes nuevas de sesión incompletas de este cliente. |
Investigue por qué el cliente ha creado 256 o más solicitudes de conexión nuevas. Es posible que tenga que ponerse en contacto con el proveedor del cliente o de la aplicación para determinar el motivo del error. |
Discos sin asignar CVO |
INFORMACIÓN |
El sistema tiene discos sin asignar: Se está desperdiciando capacidad y es posible que se haya aplicado algún cambio de configuración errónea o parcial. |
Realice las siguientes acciones correctivas: Determine qué discos no están asignados mediante el comando "disk show -n". Asigne los discos a un sistema mediante el comando "Disk assign". |
Acceso de usuario no autorizado de CVO a recurso compartido de administración |
ADVERTENCIA |
Un cliente ha intentado conectarse al recurso compartido privilegiado de ONTAP_ADMIN$ aunque el usuario que ha iniciado sesión no sea un usuario permitido. |
Realice las siguientes acciones correctivas: Asegúrese de que el nombre de usuario y la dirección IP mencionados estén configurados en uno de los grupos de escáneres Vscan activos. Compruebe la configuración del grupo de análisis que está activa actualmente mediante el comando "vserver vscan scanner pool show-active". |
Virus CVO detectado |
ADVERTENCIA |
Un servidor Vscan ha informado de un error en el sistema de almacenamiento. Esto típicamente indica que se ha encontrado un virus. Sin embargo, otros errores en el servidor Vscan pueden provocar este evento. Se deniega el acceso del cliente al archivo. El servidor Vscan puede, dependiendo de su configuración, limpiar el archivo, ponerlo en cuarentena o eliminarlo. |
Compruebe el registro del servidor Vscan notificado en el evento "syslog" para ver si pudo limpiar, poner en cuarentena o eliminar correctamente el archivo infectado. Si no pudo hacerlo, es posible que un administrador del sistema tenga que eliminar manualmente el archivo. |
Volumen CVO sin conexión |
INFORMACIÓN |
Este mensaje indica que un volumen está desconectado. |
Vuelva a conectar el volumen. |
Volumen CVO restringido |
INFORMACIÓN |
Este evento indica que se ha restringido un volumen flexible. |
Vuelva a conectar el volumen. |
SnapMirror para monitores de registro de Mediador de continuidad de negocio (SMBC)
Nombre del monitor |
Gravedad |
Descripción del monitor |
Acción correctiva |
Mediador ONTAP agregado |
INFORMACIÓN |
Este mensaje se produce cuando se agrega correctamente Mediador ONTAP en un clúster. |
Ninguno |
Mediador ONTAP no accesible |
CRÍTICO |
Este mensaje se produce cuando el Mediador ONTAP se reasigna o el paquete Mediator ya no está instalado en el servidor Mediator. Como resultado, la recuperación tras fallos de SnapMirror no es posible. |
Elimine la configuración del Mediador de ONTAP actual utilizando el comando "SnapMirror mediador remove". Vuelva a configurar el acceso al Mediador de ONTAP utilizando el comando "SnapMirror mediador add". |
Mediador ONTAP eliminado |
INFORMACIÓN |
Este mensaje se produce cuando el Mediador ONTAP se quita correctamente de un clúster. |
Ninguno |
Mediador ONTAP no accesible |
ADVERTENCIA |
Este mensaje se produce cuando no se puede acceder al Mediador ONTAP en un clúster. Como resultado, la recuperación tras fallos de SnapMirror no es posible. |
Compruebe la conectividad de red con el Mediador ONTAP utilizando los comandos "ping de red" y "traceroute de red". Si el problema persiste, elimine la configuración del Mediador de ONTAP actual utilizando el comando "SnapMirror mediador remove". Vuelva a configurar el acceso al Mediador de ONTAP utilizando el comando "SnapMirror mediador add". |
Certificado de CA SMBC caducado |
CRÍTICO |
Este mensaje se produce cuando el certificado de entidad emisora de certificados (CA) de Mediador ONTAP ha caducado. Como resultado, no será posible realizar ninguna comunicación adicional con el Mediador ONTAP. |
Elimine la configuración del Mediador de ONTAP actual utilizando el comando "SnapMirror mediador remove". Actualice un nuevo certificado de CA en el servidor Mediador ONTAP. Vuelva a configurar el acceso al Mediador de ONTAP utilizando el comando "SnapMirror mediador add". |
Certificado de CA SMBC caduca |
ADVERTENCIA |
Este mensaje se produce cuando el certificado de autoridad de certificación (CA) de Mediador ONTAP debe caducar dentro de los próximos 30 días. |
Antes de que caduque este certificado, elimine la configuración del Mediador de ONTAP actual mediante el comando "SnapMirror mediador remove". Actualice un nuevo certificado de CA en el servidor Mediador ONTAP. Vuelva a configurar el acceso al Mediador de ONTAP utilizando el comando "SnapMirror mediador add". |
Certificado de cliente SMBC caducado |
CRÍTICO |
Este mensaje aparece cuando el certificado de cliente de Mediador ONTAP ha caducado. Como resultado, no será posible realizar ninguna comunicación adicional con el Mediador ONTAP. |
Elimine la configuración del Mediador de ONTAP actual utilizando el comando "SnapMirror mediador remove". Vuelva a configurar el acceso al Mediador de ONTAP utilizando el comando "SnapMirror mediador add". |
El certificado de cliente SMBC caduca |
ADVERTENCIA |
Este mensaje se produce cuando el certificado de cliente de Mediador ONTAP debe caducar en los próximos 30 días. |
Antes de que caduque este certificado, elimine la configuración del Mediador de ONTAP actual mediante el comando "SnapMirror mediador remove". Vuelva a configurar el acceso al Mediador de ONTAP utilizando el comando "SnapMirror mediador add". |
Relación SMBC fuera de sincronización Nota: UM no tiene esta |
CRÍTICO |
Este mensaje ocurre cuando una relación de SnapMirror para continuidad del negocio (SMBC) cambia el estado de "en sincronización" a "fuera de sincronización". Debido a esta protección de datos RPO=0 se interrumpirá. |
Compruebe la conexión de red entre los volúmenes de origen y de destino. Supervise el estado de la relación de SMBC mediante el comando "snapmirror show" en el destino y con el comando "snapmirror list-destinations" en el origen. La sincronización automática intentará volver a establecer la relación con el estado "In-SYNC". Si la resincronización da error, compruebe que todos los nodos del clúster están en quórum y que están en buen estado. |
Certificado de servidor SMBC caducado |
CRÍTICO |
Este mensaje se produce cuando el certificado de servidor de Mediador ONTAP ha caducado. Como resultado, no será posible realizar ninguna comunicación adicional con el Mediador ONTAP. |
Elimine la configuración del Mediador de ONTAP actual utilizando el comando "SnapMirror mediador remove". Actualice un nuevo certificado de servidor en el servidor Mediador ONTAP. Vuelva a configurar el acceso al Mediador de ONTAP utilizando el comando "SnapMirror mediador add". |
Certificado de servidor SMBC que caduca |
ADVERTENCIA |
Este mensaje se produce cuando el certificado de servidor de Mediador ONTAP debe caducar en los próximos 30 días. |
Antes de que caduque este certificado, elimine la configuración del Mediador de ONTAP actual mediante el comando "SnapMirror mediador remove". Actualice un nuevo certificado de servidor en el servidor Mediador ONTAP. Vuelva a configurar el acceso al Mediador de ONTAP utilizando el comando "SnapMirror mediador add". |
Monitores de sistema adicionales de alimentación, latido y varios
Nombre del monitor | Gravedad | Descripción del monitor | Acción correctiva |
---|---|---|---|
Se detectó el suministro de alimentación de la bandeja de discos |
INFORMATIVO |
Este mensaje se produce cuando se añade una unidad de suministro de alimentación a la bandeja de discos. |
NINGUNO |
Se quitó el suministro de alimentación de las bandejas de discos |
INFORMATIVO |
Este mensaje se produce cuando se quita una unidad de suministro de alimentación de la bandeja de discos. |
NINGUNO |
Conmutación de sitios automática no planificada de MetroCluster deshabilitada |
CRÍTICO |
Este mensaje ocurre cuando se deshabilita la funcionalidad de conmutación automática sin planificar. |
Ejecute el comando "MetroCluster modify -node-name <nodename> -automatic-switchover-onfailure true" para cada nodo del clúster con el fin de habilitar la conmutación automática. |
Puente de almacenamiento MetroCluster inaccesible |
CRÍTICO |
No se puede acceder al puente de almacenamiento a través de la red de gestión |
1) Si SNMP supervisa el puente, compruebe que la LIF de gestión de nodos está activa mediante el comando "network interface show". Compruebe que el puente está vivo utilizando el comando "ping de red". 2) Si el puente se supervisa en banda, compruebe el cableado de la tela al puente y, a continuación, compruebe que el puente está encendido. |
Temperatura del puente MetroCluster anormal - por debajo de crítico |
CRÍTICO |
El sensor del puente Fibre Channel informa de una temperatura inferior al umbral crítico. |
1) Compruebe el estado de funcionamiento de los ventiladores en el puente de almacenamiento. 2) Verifique que el puente funciona en condiciones de temperatura recomendadas. |
Temperatura del puente MetroCluster anormal - por encima de crítico |
CRÍTICO |
El sensor del puente Fibre Channel informa de una temperatura por encima del umbral crítico. |
1) controlar el estado de funcionamiento del captador de temperatura del chasis en el puente de almacenamiento con el mando "Storage bridge show -refrigeration". 2) Verifique que el puente de almacenamiento funcione bajo las condiciones de temperatura recomendadas. |
Agregado de MetroCluster dejado atrás |
ADVERTENCIA |
El agregado se dejó atrás durante la conmutación de regreso. |
1) Compruebe el estado agregado con el comando "aggr show". 2) Si el agregado está en línea, regrese a su propietario original usando el comando «regreso de MetroCluster». |
Todos los enlaces entre partners MetroCluster abajo |
CRÍTICO |
Los adaptadores de interconexión RDMA y las LIF de interconexión de clústeres tienen conexiones rotas con el clúster de una relación entre iguales o el clúster de una relación entre iguales está inactivo. |
1) Asegúrese de que las LIF de interconexión de clústeres estén en funcionamiento. Repare las LIF de interconexión de clústeres si están inactivos. 2) verifique que el clúster con conexión entre iguales esté activo y en ejecución con el comando "cluster peer ping". Consulte la guía de recuperación de desastres de MetroCluster si el clúster con una relación entre iguales no está disponible. 3) en el caso de MetroCluster de estructura, verifique que los ISL de estructura back-end estén funcionando. Repare los ISL de back-end de la estructura si han caído. 4) en el caso de configuraciones MetroCluster sin estructura, verifique que el cableado sea correcto entre los adaptadores de interconexión RDMA. Vuelva a configurar el cableado si los enlaces están inactivos. |
No se puede acceder a los partners MetroCluster a través de la red de paridad |
CRÍTICO |
La conectividad al clúster del mismo nivel se rompe. |
1) Asegúrese de que el puerto está conectado a la red/switch correctos. 2) Asegúrese de que la LIF de interconexión de clústeres esté conectada con el clúster con una relación entre iguales. 3) Asegúrese de que el clúster con conexión entre iguales esté activo y en ejecución con el comando "cluster peer ping". Consulte la guía de recuperación de desastres de MetroCluster si el clúster con una relación entre iguales no está disponible. |
MetroCluster entre desconecte todos los enlaces |
CRÍTICO |
Todos los enlaces Inter-Switch (ISL) del switch de almacenamiento están inactivos. |
1) repare los ISL de estructura de back-end en el switch de almacenamiento. 2) Asegúrese de que el switch de partner esté activo y que sus ISL estén operativos. 3) asegurarse de que el equipo intermedio, como los dispositivos xWDM, esté operativo. |
Enlace inactivo del nodo MetroCluster a la pila de almacenamiento SAS |
ADVERTENCIA |
El adaptador SAS o su cable conectado pueden tener un fallo. |
1. Compruebe que el adaptador de SAS está en línea y en funcionamiento. 2. Compruebe que la conexión del cable físico está segura y en funcionamiento, y sustituya el cable si es necesario. 3. Si el adaptador SAS está conectado a bandejas de discos, asegúrese de que los IOM y los discos estén correctamente colocados. |
Vínculos de iniciador de MetroClusterFC hacia abajo |
CRÍTICO |
El adaptador del iniciador de FC tiene un fallo. |
1. Asegúrese de que el enlace del iniciador de FC no se haya manipulado. 2. Compruebe el estado operativo del adaptador del iniciador de FC con el comando «system node run -node local -command storage show adapter». |
Enlace de interconexión de FC-VI inactivo |
CRÍTICO |
El enlace físico del puerto FC-VI está sin conexión. |
1. Asegúrese de que el enlace FC-VI no se ha manipulado. 2. Compruebe que el estado físico del adaptador de FC-VI es Activo mediante el comando MetroCluster interconnect adapter show. 3. Si la configuración incluye switches estructurales, asegúrese de que estén correctamente cableados y configurados. |
Discos de repuesto de MetroCluster dejados atrás |
ADVERTENCIA |
El disco de repuesto se dejó atrás durante la conmutación de regreso. |
Si el disco no ha dado error, devuélelo a su propietario original mediante el comando «regreso de MetroCluster». |
Puerto del puente de almacenamiento MetroCluster inactivo |
CRÍTICO |
El puerto del puente de almacenamiento está desconectado. |
1) Compruebe el estado operativo de los puertos del puente de almacenamiento con el comando "Storage bridge show -ports". 2) Verifique la conectividad lógica y física al puerto. |
Error de los ventiladores del switch de almacenamiento de MetroCluster |
CRÍTICO |
Error del ventilador del switch de almacenamiento. |
1) Asegúrese de que los ventiladores del switch funcionan correctamente utilizando el comando "Storage switch show -refrigeration". 2) asegurarse de que las FRU de ventilador están correctamente insertadas y en funcionamiento. |
No se puede acceder al switch de almacenamiento de MetroCluster |
CRÍTICO |
No se puede acceder al switch de almacenamiento a través de la red de gestión. |
1) Asegúrese de que la LIF de gestión de nodos esté activa con el comando "network interface show". 2) Asegúrese de que el conmutador está activo utilizando el comando "ping de red". 3) Asegúrese de que se puede acceder al conmutador a través de SNMP comprobando sus ajustes SNMP después de iniciar sesión en el conmutador. |
Error en las fuentes de alimentación del switch MetroCluster |
CRÍTICO |
Una unidad de suministro de alimentación del interruptor de almacenamiento no está operativa. |
1) Compruebe los detalles del error con el comando "Storage switch show -error -switch-name <swtich name>". 2) identifique la unidad de suministro de alimentación defectuosa mediante el comando "Storage Switch show -power -switch-name <switch name>". 3) Asegúrese de que la fuente de alimentación está correctamente insertada en el chasis del interruptor de almacenamiento y completamente operativa. |
Error en los sensores de temperatura del interruptor MetroCluster |
CRÍTICO |
Error en el sensor del switch Fibre Channel. |
1) controlar el estado de funcionamiento de los captadores de temperatura en el contactor de almacenamiento utilizando el mando "Storage switch show -refrigeration". 2) Verifique que el interruptor funciona en condiciones de temperatura recomendadas. |
Temperatura del interruptor MetroCluster anormal |
CRÍTICO |
El sensor de temperatura del interruptor Fibre Channel ha informado de una temperatura anormal. |
1) controlar el estado de funcionamiento de los captadores de temperatura en el contactor de almacenamiento utilizando el mando "Storage switch show -refrigeration". 2) Verifique que el interruptor funciona en condiciones de temperatura recomendadas. |
Pérdida de latido del procesador de servicio |
INFORMATIVO |
Este mensaje ocurre cuando ONTAP no recibe una señal de "latido" esperado del Service Processor (SP). Junto con este mensaje, los archivos de registro del SP se enviarán a la depuración. ONTAP restablecerá el SP para intentar restaurar la comunicación. El SP no estará disponible durante hasta dos minutos mientras se reinicia. |
Póngase en contacto con el soporte técnico de NetApp. |
Latido del procesador de servicio detenido |
ADVERTENCIA |
Este mensaje ocurre cuando ONTAP ya no recibe latidos del corazón del Service Processor (SP). Dependiendo del diseño del hardware, el sistema puede seguir proporcionando datos o determinar que se apaga para evitar la pérdida de datos o daños en el hardware. El sistema continúa sirviendo datos, pero como es posible que el SP no funcione, el sistema no puede enviar notificaciones de dispositivos inactivos, errores de arranque ni errores DE autoprueba de encendido (POST) de firmware abierto. Si su sistema está configurado para hacerlo, genera y transmite un mensaje de AutoSupport (o "llamada a casa") al soporte técnico de NetApp y a los destinos configurados. La correcta entrega de un mensaje de AutoSupport mejora considerablemente la resolución y la determinación de los problemas. |
Si el sistema se ha apagado, intente realizar un ciclo de apagado y encendido: Tire de la controladora para sacarla del chasis, vuelva a empujarla hacia atrás y luego encienda el sistema. Póngase en contacto con el soporte técnico de NetApp si el problema continúa después del ciclo de encendido y apagado o con cualquier otra condición que pueda garantizar la atención. |