Skip to main content
Data Infrastructure Insights
Se proporciona el idioma español mediante traducción automática para su comodidad. En caso de alguna inconsistencia, el inglés precede al español.

Monitores del sistema

Colaboradores netapp-alavoie

Data Infrastructure Insights incluye una serie de monitores definidos por el sistema tanto para métricas como para registros. Los monitores del sistema disponibles dependen de los recopiladores de datos presentes en su inquilino. Debido a eso, los monitores disponibles en Data Infrastructure Insights pueden cambiar a medida que se agregan recopiladores de datos o se modifican sus configuraciones.

Nota Muchos monitores del sistema están en estado Pausado de forma predeterminada. Puede habilitar un monitor del sistema seleccionando la opción Reanudar para el monitor. Asegúrese de que Recopilación avanzada de datos de contador y Habilitar recopilación de registros de ONTAP EMS estén habilitados en el Recopilador de datos. Estas opciones se pueden encontrar en el Recopilador de datos de ONTAP en Configuración avanzada:Habilitación de la recopilación avanzada de contadores y registros EMS para ONTAP

índice:[]

Descripciones de los monitores

Los monitores definidos por el sistema se componen de métricas y condiciones predefinidas, así como descripciones predeterminadas y acciones correctivas, que no se pueden modificar. Puede modificar la lista de destinatarios de notificaciones para los monitores definidos por el sistema. Para ver las métricas, las condiciones, la descripción y las acciones correctivas, o para modificar la lista de destinatarios, abra un grupo de monitores definido por el sistema y haga clic en el nombre del monitor en la lista.

Los grupos de monitores definidos por el sistema no se pueden modificar ni eliminar.

Los siguientes monitores definidos por el sistema están disponibles en los grupos indicados.

  • * Infraestructura ONTAP * incluye monitores para problemas relacionados con la infraestructura en los clústeres ONTAP .

  • * Ejemplos de carga de trabajo de ONTAP * incluye monitores para problemas relacionados con la carga de trabajo.

  • Los monitores de ambos grupos tienen como valor predeterminado el estado Pausado.

A continuación se muestran los monitores del sistema incluidos actualmente con Data Infrastructure Insights:

Monitores métricos

Nombre del monitor

Gravedad

Descripción del monitor

Acción correctiva

Alta utilización del puerto de canal de fibra

CRÍTICO

Los puertos de protocolo de canal de fibra se utilizan para recibir y transferir el tráfico SAN entre el sistema host del cliente y los LUN de ONTAP . Si la utilización del puerto es alta, se convertirá en un cuello de botella y, en última instancia, afectará el rendimiento de las cargas de trabajo sensibles del protocolo de canal de fibra. Una alerta de advertencia indica que se deben tomar medidas planificadas para equilibrar el tráfico de la red. Una alerta crítica indica que la interrupción del servicio es inminente y se deben tomar medidas de emergencia para equilibrar el tráfico de la red para garantizar la continuidad del servicio.

Si se supera el umbral crítico, considere acciones inmediatas para minimizar la interrupción del servicio: 1. Mueva las cargas de trabajo a otro puerto FCP con menor utilización. 2. Limite el tráfico de ciertos LUN solo al trabajo esencial, ya sea a través de políticas de QoS en ONTAP o la configuración del lado del host para aligerar la utilización de los puertos FCP. Si se supera el umbral de advertencia, planifique tomar las siguientes medidas: 1. Configure más puertos FCP para manejar el tráfico de datos de modo que la utilización del puerto se distribuya entre más puertos. 2. Mueva las cargas de trabajo a otro puerto FCP con menor utilización. 3. Limite el tráfico de ciertos LUN solo al trabajo esencial, ya sea a través de políticas de QoS en ONTAP o la configuración del lado del host para aligerar la utilización de los puertos FCP.

Latencia LUN alta

CRÍTICO

Los LUN son objetos que sirven al tráfico de E/S a menudo impulsado por aplicaciones sensibles al rendimiento, como las bases de datos. Las latencias altas de LUN significan que las aplicaciones mismas podrían sufrir y ser incapaces de realizar sus tareas…​ Una alerta de advertencia indica que se deben tomar medidas planificadas para mover el LUN al nodo o agregado apropiado…​ Una alerta crítica indica que la interrupción del servicio es inminente y se deben tomar medidas de emergencia para garantizar la continuidad del servicio. Las siguientes son latencias esperadas según el tipo de medio: SSD hasta 1-2 milisegundos; SAS hasta 8-10 milisegundos y SATA HDD hasta 17-20 milisegundos.

Si se supera el umbral crítico, considere las siguientes acciones para minimizar la interrupción del servicio: si el LUN o su volumen tiene una política de QoS asociada, evalúe sus límites de umbral y valide si están provocando que la carga de trabajo del LUN se limite. Si se supera el umbral de advertencia, planifique tomar las siguientes medidas: 1. Si el agregado también experimenta una alta utilización, mueva el LUN a otro agregado. 2. Si el nodo también experimenta una alta utilización, mueva el volumen a otro nodo o reduzca la carga de trabajo total del nodo. 3. Si el LUN o su volumen tiene una política de QoS asociada, evalúe sus límites de umbral y valide si están provocando que la carga de trabajo del LUN se limite.

Alta utilización del puerto de red

CRÍTICO

Los puertos de red se utilizan para recibir y transferir el tráfico de los protocolos NFS, CIFS e iSCSI entre los sistemas host del cliente y los volúmenes ONTAP . Si la utilización del puerto es alta, se convierte en un cuello de botella y, en última instancia, afectará el rendimiento de las cargas de trabajo NFS, CIFS e iSCSI. Una alerta de advertencia indica que se deben tomar medidas planificadas para equilibrar el tráfico de la red. Una alerta crítica indica que la interrupción del servicio es inminente y se deben tomar medidas de emergencia para equilibrar el tráfico de la red para garantizar la continuidad del servicio.

Si se supera el umbral crítico, considere las siguientes acciones inmediatas para minimizar la interrupción del servicio: 1. Limite el tráfico de ciertos volúmenes solo al trabajo esencial, ya sea a través de políticas de QoS en ONTAP o análisis del lado del host para disminuir la utilización de los puertos de red. 2. Configure uno o más volúmenes para utilizar otro puerto de red menos utilizado. Si se supera el umbral de advertencia, considere las siguientes acciones inmediatas: 1. Configure más puertos de red para manejar el tráfico de datos de modo que la utilización del puerto se distribuya entre más puertos. 2. Configure uno o más volúmenes para utilizar otro puerto de red con menor utilización.

Alta latencia del espacio de nombres NVMe

CRÍTICO

Los espacios de nombres NVMe son objetos que sirven al tráfico de E/S impulsado por aplicaciones sensibles al rendimiento, como las bases de datos. La alta latencia de los espacios de nombres NVMe significa que las propias aplicaciones pueden verse afectadas y ser incapaces de realizar sus tareas. Una alerta de advertencia indica que se deben tomar medidas planificadas para mover el LUN al nodo o agregado apropiado. Una alerta crítica indica que la interrupción del servicio es inminente y se deben tomar medidas de emergencia para garantizar la continuidad del servicio.

Si se supera el umbral crítico, considere acciones inmediatas para minimizar la interrupción del servicio: si el espacio de nombres NVMe o su volumen tienen una política de QoS asignada, evalúe sus umbrales límite en caso de que estén causando que la carga de trabajo del espacio de nombres NVMe se limite. Si se supera el umbral de advertencia, considere tomar las siguientes acciones: 1. Si el agregado también experimenta una alta utilización, mueva el LUN a otro agregado. 2. Si el nodo también experimenta una alta utilización, mueva el volumen a otro nodo o reduzca la carga de trabajo total del nodo. 3. Si el espacio de nombres NVMe o su volumen tienen una política de QoS asignada, evalúe sus umbrales de límite en caso de que estén provocando que la carga de trabajo del espacio de nombres NVMe se limite.

Capacidad completa de QTree

CRÍTICO

Un qtree es un sistema de archivos definido lógicamente que puede existir como un subdirectorio especial del directorio raíz dentro de un volumen. Cada qtree tiene una cuota de espacio predeterminada o una cuota definida por una política de cuotas para limitar la cantidad de datos almacenados en el árbol dentro de la capacidad del volumen…​ Una alerta de advertencia indica que se deben tomar medidas planificadas para aumentar el espacio…​ Una alerta crítica indica que la interrupción del servicio es inminente y se deben tomar medidas de emergencia para liberar espacio y garantizar la continuidad del servicio.

Si se supera el umbral crítico, considere acciones inmediatas para minimizar la interrupción del servicio: 1. Aumente el espacio del qtree para acomodar el crecimiento. 2. Elimina datos no deseados para liberar espacio. Si se supera el umbral de advertencia, planifique tomar las siguientes acciones inmediatas: 1. Aumente el espacio del qtree para acomodar el crecimiento. 2. Elimina datos no deseados para liberar espacio.

Límite estricto de capacidad de QTree

CRÍTICO

Un qtree es un sistema de archivos definido lógicamente que puede existir como un subdirectorio especial del directorio raíz dentro de un volumen. Cada qtree tiene una cuota de espacio medida en KBytes que se utiliza para almacenar datos con el fin de controlar el crecimiento de los datos del usuario en volumen y no exceder su capacidad total. Un qtree mantiene una cuota de capacidad de almacenamiento suave que proporciona alerta al usuario de forma proactiva antes de alcanzar el límite de cuota de capacidad total en el qtree y no poder almacenar más datos. Monitorear la cantidad de datos almacenados dentro de un qtree garantiza que el usuario reciba un servicio de datos ininterrumpido.

Si se supera el umbral crítico, considere las siguientes acciones inmediatas para minimizar la interrupción del servicio: 1. Aumentar la cuota de espacio de los árboles para dar cabida al crecimiento 2. Indica al usuario que elimine datos no deseados en el árbol para liberar espacio

Límite flexible de capacidad de QTree

ADVERTENCIA

Un qtree es un sistema de archivos definido lógicamente que puede existir como un subdirectorio especial del directorio raíz dentro de un volumen. Cada qtree tiene una cuota de espacio medida en KBytes que puede utilizar para almacenar datos con el fin de controlar el crecimiento de los datos del usuario en volumen y no exceder su capacidad total. Un qtree mantiene una cuota de capacidad de almacenamiento suave que proporciona alerta al usuario de forma proactiva antes de alcanzar el límite de cuota de capacidad total en el qtree y no poder almacenar más datos. Monitorear la cantidad de datos almacenados dentro de un qtree garantiza que el usuario reciba un servicio de datos ininterrumpido.

Si se supera el umbral de advertencia, considere las siguientes acciones inmediatas: 1. Aumentar la cuota de espacio de los árboles para dar cabida al crecimiento. 2. Indique al usuario que elimine los datos no deseados en el árbol para liberar espacio.

Límite estricto de archivos QTree

CRÍTICO

Un qtree es un sistema de archivos definido lógicamente que puede existir como un subdirectorio especial del directorio raíz dentro de un volumen. Cada qtree tiene una cuota de la cantidad de archivos que puede contener para mantener un tamaño de sistema de archivos manejable dentro del volumen…​ Un qtree mantiene una cuota estricta de cantidad de archivos más allá de la cual se niegan los nuevos archivos en el árbol. Monitorear la cantidad de archivos dentro de un qtree garantiza que el usuario reciba un servicio de datos ininterrumpido.

Si se supera el umbral crítico, considere acciones inmediatas para minimizar la interrupción del servicio: 1. Aumente la cuota de recuento de archivos para el qtree. 2. Eliminar archivos no deseados del sistema de archivos qtree.

Límite suave de archivos QTree

ADVERTENCIA

Un qtree es un sistema de archivos definido lógicamente que puede existir como un subdirectorio especial del directorio raíz dentro de un volumen. Cada qtree tiene una cuota de la cantidad de archivos que puede contener para mantener un tamaño de sistema de archivos manejable dentro del volumen…​ Un qtree mantiene una cuota de número de archivos flexible para proporcionar una alerta al usuario de forma proactiva antes de alcanzar el límite de archivos en el qtree y no poder almacenar archivos adicionales. Monitorear la cantidad de archivos dentro de un qtree garantiza que el usuario reciba un servicio de datos ininterrumpido.

Si se supera el umbral de advertencia, planifique tomar las siguientes acciones inmediatas: 1. Aumente la cuota de recuento de archivos para el qtree. 2. Eliminar archivos no deseados del sistema de archivos qtree.

Reserva de instantáneas Espacio lleno

CRÍTICO

La capacidad de almacenamiento de un volumen es necesaria para almacenar datos de aplicaciones y clientes. Una parte de ese espacio, denominada espacio reservado para instantáneas, se utiliza para almacenar instantáneas que permiten proteger los datos localmente. Cuantos más datos nuevos y actualizados se almacenen en el volumen ONTAP , más capacidad de instantáneas se utilizará y menos capacidad de almacenamiento de instantáneas estará disponible para futuros datos nuevos o actualizados. Si la capacidad de datos de instantáneas dentro de un volumen alcanza el espacio total de reserva de instantáneas, esto podría provocar que el cliente no pueda almacenar nuevos datos de instantáneas y que se reduzca el nivel de protección de los datos en el volumen. La supervisión del volumen utilizado de la capacidad de instantáneas garantiza la continuidad de los servicios de datos.

Si se supera el umbral crítico, considere acciones inmediatas para minimizar la interrupción del servicio: 1. Configure instantáneas para utilizar el espacio de datos en el volumen cuando la reserva de instantáneas esté llena. 2. Elimina algunas instantáneas antiguas no deseadas para liberar espacio. Si se supera el umbral de advertencia, planifique tomar las siguientes acciones inmediatas: 1. Aumente el espacio de reserva de instantáneas dentro del volumen para adaptarse al crecimiento. 2. Configure instantáneas para utilizar el espacio de datos en el volumen cuando la reserva de instantáneas esté llena.

Límite de capacidad de almacenamiento

CRÍTICO

Cuando un grupo de almacenamiento (agregado) se llena, las operaciones de E/S se ralentizan y finalmente se detienen, lo que da como resultado un incidente de interrupción del almacenamiento. Una alerta de advertencia indica que se deben tomar medidas planificadas pronto para restaurar el espacio libre mínimo. Una alerta crítica indica que la interrupción del servicio es inminente y se deben tomar medidas de emergencia para liberar espacio y garantizar la continuidad del servicio.

Si se supera el umbral crítico, considere inmediatamente las siguientes acciones para minimizar la interrupción del servicio: 1. Eliminar instantáneas en volúmenes no críticos. 2. Eliminar volúmenes o LUN que sean cargas de trabajo no esenciales y que puedan restaurarse desde copias fuera del almacenamiento. Si se supera el umbral de advertencia, planifique las siguientes acciones inmediatas: 1. Mover uno o más volúmenes a una ubicación de almacenamiento diferente. 2. Añade más capacidad de almacenamiento. 3. Cambie la configuración de eficiencia del almacenamiento o almacene los datos inactivos en la nube.

Límite de rendimiento del almacenamiento

CRÍTICO

Cuando un sistema de almacenamiento alcanza su límite de rendimiento, las operaciones se ralentizan, la latencia aumenta y las cargas de trabajo y las aplicaciones pueden empezar a fallar. ONTAP evalúa la utilización del grupo de almacenamiento para las cargas de trabajo y estima qué porcentaje del rendimiento se ha consumido. Una alerta de advertencia indica que se deben tomar medidas planificadas para reducir la carga del grupo de almacenamiento a fin de garantizar que haya suficiente rendimiento del grupo de almacenamiento para atender los picos de carga de trabajo. Una alerta crítica indica que es inminente una caída del rendimiento y se deben tomar medidas de emergencia para reducir la carga del grupo de almacenamiento a fin de garantizar la continuidad del servicio.

Si se supera el umbral crítico, considere las siguientes acciones inmediatas para minimizar la interrupción del servicio: 1. Suspender tareas programadas como instantáneas o replicación de SnapMirror . 2. Cargas de trabajo inactivas no esenciales…​ Si se supera el umbral de advertencia, tome las siguientes medidas inmediatamente: 1. Mover una o más cargas de trabajo a una ubicación de almacenamiento diferente. 2. Agregue más nodos de almacenamiento (AFF) o estantes de discos (FAS) y redistribuya las cargas de trabajo 3. Cambiar las características de la carga de trabajo (tamaño del bloque, almacenamiento en caché de la aplicación).

Límite máximo de capacidad de cuota de usuario

CRÍTICO

ONTAP reconoce a los usuarios de sistemas Unix o Windows que tienen derechos para acceder a volúmenes, archivos o directorios dentro de un volumen. Como resultado, ONTAP permite a los clientes configurar la capacidad de almacenamiento para sus usuarios o grupos de usuarios de sus sistemas Linux o Windows. La cuota de política de usuario o grupo limita la cantidad de espacio que el usuario puede utilizar para sus propios datos…​ Un límite estricto de esta cuota permite notificar al usuario cuando la cantidad de capacidad utilizada dentro del volumen está justo antes de alcanzar la cuota de capacidad total. Monitorear la cantidad de datos almacenados dentro de una cuota de usuario o grupo garantiza que el usuario reciba un servicio de datos ininterrumpido.

Si se supera el umbral crítico, considere las siguientes acciones inmediatas para minimizar la interrupción del servicio: 1. Aumente el espacio de la cuota de usuario o grupo para adaptarse al crecimiento. 2. Indique al usuario o grupo que elimine los datos no deseados para liberar espacio.

Límite flexible de capacidad de cuota de usuario

ADVERTENCIA

ONTAP reconoce a los usuarios de sistemas Unix o Windows que tienen derechos para acceder a volúmenes, archivos o directorios dentro de un volumen. Como resultado, ONTAP permite a los clientes configurar la capacidad de almacenamiento para sus usuarios o grupos de usuarios de sus sistemas Linux o Windows. La cuota de política de usuario o grupo limita la cantidad de espacio que el usuario puede utilizar para sus propios datos…​ Un límite flexible de esta cuota permite recibir una notificación proactiva al usuario cuando la cantidad de capacidad utilizada dentro del volumen alcanza la cuota de capacidad total. Monitorear la cantidad de datos almacenados dentro de una cuota de usuario o grupo garantiza que el usuario reciba un servicio de datos ininterrumpido.

Si se supera el umbral de advertencia, planifique tomar las siguientes acciones inmediatas: 1. Aumente el espacio de la cuota de usuario o grupo para adaptarse al crecimiento. 2. Elimina datos no deseados para liberar espacio.

Capacidad de volumen completa

CRÍTICO

La capacidad de almacenamiento de un volumen es necesaria para almacenar datos de aplicaciones y clientes. Cuantos más datos se almacenen en el volumen ONTAP , menor será la disponibilidad de almacenamiento para datos futuros. Si la capacidad de almacenamiento de datos dentro de un volumen alcanza la capacidad de almacenamiento total, es posible que el cliente no pueda almacenar datos debido a la falta de capacidad de almacenamiento. La monitorización del volumen de capacidad de almacenamiento utilizada garantiza la continuidad de los servicios de datos.

Si se supera el umbral crítico, considere las siguientes acciones inmediatas para minimizar la interrupción del servicio: 1. Aumentar el espacio del volumen para acomodar el crecimiento. 2. Elimina datos no deseados para liberar espacio. 3. Si las copias de instantáneas ocupan más espacio que la reserva de instantáneas, elimine las instantáneas antiguas o habilite la eliminación automática de instantáneas de volumen. Si se supera el umbral de advertencia, planifique tomar las siguientes acciones inmediatas: 1. Aumentar el espacio del volumen para acomodar el crecimiento 2. Si las copias de instantáneas ocupan más espacio que la reserva de instantáneas, elimine las instantáneas antiguas o habilite la eliminación automática de instantáneas de volumen.

Límite de inodos de volumen

CRÍTICO

Los volúmenes que almacenan archivos utilizan nodos de índice (inodos) para almacenar metadatos de archivos. Cuando un volumen agota su asignación de inodos, no se le pueden agregar más archivos. Una alerta de advertencia indica que se deben tomar medidas planificadas para aumentar la cantidad de inodos disponibles. Una alerta crítica indica que el agotamiento del límite de archivos es inminente y se deben tomar medidas de emergencia para liberar inodos para garantizar la continuidad del servicio.

Si se supera el umbral crítico, considere las siguientes acciones inmediatas para minimizar la interrupción del servicio: 1. Aumente el valor de los inodos para el volumen. Si el valor de los inodos ya está en el valor máximo, entonces divida el volumen en dos o más volúmenes porque el sistema de archivos ha crecido más allá del tamaño máximo. 2. Utilice FlexGroup ya que ayuda a acomodar sistemas de archivos grandes. Si se supera el umbral de advertencia, planifique tomar las siguientes acciones inmediatas: 1. Aumente el valor de los inodos para el volumen. Si el valor de los inodos ya está en el máximo, entonces divida el volumen en dos o más volúmenes porque el sistema de archivos ha crecido más allá del tamaño máximo. 2. Utilice FlexGroup , ya que ayuda a acomodar sistemas de archivos grandes

Latencia de volumen alta

CRÍTICO

Los volúmenes son objetos que sirven al tráfico de E/S a menudo impulsado por aplicaciones sensibles al rendimiento, incluidas aplicaciones devOps, directorios de inicio y bases de datos. Las latencias de alto volumen significan que las propias aplicaciones pueden sufrir y ser incapaces de realizar sus tareas. Monitorear las latencias del volumen es fundamental para mantener un rendimiento constante de la aplicación. Las siguientes son latencias esperadas según el tipo de medio: SSD hasta 1-2 milisegundos; SAS hasta 8-10 milisegundos y SATA HDD hasta 17-20 milisegundos.

Si se supera el umbral crítico, considere las siguientes acciones inmediatas para minimizar la interrupción del servicio: si el volumen tiene una política de QoS asignada, evalúe sus umbrales límite en caso de que estén provocando que la carga de trabajo del volumen se limite. Si se supera el umbral de advertencia, considere las siguientes acciones inmediatas: 1. Si el agregado también experimenta una alta utilización, mueva el volumen a otro agregado. 2. Si el volumen tiene una política de QoS asignada, evalúe sus umbrales de límite en caso de que estén provocando que la carga de trabajo del volumen se limite. 3. Si el nodo también experimenta una alta utilización, mueva el volumen a otro nodo o reduzca la carga de trabajo total del nodo.

Nombre del monitor

Gravedad

Descripción del monitor

Acción correctiva

Nodo de alta latencia

ADVERTENCIA / CRÍTICO

La latencia del nodo ha alcanzado niveles que podrían afectar el rendimiento de las aplicaciones en el nodo. Una latencia de nodo más baja garantiza un rendimiento constante de las aplicaciones. Las latencias esperadas según el tipo de medio son: SSD hasta 1-2 milisegundos; SAS hasta 8-10 milisegundos y SATA HDD hasta 17-20 milisegundos.

Si se supera el umbral crítico, se deben tomar medidas inmediatas para minimizar la interrupción del servicio: 1. Suspender tareas programadas, instantáneas o replicación de SnapMirror 2. Reducir la demanda de cargas de trabajo de menor prioridad mediante límites de QoS 3. Inactivar cargas de trabajo no esenciales Considere acciones inmediatas cuando se supere el umbral de advertencia: 1. Mover una o más cargas de trabajo a una ubicación de almacenamiento diferente 2. Reducir la demanda de cargas de trabajo de menor prioridad mediante límites de QoS 3. Agregue más nodos de almacenamiento (AFF) o estantes de discos (FAS) y redistribuya las cargas de trabajo 4. Cambiar las características de la carga de trabajo (tamaño del bloque, almacenamiento en caché de la aplicación, etc.)

Límite de rendimiento del nodo

ADVERTENCIA / CRÍTICO

La utilización del rendimiento del nodo ha alcanzado niveles que podrían afectar el rendimiento de los IO y las aplicaciones compatibles con el nodo. La utilización de bajo rendimiento del nodo garantiza un rendimiento constante de las aplicaciones.

Se deben tomar acciones inmediatas para minimizar la interrupción del servicio si se supera el umbral crítico: 1. Suspender tareas programadas, instantáneas o replicación de SnapMirror 2. Reducir la demanda de cargas de trabajo de menor prioridad mediante límites de QoS 3. Inactivar cargas de trabajo no esenciales Considere las siguientes acciones si se supera el umbral de advertencia: 1. Mover una o más cargas de trabajo a una ubicación de almacenamiento diferente 2. Reducir la demanda de cargas de trabajo de menor prioridad mediante límites de QoS 3. Agregue más nodos de almacenamiento (AFF) o estantes de discos (FAS) y redistribuya las cargas de trabajo 4. Cambiar las características de la carga de trabajo (tamaño del bloque, almacenamiento en caché de la aplicación, etc.)

Máquina virtual de almacenamiento de alta latencia

ADVERTENCIA / CRÍTICO

La latencia de la máquina virtual de almacenamiento (SVM) ha alcanzado niveles que podrían afectar el rendimiento de las aplicaciones en la máquina virtual de almacenamiento. Una menor latencia de almacenamiento de la máquina virtual garantiza un rendimiento constante de las aplicaciones. Las latencias esperadas según el tipo de medio son: SSD hasta 1-2 milisegundos; SAS hasta 8-10 milisegundos y SATA HDD hasta 17-20 milisegundos.

Si se supera el umbral crítico, evalúe de inmediato los límites del umbral para los volúmenes de la máquina virtual de almacenamiento con una política de QoS asignada, para verificar si están provocando que las cargas de trabajo del volumen se limiten. Considere las siguientes acciones inmediatas cuando se supera el umbral de advertencia: 1. Si el agregado también experimenta una alta utilización, mueva algunos volúmenes de la máquina virtual de almacenamiento a otro agregado. 2. Para los volúmenes de la máquina virtual de almacenamiento con una política de QoS asignada, evalúe los límites de umbral si están provocando que las cargas de trabajo del volumen se limiten 3. Si el nodo experimenta una alta utilización, mueva algunos volúmenes de la máquina virtual de almacenamiento a otro nodo o reduzca la carga de trabajo total del nodo.

Límite estricto de archivos de cuota de usuario

CRÍTICO

La cantidad de archivos creados dentro del volumen ha alcanzado el límite crítico y no se pueden crear archivos adicionales. El monitoreo de la cantidad de archivos almacenados garantiza que el usuario reciba un servicio de datos ininterrumpido.

Se requieren acciones inmediatas para minimizar la interrupción del servicio si se supera el umbral crítico…​Considere tomar las siguientes acciones: 1. Aumentar la cuota de recuento de archivos para el usuario específico 2. Elimine los archivos no deseados para reducir la presión sobre la cuota de archivos para el usuario específico

Límite suave de archivos de cuota de usuario

ADVERTENCIA

La cantidad de archivos creados dentro del volumen ha alcanzado el límite del umbral de la cuota y está cerca del límite crítico. No se pueden crear archivos adicionales si la cuota alcanza el límite crítico. Monitorear la cantidad de archivos almacenados por un usuario garantiza que éste reciba un servicio de datos ininterrumpido.

Considere acciones inmediatas si se supera el umbral de advertencia: 1. Aumente la cuota de recuento de archivos para la cuota de usuario específica 2. Elimine los archivos no deseados para reducir la presión sobre la cuota de archivos para el usuario específico

Tasa de errores de caché de volumen

ADVERTENCIA / CRÍTICO

La tasa de errores de caché de volumen es el porcentaje de solicitudes de lectura de las aplicaciones cliente que se devuelven desde el disco en lugar de desde la caché. Esto significa que el volumen ha alcanzado el umbral establecido.

Si se supera el umbral crítico, se deben tomar medidas inmediatas para minimizar la interrupción del servicio: 1. Mueva algunas cargas de trabajo fuera del nodo del volumen para reducir la carga de E/S 2. Si aún no está en el nodo del volumen, aumente el caché WAFL comprando y agregando un Flash Cache 3. Reducir la demanda de cargas de trabajo de menor prioridad en el mismo nodo a través de límites de QoS Considere acciones inmediatas cuando se supera el umbral de advertencia: 1. Mueva algunas cargas de trabajo fuera del nodo del volumen para reducir la carga de E/S 2. Si aún no está en el nodo del volumen, aumente el caché WAFL comprando y agregando un Flash Cache 3. Reducir la demanda de cargas de trabajo de menor prioridad en el mismo nodo mediante límites de QoS 4. Cambiar las características de la carga de trabajo (tamaño del bloque, almacenamiento en caché de la aplicación, etc.)

Sobreasignación de cuota de Qtree de volumen

ADVERTENCIA / CRÍTICO

La sobreasignación de cuota de volumen Qtree especifica el porcentaje en el que se considera que un volumen está sobreasignado por las cuotas de qtree. Se alcanza el umbral establecido para la cuota qtree para el volumen. Monitorear la sobreasignación de cuota del volumen qtree garantiza que el usuario reciba un servicio de datos ininterrumpido.

Si se supera el umbral crítico, se deben tomar medidas inmediatas para minimizar la interrupción del servicio: 1. Aumentar el espacio del volumen 2. Eliminar datos no deseados Cuando se supera el umbral de advertencia, considere aumentar el espacio del volumen.

Monitores de registro

Nombre del monitor

Gravedad

Descripción

Acción correctiva

Credenciales de AWS no inicializadas

INFORMACIÓN

Este evento ocurre cuando un módulo intenta acceder a las credenciales basadas en roles de Administración de acceso e identidad (IAM) de Amazon Web Services (AWS) desde el hilo de credenciales de la nube antes de que se inicialicen.

Espere a que el hilo de credenciales de la nube, así como el sistema, completen la inicialización.

Nivel de nube inalcanzable

CRÍTICO

Un nodo de almacenamiento no puede conectarse a la API de almacenamiento de objetos de Cloud Tier. Algunos datos serán inaccesibles.

Si utiliza productos locales, realice las siguientes acciones correctivas: Verifique que su LIF entre clústeres esté en línea y funcionando mediante el comando "network interface show". Compruebe la conectividad de red con el servidor de almacén de objetos mediante el comando "ping" en el LIF entre clústeres del nodo de destino. Asegúrese de lo siguiente: La configuración de su almacén de objetos no haya cambiado. La información de inicio de sesión y conectividad siga siendo válida. Póngase en contacto con el soporte técnico de NetApp si el problema persiste. Si utiliza Cloud Volumes ONTAP, realice las siguientes acciones correctivas: …Asegúrese de que la configuración de su almacén de objetos no haya cambiado.… Asegúrese de que la información de inicio de sesión y conectividad aún sea válida. Comuníquese con el soporte técnico de NetApp si el problema persiste.

Disco fuera de servicio

INFORMACIÓN

Este evento ocurre cuando un disco se retira del servicio porque ha sido marcado como fallido, está siendo desinfectado o ha ingresado al Centro de mantenimiento.

Ninguno.

FlexGroup Constituyente Completo

CRÍTICO

Un constituyente dentro de un volumen FlexGroup está lleno, lo que podría provocar una posible interrupción del servicio. Aún puede crear o expandir archivos en el volumen FlexGroup . Sin embargo, ninguno de los archivos almacenados en el constituyente puede modificarse. Como resultado, es posible que vea errores aleatorios de falta de espacio cuando intente realizar operaciones de escritura en el volumen FlexGroup .

Se recomienda que agregue capacidad al volumen FlexGroup mediante el comando "volume modify -files +X". Alternativamente, elimine archivos del volumen FlexGroup . Sin embargo, es difícil determinar qué archivos han llegado al constituyente.

El constituyente de Flexgroup está casi lleno

ADVERTENCIA

Un constituyente dentro de un volumen FlexGroup está casi sin espacio, lo que podría provocar una posible interrupción del servicio. Se pueden crear y expandir archivos. Sin embargo, si el constituyente se queda sin espacio, es posible que no pueda agregar ni modificar los archivos en el constituyente.

Se recomienda que agregue capacidad al volumen FlexGroup mediante el comando "volume modify -files +X". Alternativamente, elimine archivos del volumen FlexGroup . Sin embargo, es difícil determinar qué archivos han llegado al constituyente.

El componente de FlexGroup está casi sin inodos

ADVERTENCIA

Un constituyente dentro de un volumen FlexGroup está casi sin inodos, lo que podría provocar una posible interrupción del servicio. El constituyente recibe menos solicitudes de creación que el promedio. Esto podría afectar el rendimiento general del volumen FlexGroup , porque las solicitudes se dirigen a los constituyentes con más inodos.

Se recomienda que agregue capacidad al volumen FlexGroup mediante el comando "volume modify -files +X". Alternativamente, elimine archivos del volumen FlexGroup . Sin embargo, es difícil determinar qué archivos han llegado al constituyente.

Constituyente de FlexGroup fuera de los inodos

CRÍTICO

Un componente de un volumen FlexGroup se ha quedado sin inodos, lo que podría provocar una posible interrupción del servicio. No es posible crear nuevos archivos en este constituyente. Esto podría generar una distribución general desequilibrada del contenido en todo el volumen de FlexGroup .

Se recomienda que agregue capacidad al volumen FlexGroup mediante el comando "volume modify -files +X". Alternativamente, elimine archivos del volumen FlexGroup . Sin embargo, es difícil determinar qué archivos han llegado al constituyente.

LUN sin conexión

INFORMACIÓN

Este evento ocurre cuando un LUN se desconecta manualmente.

Vuelva a poner el LUN en línea.

Falló el ventilador de la unidad principal

ADVERTENCIA

Uno o más ventiladores de la unidad principal han fallado. El sistema permanece operativo. Sin embargo, si la condición persiste durante demasiado tiempo, el exceso de temperatura podría provocar un apagado automático.

Vuelva a colocar los ventiladores averiados. Si el error persiste, reemplácelos.

Ventilador de la unidad principal en estado de advertencia

INFORMACIÓN

Este evento ocurre cuando uno o más ventiladores de la unidad principal están en un estado de advertencia.

Reemplace los ventiladores indicados para evitar sobrecalentamiento.

Batería NVRAM baja

ADVERTENCIA

La capacidad de la batería NVRAM es críticamente baja. Podría haber una posible pérdida de datos si la batería se agota. Su sistema genera y transmite un mensaje de AutoSupport o "llamada a casa" al soporte técnico de NetApp y a los destinos configurados si está configurado para hacerlo. La entrega exitosa de un mensaje de AutoSupport mejora significativamente la determinación y resolución de problemas.

Realice las siguientes acciones correctivas:… Visualice el estado actual, la capacidad y el estado de carga de la batería mediante el comando "system node environment sensors show".… Si la batería se reemplazó recientemente o el sistema no estuvo operativo durante un período prolongado, monitoree la batería para verificar que se esté cargando correctamente.… Comuníquese con el soporte técnico de NetApp si la duración de la batería continúa disminuyendo por debajo de los niveles críticos y el sistema de almacenamiento se apaga automáticamente.

Procesador de servicio no configurado

ADVERTENCIA

Este evento ocurre semanalmente para recordarle que debe configurar el Procesador de Servicio (SP). El SP es un dispositivo físico que se incorpora a su sistema para proporcionar acceso remoto y capacidades de administración remota. Debe configurar el SP para utilizar toda su funcionalidad.

Realice las siguientes acciones correctivas:…Configure el SP mediante el comando "system service-processor network modification".…De manera opcional, obtenga la dirección MAC del SP mediante el comando "system service-processor network show".…Verifique la configuración de red del SP mediante el comando "system service-processor network show".…Verifique que el SP pueda enviar un correo electrónico de AutoSupport mediante el comando "system service-processor autosupport invoke". NOTA: Los hosts y destinatarios de correo electrónico de AutoSupport deben configurarse en ONTAP antes de emitir este comando.

Procesador de servicios fuera de línea

CRÍTICO

ONTAP ya no recibe latidos del procesador de servicio (SP), a pesar de que se han realizado todas las acciones de recuperación del SP . ONTAP no puede monitorear la salud del hardware sin el SP…​ El sistema se apagará para evitar daños al hardware y pérdida de datos. Configure una alerta de pánico para recibir una notificación inmediata si el SP se desconecta.

Apague y encienda el sistema realizando las siguientes acciones:… Extraiga el controlador del chasis.… Empuje el controlador hacia adentro.… Encienda nuevamente el controlador.… Si el problema persiste, reemplace el módulo del controlador.

Los ventiladores de estante fallaron

CRÍTICO

El ventilador de refrigeración indicado o el módulo de ventilador del estante ha fallado. Es posible que los discos en el estante no reciban suficiente flujo de aire de enfriamiento, lo que podría provocar fallas en el disco.

Realice las siguientes acciones correctivas:…Verifique que el módulo del ventilador esté completamente asentado y asegurado. NOTA: El ventilador está integrado en el módulo de fuente de alimentación en algunos estantes de discos. Si el problema persiste, reemplace el módulo del ventilador. Si el problema persiste, comuníquese con el soporte técnico de NetApp para obtener ayuda.

El sistema no puede funcionar debido a una falla del ventilador de la unidad principal

CRÍTICO

Uno o más ventiladores de la unidad principal han fallado, interrumpiendo el funcionamiento del sistema. Esto podría provocar una posible pérdida de datos.

Reemplace los ventiladores averiados.

Discos no asignados

INFORMACIÓN

El sistema tiene discos sin asignar: se está desperdiciando capacidad y es posible que su sistema tenga alguna configuración incorrecta o un cambio de configuración parcial aplicado.

Realice las siguientes acciones correctivas:…Determine qué discos no están asignados mediante el comando "disk show -n".…Asigne los discos a un sistema mediante el comando "disk assign".

Servidor antivirus ocupado

ADVERTENCIA

El servidor antivirus está demasiado ocupado para aceptar nuevas solicitudes de análisis.

Si este mensaje aparece con frecuencia, asegúrese de que haya suficientes servidores antivirus para manejar la carga de análisis de virus generada por el SVM.

Credenciales de AWS para el rol de IAM expiradas

CRÍTICO

Cloud Volume ONTAP se ha vuelto inaccesible. Las credenciales basadas en roles de Gestión de identidad y acceso (IAM) han expirado. Las credenciales se adquieren del servidor de metadatos de Amazon Web Services (AWS) mediante la función IAM y se utilizan para firmar solicitudes de API a Amazon Simple Storage Service (Amazon S3).

Realice lo siguiente:…Inicie sesión en la consola de administración de AWS EC2.…Vaya a la página Instancias.…Busque la instancia para la implementación de Cloud Volumes ONTAP y verifique su estado.…Verifique que la función de AWS IAM asociada con la instancia sea válida y se le hayan otorgado los privilegios adecuados para la instancia.

No se encontraron credenciales de AWS para el rol de IAM

CRÍTICO

El hilo de credenciales en la nube no puede adquirir las credenciales basadas en roles de Administración de acceso e identidad (IAM) de Amazon Web Services (AWS) del servidor de metadatos de AWS. Las credenciales se utilizan para firmar solicitudes de API a Amazon Simple Storage Service (Amazon S3). Cloud Volume ONTAP se ha vuelto inaccesible.

Realice lo siguiente:…Inicie sesión en la consola de administración de AWS EC2.…Vaya a la página Instancias.…Busque la instancia para la implementación de Cloud Volumes ONTAP y verifique su estado.…Verifique que la función de AWS IAM asociada con la instancia sea válida y se le hayan otorgado los privilegios adecuados para la instancia.

Credenciales de AWS para el rol de IAM no válidas

CRÍTICO

Las credenciales basadas en roles de Gestión de identidad y acceso (IAM) no son válidas. Las credenciales se adquieren del servidor de metadatos de Amazon Web Services (AWS) mediante la función IAM y se utilizan para firmar solicitudes de API a Amazon Simple Storage Service (Amazon S3). Cloud Volume ONTAP se ha vuelto inaccesible.

Realice lo siguiente:…Inicie sesión en la consola de administración de AWS EC2.…Vaya a la página Instancias.…Busque la instancia para la implementación de Cloud Volumes ONTAP y verifique su estado.…Verifique que la función de AWS IAM asociada con la instancia sea válida y se le hayan otorgado los privilegios adecuados para la instancia.

Rol de AWS IAM no encontrado

CRÍTICO

El hilo de roles de Administración de identidad y acceso (IAM) no puede encontrar un rol de IAM de Amazon Web Services (AWS) en el servidor de metadatos de AWS. El rol IAM es necesario para adquirir credenciales basadas en roles que se utilizan para firmar solicitudes de API a Amazon Simple Storage Service (Amazon S3). Cloud Volume ONTAP se ha vuelto inaccesible.

Realice lo siguiente:…Inicie sesión en la consola de administración de AWS EC2.…Vaya a la página Instancias.…Busque la instancia para la implementación de Cloud Volumes ONTAP y verifique su estado.…Verifique que la función de AWS IAM asociada con la instancia sea válida.

Rol de AWS IAM no válido

CRÍTICO

La función de administración de identidad y acceso (IAM) de Amazon Web Services (AWS) en el servidor de metadatos de AWS no es válida. El Cloud Volume ONTAP se ha vuelto inaccesible.

Realice lo siguiente:…Inicie sesión en la consola de administración de AWS EC2.…Vaya a la página Instancias.…Busque la instancia para la implementación de Cloud Volumes ONTAP y verifique su estado.…Verifique que la función de AWS IAM asociada con la instancia sea válida y se le hayan otorgado los privilegios adecuados para la instancia.

Error de conexión al servidor de metadatos de AWS

CRÍTICO

El hilo de roles de Administración de identidad y acceso (IAM) no puede establecer un enlace de comunicación con el servidor de metadatos de Amazon Web Services (AWS). Se debe establecer comunicación para adquirir las credenciales basadas en roles de AWS IAM necesarias para firmar solicitudes de API a Amazon Simple Storage Service (Amazon S3). Cloud Volume ONTAP se ha vuelto inaccesible.

Realice lo siguiente:…Inicie sesión en la consola de administración de AWS EC2.…Vaya a la página Instancias.…Busque la instancia para la implementación de Cloud Volumes ONTAP y verifique su estado.…

El límite de uso de espacio de FabricPool casi se alcanzó

ADVERTENCIA

El uso total del espacio FabricPool en todo el clúster de almacenes de objetos de proveedores con licencia de capacidad casi ha alcanzado el límite autorizado.

Realice las siguientes acciones correctivas:…Verifique el porcentaje de la capacidad con licencia utilizada por cada nivel de almacenamiento de FabricPool mediante el comando "storage aggregate object-store show-space".…Elimine copias instantáneas de los volúmenes con la política de niveles "snapshot" o "backup" mediante el comando "volume snapshot delete" para liberar espacio.…Instale una nueva licencia en el clúster para aumentar la capacidad con licencia.

Se alcanzó el límite de uso de espacio de FabricPool

CRÍTICO

El uso total del espacio FabricPool en todo el clúster de los almacenes de objetos de proveedores con licencia de capacidad ha alcanzado el límite de la licencia.

Realice las siguientes acciones correctivas:…Verifique el porcentaje de la capacidad con licencia utilizada por cada nivel de almacenamiento de FabricPool mediante el comando "storage aggregate object-store show-space".…Elimine copias instantáneas de los volúmenes con la política de niveles "snapshot" o "backup" mediante el comando "volume snapshot delete" para liberar espacio.…Instale una nueva licencia en el clúster para aumentar la capacidad con licencia.

Falló la devolución del agregado

CRÍTICO

Este evento ocurre durante la migración de un agregado como parte de una devolución de conmutación por error de almacenamiento (SFO), cuando el nodo de destino no puede alcanzar los almacenes de objetos.

Realice las siguientes acciones correctivas:…Verifique que su LIF entre clústeres esté en línea y funcional mediante el comando "network interface show".…Verifique la conectividad de red con el servidor de almacén de objetos mediante el comando "ping" en el LIF entre clústeres del nodo de destino. Verifique que la configuración de su almacén de objetos no haya cambiado y que la información de inicio de sesión y conectividad siga siendo precisa mediante el comando "aggregate object-store config show". Como alternativa, puede anular el error especificando "false" en el parámetro "require-partner-waiting" del comando giveback. Comuníquese con el soporte técnico de NetApp para obtener más información o asistencia.

Interconexión HA inactiva

ADVERTENCIA

La interconexión de alta disponibilidad (HA) está inactiva. Riesgo de interrupción del servicio cuando la conmutación por error no está disponible.

Las acciones correctivas dependen de la cantidad y el tipo de enlaces de interconexión de alta disponibilidad (HA) admitidos por la plataforma, así como del motivo por el cual la interconexión no funciona. …Si los enlaces están inactivos:…Verifique que ambos controladores en el par HA estén operativos.…Para enlaces conectados externamente, asegúrese de que los cables de interconexión estén conectados correctamente y que los conectores SFP (de factor de forma pequeño), si corresponde, estén bien colocados en ambos controladores.…Para enlaces conectados internamente, deshabilite y vuelva a habilitar los enlaces, uno tras otro, usando los comandos "ic link off" y "ic link on". …Si los enlaces están deshabilitados, habilítelos mediante el comando "ic link on". …Si un par no está conectado, deshabilite y vuelva a habilitar los enlaces, uno tras otro, utilizando los comandos "ic link off" y "ic link on".…Comuníquese con el soporte técnico de NetApp si el problema persiste.

Se superó el máximo de sesiones por usuario

ADVERTENCIA

Ha excedido el número máximo de sesiones permitidas por usuario en una conexión TCP. Cualquier solicitud para establecer una sesión será denegada hasta que se liberen algunas sesiones. …

Realice las siguientes acciones correctivas: Inspeccione todas las aplicaciones que se ejecutan en el cliente y finalice las que no funcionen correctamente. Reinicie el cliente. Compruebe si el problema se debe a una aplicación nueva o existente: Si la aplicación es nueva, establezca un umbral más alto para el cliente mediante el comando "cifs option modify -max-opens-same-file-per-tree". En algunos casos, los clientes operan como se espera, pero requieren un umbral más alto. Debe tener privilegios avanzados para establecer un umbral más alto para el cliente. …Si el problema es causado por una aplicación existente, podría haber un problema con el cliente. Comuníquese con el soporte técnico de NetApp para obtener más información o asistencia.

Se superó el máximo de veces que se abrió cada archivo

ADVERTENCIA

Ha superado el número máximo de veces que puede abrir el archivo a través de una conexión TCP. Cualquier solicitud para abrir este archivo será denegada hasta que cierre algunas instancias abiertas del archivo. Esto generalmente indica un comportamiento anormal de la aplicación.

Realice las siguientes acciones correctivas:…Inspeccione las aplicaciones que se ejecutan en el cliente que utiliza esta conexión TCP. El cliente podría estar funcionando incorrectamente debido a la aplicación que se ejecuta en él. Reinicie el cliente. Compruebe si el problema se debe a una aplicación nueva o existente: Si la aplicación es nueva, establezca un umbral más alto para el cliente con el comando "cifs option modify -max-opens-same-file-per-tree". En algunos casos, los clientes operan como se espera, pero requieren un umbral más alto. Debe tener privilegios avanzados para establecer un umbral más alto para el cliente. …Si el problema es causado por una aplicación existente, podría haber un problema con el cliente. Comuníquese con el soporte técnico de NetApp para obtener más información o asistencia.

Conflicto de nombres NetBIOS

CRÍTICO

El servicio de nombres NetBIOS ha recibido una respuesta negativa a una solicitud de registro de nombre, desde una máquina remota. Generalmente, esto se debe a un conflicto en el nombre NetBIOS o un alias. Como resultado, es posible que los clientes no puedan acceder a los datos o conectarse al nodo de servicio de datos correcto en el clúster.

Realice cualquiera de las siguientes acciones correctivas:… Si hay un conflicto en el nombre NetBIOS o un alias, realice una de las siguientes acciones:… Elimine el alias NetBIOS duplicado mediante el comando "vserver cifs delete -aliases alias -vserver vserver".… Cambie el nombre de un alias NetBIOS eliminando el nombre duplicado y agregando un alias con un nombre nuevo mediante el comando "vserver cifs create -aliases alias -vserver vserver". …Si no hay alias configurados y hay un conflicto en el nombre NetBIOS, cambie el nombre del servidor CIFS utilizando los comandos "vserver cifs delete -vserver vserver" y "vserver cifs create -cifs-server netbiosname". NOTA: Eliminar un servidor CIFS puede hacer que los datos sean inaccesibles. …Elimine el nombre NetBIOS o cambie el nombre del NetBIOS en la máquina remota.

El grupo de almacenamiento de NFSv4 está agotado

CRÍTICO

Se ha agotado un grupo de almacenamiento NFSv4.

Si el servidor NFS no responde durante más de 10 minutos después de este evento, comuníquese con el soporte técnico de NetApp .

No hay ningún motor de escaneo registrado

CRÍTICO

El conector antivirus notificó a ONTAP que no tiene un motor de escaneo registrado. Esto podría provocar la falta de disponibilidad de datos si la opción "escaneo obligatorio" está habilitada.

Realice las siguientes acciones correctivas:…Asegúrese de que el software del motor de análisis instalado en el servidor antivirus sea compatible con ONTAP.…Asegúrese de que el software del motor de análisis esté ejecutándose y configurado para conectarse al conector antivirus a través del bucle invertido local.

Sin conexión Vscan

CRÍTICO

ONTAP no tiene conexión Vscan para atender solicitudes de escaneo de virus. Esto podría provocar la falta de disponibilidad de datos si la opción "escaneo obligatorio" está habilitada.

Asegúrese de que el grupo de escáneres esté configurado correctamente y que los servidores antivirus estén activos y conectados a ONTAP.

Espacio de volumen de raíz de nodo bajo

CRÍTICO

El sistema ha detectado que el volumen raíz tiene un espacio peligrosamente bajo. El nodo no está completamente operativo. Es posible que los LIF de datos hayan fallado dentro del clúster, por lo que el acceso a NFS y CIFS está limitado en el nodo. La capacidad administrativa está limitada a los procedimientos de recuperación local para que el nodo libere espacio en el volumen raíz.

Realice las siguientes acciones correctivas:…Libere espacio en el volumen raíz eliminando copias antiguas de Snapshot, eliminando archivos que ya no necesita del directorio /mroot o ampliando la capacidad del volumen raíz.…Reinicie el controlador.…Comuníquese con el soporte técnico de NetApp para obtener más información o asistencia.

Compartir administrador inexistente

CRÍTICO

Problema de Vscan: un cliente intentó conectarse a un recurso compartido ONTAP_ADMIN$ inexistente.

Asegúrese de que Vscan esté habilitado para el ID de SVM mencionado. Al habilitar Vscan en una SVM, se crea automáticamente el recurso compartido ONTAP_ADMIN$ para la SVM.

Espacio de nombres NVMe sin espacio

CRÍTICO

Un espacio de nombres NVMe se ha desconectado debido a un error de escritura provocado por la falta de espacio.

Agregue espacio al volumen y luego ponga el espacio de nombres NVMe en línea mediante el comando "vserver nvme namespace modify".

Período de gracia NVMe-oF activo

ADVERTENCIA

Este evento ocurre diariamente cuando el protocolo NVMe over Fabrics (NVMe-oF) está en uso y el período de gracia de la licencia está activo. La funcionalidad NVMe-oF requiere una licencia una vez que expira el período de gracia de la licencia. La funcionalidad NVMe-oF se deshabilita cuando finaliza el período de gracia de la licencia.

Comuníquese con su representante de ventas para obtener una licencia NVMe-oF y agregarla al clúster, o eliminar todas las instancias de configuración NVMe-oF del clúster.

Período de gracia de NVMe-oF expirado

ADVERTENCIA

El período de gracia de la licencia NVMe over Fabrics (NVMe-oF) ha finalizado y la funcionalidad NVMe-oF está deshabilitada.

Comuníquese con su representante de ventas para obtener una licencia NVMe-oF y agregarla al clúster.

Inicio del período de gracia de NVMe-oF

ADVERTENCIA

La configuración de NVMe over Fabrics (NVMe-oF) se detectó durante la actualización al software ONTAP 9.5. La funcionalidad NVMe-oF requiere una licencia una vez que expira el período de gracia de la licencia.

Comuníquese con su representante de ventas para obtener una licencia NVMe-oF y agregarla al clúster.

Host del almacén de objetos irresoluble

CRÍTICO

El nombre de host del servidor de almacenamiento de objetos no se puede resolver en una dirección IP. El cliente del almacén de objetos no puede comunicarse con el servidor del almacén de objetos sin resolverse en una dirección IP. Como resultado, los datos podrían resultar inaccesibles.

Verifique la configuración de DNS para verificar que el nombre de host esté configurado correctamente con una dirección IP.

LIF entre clústeres del almacén de objetos inactivo

CRÍTICO

El cliente del almacén de objetos no puede encontrar un LIF operativo para comunicarse con el servidor del almacén de objetos. El nodo no permitirá el tráfico de clientes del almacén de objetos hasta que el LIF entre clústeres esté operativo. Como resultado, los datos podrían resultar inaccesibles.

Realice las siguientes acciones correctivas: Verifique el estado del LIF entre clústeres mediante el comando "network interface show -role intercluster". Verifique que el LIF entre clústeres esté configurado correctamente y en funcionamiento. Si no hay un LIF entre clústeres configurado, agréguelo mediante el comando "network interface create -role intercluster".

Falta de coincidencia de firmas en el almacén de objetos

CRÍTICO

La firma de solicitud enviada al servidor de almacén de objetos no coincide con la firma calculada por el cliente. Como resultado, los datos podrían resultar inaccesibles.

Verifique que la clave de acceso secreta esté configurada correctamente. Si está configurado correctamente, comuníquese con el soporte técnico de NetApp para obtener ayuda.

Tiempo de espera de READDIR

CRÍTICO

Una operación de archivo READDIR ha excedido el tiempo de espera permitido para su ejecución en WAFL. Esto puede deberse a directorios muy grandes o dispersos. Se recomienda tomar medidas correctivas.

Realice las siguientes acciones correctivas:… Busque información específica de directorios recientes en los que expiraron operaciones de archivo READDIR mediante el siguiente comando CLI de nodeshell con privilegio 'diag': wafl readdir notice show.… Verifique si los directorios están indicados como dispersos o no:… Si un directorio está indicado como disperso, se recomienda copiar el contenido del directorio a un nuevo directorio para eliminar la dispersión del archivo de directorio. …Si un directorio no está indicado como disperso y el directorio es grande, se recomienda reducir el tamaño del archivo del directorio reduciendo la cantidad de entradas de archivo en el directorio.

Falló la reubicación del agregado

CRÍTICO

Este evento ocurre durante la reubicación de un agregado, cuando el nodo de destino no puede alcanzar los almacenes de objetos.

Realice las siguientes acciones correctivas:…Verifique que su LIF entre clústeres esté en línea y funcional mediante el comando "network interface show".…Verifique la conectividad de red con el servidor de almacén de objetos mediante el comando "ping" en el LIF entre clústeres del nodo de destino. Verifique que la configuración de su almacén de objetos no haya cambiado y que la información de inicio de sesión y conectividad siga siendo precisa mediante el comando "aggregate object-store config show". Como alternativa, puede anular el error mediante el parámetro "override-destination-checks" del comando de reubicación. Comuníquese con el soporte técnico de NetApp para obtener más información o asistencia.

Error en la copia de sombra

CRÍTICO

Se ha producido un error en una operación de copia de seguridad y restauración del Servicio de instantáneas de volumen (VSS) de Microsoft Server.

Verifique lo siguiente utilizando la información proporcionada en el mensaje de evento:… ¿Está habilitada la configuración de copia de sombra?… ¿Están instaladas las licencias adecuadas? …¿En qué recursos compartidos se realiza la operación de copia de sombra?…¿Es correcto el nombre del recurso compartido?…¿Existe la ruta del recurso compartido?…¿Cuáles son los estados del conjunto de copias de sombra y sus copias de sombra?

Las fuentes de alimentación del conmutador de almacenamiento fallaron

ADVERTENCIA

Falta una fuente de alimentación en el interruptor del grupo. Se reduce la redundancia y el riesgo de interrupción del suministro eléctrico ante futuros cortes de suministro eléctrico.

Realice las siguientes acciones correctivas:…Asegúrese de que la red eléctrica de alimentación, que suministra energía al conmutador del clúster, esté encendida.…Asegúrese de que el cable de alimentación esté conectado a la fuente de alimentación.…Comuníquese con el soporte técnico de NetApp si el problema persiste.

Demasiadas autenticaciones CIFS

ADVERTENCIA

Se han producido simultáneamente muchas negociaciones de autenticación. Hay 256 solicitudes de nueva sesión incompletas de este cliente.

Investigue por qué el cliente ha creado 256 o más solicitudes de conexión nuevas. Es posible que tengas que ponerte en contacto con el proveedor del cliente o de la aplicación para determinar por qué se produjo el error.

Acceso de usuario no autorizado al recurso compartido de administración

ADVERTENCIA

Un cliente intentó conectarse al recurso compartido privilegiado ONTAP_ADMIN$ aunque su usuario conectado no es un usuario permitido.

Realice las siguientes acciones correctivas:…Asegúrese de que el nombre de usuario y la dirección IP mencionados estén configurados en uno de los grupos de escáneres Vscan activos.…Verifique la configuración del grupo de escáneres que está activo actualmente mediante el comando "vserver vscan scanner pool show-active".

Virus detectado

ADVERTENCIA

Un servidor Vscan ha informado de un error al sistema de almacenamiento. Esto generalmente indica que se ha encontrado un virus. Sin embargo, otros errores en el servidor Vscan pueden provocar este evento…​Se deniega el acceso del cliente al archivo. El servidor Vscan podría, dependiendo de su configuración, limpiar el archivo, ponerlo en cuarentena o eliminarlo.

Verifique el registro del servidor Vscan informado en el evento "syslog" para ver si pudo limpiar, poner en cuarentena o eliminar con éxito el archivo infectado. Si no puede hacerlo, es posible que un administrador del sistema tenga que eliminar el archivo manualmente.

Volumen sin conexión

INFORMACIÓN

Este mensaje indica que un volumen está fuera de línea.

Vuelva a poner el volumen en línea.

Volumen restringido

INFORMACIÓN

Este evento indica que un volumen flexible está restringido.

Vuelva a poner el volumen en línea.

La máquina virtual de almacenamiento se detuvo correctamente

INFORMACIÓN

Este mensaje aparece cuando una operación 'vserver stop' tiene éxito.

Utilice el comando 'vserver start' para iniciar el acceso a los datos en una máquina virtual de almacenamiento.

Pánico en el nodo

ADVERTENCIA

Este evento se emite cuando se produce un pánico.

Comuníquese con el servicio de atención al cliente de NetApp .

Monitores de registros anti-ransomware

Nombre del monitor

Gravedad

Descripción

Acción correctiva

Monitoreo anti-ransomware de VM de almacenamiento deshabilitado

ADVERTENCIA

La supervisión anti-ransomware para la máquina virtual de almacenamiento está deshabilitada. Habilite el anti-ransomware para proteger la máquina virtual de almacenamiento.

Ninguno

Monitoreo antiransomware de máquinas virtuales de almacenamiento habilitado (modo de aprendizaje)

INFORMACIÓN

La supervisión anti-ransomware para la máquina virtual de almacenamiento está habilitada en modo de aprendizaje.

Ninguno

Monitoreo anti-ransomware de volumen habilitado

INFORMACIÓN

La monitorización anti-ransomware para el volumen está habilitada.

Ninguno

Monitoreo anti-ransomware de volumen deshabilitado

ADVERTENCIA

La supervisión anti-ransomware para el volumen está deshabilitada. Habilite el anti-ransomware para proteger el volumen.

Ninguno

Monitoreo antiransomware de volumen habilitado (modo de aprendizaje)

INFORMACIÓN

La monitorización anti-ransomware del volumen está habilitada en el modo de aprendizaje.

Ninguno

Monitoreo antiransomware de volumen en pausa (modo de aprendizaje)

ADVERTENCIA

La supervisión anti-ransomware del volumen está en pausa en modo de aprendizaje.

Ninguno

Monitoreo antiransomware de volumen en pausa

ADVERTENCIA

La supervisión anti-ransomware del volumen está en pausa.

Ninguno

Desactivación de la supervisión antiransomware de volumen

ADVERTENCIA

La supervisión anti-ransomware del volumen se está deshabilitando.

Ninguno

Actividad de ransomware detectada

CRÍTICO

Para proteger los datos del ransomware detectado, se ha tomado una copia instantánea que puede utilizarse para restaurar los datos originales. Su sistema genera y transmite un mensaje de AutoSupport o "llamada a casa" al soporte técnico de NetApp y a cualquier destino configurado. El mensaje de AutoSupport mejora la determinación y resolución de problemas.

Consulte "FINAL-DOCUMENT-NAME" para tomar medidas correctivas para la actividad de ransomware.

FSx para monitores NetApp ONTAP

Nombre del monitor

Umbrales

Descripción del monitor

Acción correctiva

La capacidad del volumen de FSx está llena

Advertencia @ > 85 %…Crítico @ > 95 %

La capacidad de almacenamiento de un volumen es necesaria para almacenar datos de aplicaciones y clientes. Cuantos más datos se almacenen en el volumen ONTAP , menor será la disponibilidad de almacenamiento para datos futuros. Si la capacidad de almacenamiento de datos dentro de un volumen alcanza la capacidad de almacenamiento total, es posible que el cliente no pueda almacenar datos debido a la falta de capacidad de almacenamiento. La monitorización del volumen de capacidad de almacenamiento utilizada garantiza la continuidad de los servicios de datos.

Se requieren acciones inmediatas para minimizar la interrupción del servicio si se supera el umbral crítico:…1. Considere eliminar datos que ya no necesite para liberar espacio

Volumen FSx de alta latencia

Advertencia a > 1000 µs… Crítico a > 2000 µs

Los volúmenes son objetos que sirven al tráfico de E/S a menudo impulsado por aplicaciones sensibles al rendimiento, incluidas aplicaciones devOps, directorios de inicio y bases de datos. Las latencias de alto volumen significan que las propias aplicaciones pueden sufrir y ser incapaces de realizar sus tareas. Monitorear las latencias del volumen es fundamental para mantener un rendimiento constante de la aplicación.

Se requieren acciones inmediatas para minimizar la interrupción del servicio si se supera el umbral crítico:…1. Si el volumen tiene una política de QoS asignada, evalúe sus umbrales límite en caso de que estén causando que la carga de trabajo del volumen se limite…​ Planifique tomar las siguientes acciones pronto si se infringe el umbral de advertencia:…​ 1. Si el volumen tiene una política de QoS asignada, evalúe sus umbrales de límite en caso de que estén provocando que la carga de trabajo del volumen se limite…​2. Si el nodo también experimenta una alta utilización, mueva el volumen a otro nodo o reduzca la carga de trabajo total del nodo.

Límite de inodos de volumen de FSx

Advertencia @ > 85 %…Crítico @ > 95 %

Los volúmenes que almacenan archivos utilizan nodos de índice (inodos) para almacenar metadatos de archivos. Cuando un volumen agota su asignación de inodo, no se pueden agregar más archivos. Una alerta de advertencia indica que se deben tomar medidas planificadas para aumentar la cantidad de inodos disponibles. Una alerta crítica indica que el agotamiento del límite de archivos es inminente y se deben tomar medidas de emergencia para liberar inodos para garantizar la continuidad del servicio.

Se requieren acciones inmediatas para minimizar la interrupción del servicio si se supera el umbral crítico:…1. Considere aumentar el valor de los inodos para el volumen. Si el valor de los inodos ya está en el máximo, entonces considere dividir el volumen en dos o más volúmenes porque el sistema de archivos ha crecido más allá del tamaño máximo…​ Planifique tomar las siguientes acciones pronto si se supera el umbral de advertencia:…​ 1. Considere aumentar el valor de los inodos para el volumen. Si el valor de los inodos ya está en el máximo, considere dividir el volumen en dos o más volúmenes porque el sistema de archivos ha crecido más allá del tamaño máximo.

Sobreasignación de cuota de Qtree de volumen de FSx

Advertencia @ > 95 %…Crítico @ > 100 %

La sobreasignación de cuota de volumen Qtree especifica el porcentaje en el que se considera que un volumen está sobreasignado por las cuotas de qtree. Se alcanza el umbral establecido para la cuota qtree para el volumen. Monitorear la sobreasignación de cuota del volumen qtree garantiza que el usuario reciba un servicio de datos ininterrumpido.

Si se supera el umbral crítico, se deben tomar medidas inmediatas para minimizar la interrupción del servicio: 1. Eliminar datos no deseados… Cuando se supere el umbral de advertencia, considere aumentar el espacio del volumen.

El espacio de reserva de instantáneas de FSx está lleno

Advertencia @ > 90 %…Crítico @ > 95 %

La capacidad de almacenamiento de un volumen es necesaria para almacenar datos de aplicaciones y clientes. Una parte de ese espacio, denominada espacio reservado para instantáneas, se utiliza para almacenar instantáneas que permiten proteger los datos localmente. Cuantos más datos nuevos y actualizados se almacenen en el volumen ONTAP , más capacidad de instantáneas se utilizará y menos capacidad de almacenamiento de instantáneas estará disponible para futuros datos nuevos o actualizados. Si la capacidad de datos de instantáneas dentro de un volumen alcanza el espacio total de reserva de instantáneas, es posible que el cliente no pueda almacenar nuevos datos de instantáneas y se reduzca el nivel de protección de los datos en el volumen. La supervisión del volumen utilizado de la capacidad de instantáneas garantiza la continuidad de los servicios de datos.

Se requieren acciones inmediatas para minimizar la interrupción del servicio si se supera el umbral crítico:…1. Considere configurar instantáneas para usar el espacio de datos en el volumen cuando la reserva de instantáneas esté llena…​2. Considere eliminar algunas instantáneas antiguas que quizás ya no necesite para liberar espacio…​ Planifique tomar las siguientes acciones pronto si se supera el umbral de advertencia:…​ 1. Considere aumentar el espacio de reserva de instantáneas dentro del volumen para adaptarse al crecimiento…​2. Considere configurar instantáneas para usar el espacio de datos en el volumen cuando la reserva de instantáneas esté llena

Tasa de errores de caché de volumen de FSx

Advertencia @ > 95 %…Crítico @ > 100 %

La tasa de errores de caché de volumen es el porcentaje de solicitudes de lectura de las aplicaciones cliente que se devuelven desde el disco en lugar de desde la caché. Esto significa que el volumen ha alcanzado el umbral establecido.

Si se supera el umbral crítico, se deben tomar medidas inmediatas para minimizar la interrupción del servicio: 1. Mueva algunas cargas de trabajo fuera del nodo del volumen para reducir la carga de E/S 2. Reducir la demanda de cargas de trabajo de menor prioridad en el mismo nodo a través de límites de QoS…​ Considere acciones inmediatas cuando se supera el umbral de advertencia: 1. Mueva algunas cargas de trabajo fuera del nodo del volumen para reducir la carga de E/S 2. Reducir la demanda de cargas de trabajo de menor prioridad en el mismo nodo mediante límites de QoS 3. Cambiar las características de la carga de trabajo (tamaño del bloque, almacenamiento en caché de la aplicación, etc.)

Monitores K8s

Nombre del monitor

Descripción

Acciones correctivas

Gravedad/Umbral

Latencia de volumen persistente alta

Las latencias de volumen altas y persistentes significan que las aplicaciones mismas pueden sufrir y ser incapaces de realizar sus tareas. Monitorear las latencias de volumen persistentes es fundamental para mantener un rendimiento constante de la aplicación. Las siguientes son latencias esperadas según el tipo de medio: SSD hasta 1-2 milisegundos; SAS hasta 8-10 milisegundos y SATA HDD hasta 17-20 milisegundos.

Acciones inmediatas Si se supera el umbral crítico, considere acciones inmediatas para minimizar la interrupción del servicio: si el volumen tiene una política de QoS asignada, evalúe sus umbrales límite en caso de que estén provocando que la carga de trabajo del volumen se limite. Acciones a realizar pronto Si se supera el umbral de advertencia, planifique las siguientes acciones inmediatas: 1. Si el grupo de almacenamiento también experimenta una alta utilización, mueva el volumen a otro grupo de almacenamiento. 2. Si el volumen tiene una política de QoS asignada, evalúe sus umbrales de límite en caso de que estén provocando que la carga de trabajo del volumen se limite. 3. Si el controlador también experimenta un alto uso, mueva el volumen a otro controlador o reduzca la carga de trabajo total del controlador.

Advertencia a > 6000 μs Crítico a > 12 000 μs

Saturación alta de la memoria del clúster

La saturación de la memoria asignable del clúster es alta. La saturación de la CPU del clúster se calcula como la suma del uso de la memoria dividida por la suma de la memoria asignable en todos los nodos de K8.

Añadir nodos. Repara cualquier nodo no programado. Pods de tamaño adecuado para liberar memoria en los nodos.

Advertencia @ > 80 % Crítico @ > 90 %

Error al conectar el POD

Esta alerta se produce cuando falla la conexión de un volumen con POD.

Advertencia

Alta tasa de retransmisión

Alta tasa de retransmisión de TCP

Comprobar la congestión de la red: identifique las cargas de trabajo que consumen mucho ancho de banda de la red. Comprueba si el Pod tiene una alta utilización de CPU. Compruebe el rendimiento de la red de hardware.

Advertencia @ > 10 % Crítico @ > 25 %

Capacidad alta del sistema de archivos del nodo

Capacidad alta del sistema de archivos del nodo

- Aumente el tamaño de los discos del nodo para garantizar que haya suficiente espacio para los archivos de la aplicación. - Disminuir el uso de archivos de la aplicación.

Advertencia @ > 80 % Crítico @ > 90 %

Fluctuación alta en la red de carga de trabajo

Alto jitter de TCP (alta latencia/variaciones del tiempo de respuesta)

Compruebe si hay congestión en la red. Identifique las cargas de trabajo que consumen mucho ancho de banda de red. Comprueba si el Pod tiene una alta utilización de CPU. Comprobar el rendimiento de la red de hardware

Advertencia a > 30 ms Crítico a > 50 ms

Rendimiento de volumen persistente

Los umbrales de MBPS en volúmenes persistentes se pueden usar para alertar a un administrador cuando los volúmenes persistentes exceden las expectativas de rendimiento predefinidas, lo que podría afectar a otros volúmenes persistentes. La activación de este monitor generará alertas apropiadas para el perfil de rendimiento típico de los volúmenes persistentes en SSD. Este monitor cubrirá todos los volúmenes persistentes de su inquilino. Los valores de umbral de advertencia y críticos se pueden ajustar en función de sus objetivos de monitoreo duplicando este monitor y configurando umbrales apropiados para su clase de almacenamiento. Un monitor duplicado puede orientarse además a un subconjunto de los volúmenes persistentes de su inquilino.

Acciones inmediatas Si se supera el umbral crítico, planifique acciones inmediatas para minimizar la interrupción del servicio: 1. Introduzca límites de MBPS de QoS para el volumen. 2. Revise la aplicación que impulsa la carga de trabajo en el volumen para detectar anomalías. Acciones a realizar pronto Si se supera el umbral de advertencia, planifique tomar las siguientes acciones inmediatas: 1. Introduzca límites de MBPS de QoS para el volumen. 2. Revise la aplicación que impulsa la carga de trabajo en el volumen para detectar anomalías.

Advertencia a > 10 000 MB/s Crítico a > 15 000 MB/s

Contenedor en riesgo de OOM destruido

Los límites de memoria del contenedor están configurados demasiado bajos. El contenedor corre el riesgo de ser desalojado (Out of Memory Kill).

Aumentar los límites de memoria del contenedor.

Advertencia @ > 95 %

Carga de trabajo reducida

La carga de trabajo no tiene pods saludables.

Crítico @ < 1

Error en la vinculación de la reclamación de volumen persistente

Esta alerta se produce cuando falla un enlace en un PVC.

Advertencia

Los límites de memoria de ResourceQuota están a punto de superarse

Los límites de memoria para el espacio de nombres están a punto de superar ResourceQuota

Advertencia @ > 80 % Crítico @ > 90 %

Las solicitudes de membresía de ResourceQuota están a punto de superarse

Las solicitudes de memoria para el espacio de nombres están a punto de superar la cuota de recursos

Advertencia @ > 80 % Crítico @ > 90 %

Falló la creación del nodo

No se pudo programar el nodo debido a un error de configuración.

Consulte el registro de eventos de Kubernetes para conocer la causa de la falla de configuración.

Crítico

Error en la recuperación de volumen persistente

El volumen ha fallado su recuperación automática.

Advertencia @ > 0 B

Limitación de la CPU del contenedor

Los límites de CPU del contenedor están configurados demasiado bajos. Los procesos de contenedores se ralentizan.

Aumentar los límites de CPU del contenedor.

Advertencia @ > 95 % Crítico @ > 98 %

No se pudo eliminar el balanceador de carga del servicio

Advertencia

IOPS de volumen persistente

Los umbrales de IOPS en volúmenes persistentes se pueden utilizar para alertar a un administrador cuando los volúmenes persistentes superan las expectativas de rendimiento predefinidas. La activación de este monitor generará alertas apropiadas para el perfil de IOPS típico de los volúmenes de persistencia. Este monitor cubrirá todos los volúmenes persistentes de su inquilino. Los valores de umbral de advertencia y críticos se pueden ajustar en función de sus objetivos de monitoreo duplicando este monitor y configurando umbrales apropiados para su carga de trabajo.

Acciones inmediatas Si se supera el umbral crítico, planifique acciones inmediatas para minimizar la interrupción del servicio: 1. Introduzca límites de IOPS de QoS para el volumen. 2. Revise la aplicación que impulsa la carga de trabajo en el volumen para detectar anomalías. Acciones a realizar pronto Si se supera el umbral de advertencia, planifique las siguientes acciones inmediatas: 1. Introduzca límites de IOPS de QoS para el volumen. 2. Revise la aplicación que impulsa la carga de trabajo en el volumen para detectar anomalías.

Advertencia a > 20 000 IO/s Crítico a > 25 000 IO/s

El balanceador de carga del servicio no se pudo actualizar

Advertencia

Fallo de montaje del POD

Esta alerta se produce cuando falla el montaje en un POD.

Advertencia

Presión PID del nodo

Los identificadores de proceso disponibles en el nodo (Linux) han caído por debajo de un umbral de desalojo.

Busque y repare los pods que generan muchos procesos y privan al nodo de identificadores de procesos disponibles. Configure PodPidsLimit para proteger su nodo contra pods o contenedores que generan demasiados procesos.

Crítico @ > 0

Error en la extracción de la imagen del pod

Kubernetes no pudo extraer la imagen del contenedor del pod.

- Asegúrese de que la imagen del pod esté escrita correctamente en la configuración del pod. - Verifique que la etiqueta de imagen exista en su registro. - Verificar las credenciales para el registro de imágenes. - Verifique si hay problemas de conectividad del registro. - Verifique que no esté alcanzando los límites de tarifas impuestos por los proveedores de registro público.

Advertencia

El trabajo se está ejecutando demasiado tiempo

El trabajo se está ejecutando durante demasiado tiempo

Advertencia @ > 1 h Crítico @ > 5 h

Memoria de nodo alta

El uso de memoria del nodo es alto

Añadir nodos. Repara cualquier nodo no programado. Pods de tamaño adecuado para liberar memoria en los nodos.

Advertencia @ > 85 % Crítico @ > 90 %

Los límites de CPU de ResourceQuota están a punto de superarse

Los límites de CPU para el espacio de nombres están a punto de superar la cuota de recursos

Advertencia @ > 80 % Crítico @ > 90 %

Retroceso del bucle de choque de cápsula

El pod se bloqueó y se intentó reiniciar varias veces.

Crítico @ > 3

CPU de nodo alta

El uso de CPU del nodo es alto.

Añadir nodos. Repara cualquier nodo no programado. Pods de tamaño adecuado para liberar CPU en los nodos.

Advertencia @ > 80 % Crítico @ > 90 %

Latencia de red de carga de trabajo RTT alta

Alta latencia TCP RTT (tiempo de ida y vuelta)

Comprobar la congestión de la red ▒ Identifique las cargas de trabajo que consumen mucho ancho de banda de la red. Comprueba si el Pod tiene una alta utilización de CPU. Compruebe el rendimiento de la red de hardware.

Advertencia a > 150 ms Crítico a > 300 ms

Trabajo fallido

El trabajo no se completó correctamente debido a una falla o reinicio del nodo, agotamiento de recursos, tiempo de espera del trabajo o falla en la programación del pod.

Consulte los registros de eventos de Kubernetes para conocer las causas de las fallas.

Advertencia @ > 1

Volumen persistente lleno en unos pocos días

El volumen persistente se quedará sin espacio en unos días

-Aumente el tamaño del volumen para garantizar que haya suficiente espacio para los archivos de la aplicación. -Reducir la cantidad de datos almacenados en las aplicaciones.

Advertencia @ < 8 días Crítico @ < 3 días

Presión de memoria del nodo

El nodo se está quedando sin memoria. La memoria disponible ha alcanzado el umbral de desalojo.

Añadir nodos. Repara cualquier nodo no programado. Pods de tamaño adecuado para liberar memoria en los nodos.

Crítico @ > 0

Nodo no listo

El nodo no ha estado listo durante 5 minutos

Verifique que el nodo tenga suficientes recursos de CPU, memoria y disco. Verifique la conectividad de la red del nodo. Consulte los registros de eventos de Kubernetes para conocer las causas de las fallas.

Crítico @ < 1

Capacidad de volumen persistente alta

La capacidad utilizada del backend de volumen persistente es alta.

- Aumente el tamaño del volumen para garantizar que haya suficiente espacio para los archivos de la aplicación. - Reducir la cantidad de datos almacenados en las aplicaciones.

Advertencia @ > 80 % Crítico @ > 90 %

Error en la creación del balanceador de carga de servicio

Error en la creación del balanceador de carga de servicio

Crítico

Desajuste de réplicas de carga de trabajo

Algunos pods actualmente no están disponibles para una implementación o un DaemonSet.

Advertencia @ > 1

Solicitudes de CPU de ResourceQuota a punto de superarse

Las solicitudes de CPU para el espacio de nombres están a punto de superar la cuota de recursos

Advertencia @ > 80 % Crítico @ > 90 %

Alta tasa de retransmisión

Alta tasa de retransmisión de TCP

Comprobar la congestión de la red: identifique las cargas de trabajo que consumen mucho ancho de banda de la red. Comprueba si el Pod tiene una alta utilización de CPU. Compruebe el rendimiento de la red de hardware.

Advertencia @ > 10 % Crítico @ > 25 %

Presión del disco del nodo

El espacio de disco y los inodos disponibles en el sistema de archivos raíz o en el sistema de archivos de imagen del nodo han satisfecho un umbral de desalojo.

- Aumente el tamaño de los discos del nodo para garantizar que haya suficiente espacio para los archivos de la aplicación. - Disminuir el uso de archivos de la aplicación.

Crítico @ > 0

Alta saturación de CPU del clúster

La saturación de CPU asignable del clúster es alta. La saturación de la CPU del clúster se calcula como la suma del uso de la CPU dividida por la suma de la CPU asignable en todos los nodos de K8.

Añadir nodos. Repara cualquier nodo no programado. Pods de tamaño adecuado para liberar CPU en los nodos.

Advertencia @ > 80 % Crítico @ > 90 %

Monitores de registro de cambios

Nombre del monitor

Gravedad

Descripción del monitor

Volumen interno descubierto

Informativo

Este mensaje aparece cuando se descubre un volumen interno.

Volumen interno modificado

Informativo

Este mensaje aparece cuando se modifica un volumen interno.

Nodo de almacenamiento descubierto

Informativo

Este mensaje aparece cuando se descubre un nodo de almacenamiento.

Nodo de almacenamiento eliminado

Informativo

Este mensaje aparece cuando se elimina un nodo de almacenamiento.

Pool de almacenamiento descubierto

Informativo

Este mensaje aparece cuando se descubre un grupo de almacenamiento.

Máquina virtual de almacenamiento descubierta

Informativo

Este mensaje aparece cuando se descubre una máquina virtual de almacenamiento.

Máquina virtual de almacenamiento modificada

Informativo

Este mensaje aparece cuando se modifica una máquina virtual de almacenamiento.

Monitores de recopilación de datos

Nombre del monitor

Descripción

Acción correctiva

Parada de la unidad de adquisición

Las unidades de adquisición de Data Infrastructure Insights se reinician periódicamente como parte de las actualizaciones para introducir nuevas funciones. Esto sucede una vez al mes o menos en un entorno típico. Una alerta de advertencia de que una unidad de adquisición se ha cerrado debe ser seguida poco después por una resolución que indique que la unidad de adquisición recientemente reiniciada ha completado un registro en Data Infrastructure Insights. Normalmente, este ciclo de apagado a registro demora entre 5 y 15 minutos.

Si la alerta ocurre con frecuencia o dura más de 15 minutos, verifique el funcionamiento del sistema que aloja la Unidad de Adquisición, la red y cualquier proxy que conecta la AU a Internet.

El colector falló

La encuesta de un recopilador de datos se topó con una situación de falla inesperada.

Visite la página del recopilador de datos en Data Infrastructure Insights para obtener más información sobre la situación.

Advertencia para coleccionistas

Esta alerta generalmente puede surgir debido a una configuración errónea del recopilador de datos o del sistema de destino. Revise las configuraciones para evitar futuras alertas. También puede deberse a una recuperación de datos incompletos en la que el recolector de datos reunió todos los datos que pudo. Esto puede suceder cuando las situaciones cambian durante la recopilación de datos (por ejemplo, una máquina virtual presente al comienzo de la recopilación de datos se elimina durante la recopilación de datos y antes de que se capturen sus datos).

Verifique la configuración del recopilador de datos o del sistema de destino. Tenga en cuenta que el monitor de advertencia de recopilador puede enviar más alertas que otros tipos de monitores, por lo que se recomienda no configurar destinatarios de alerta a menos que esté solucionando problemas.

Monitores de seguridad

Nombre del monitor

Límite

Descripción del monitor

Acción correctiva

Transporte HTTPS de AutoSupport deshabilitado

Advertencia @ < 1

AutoSupport admite HTTPS, HTTP y SMTP como protocolos de transporte. Debido a la naturaleza sensible de los mensajes de AutoSupport , NetApp recomienda enfáticamente utilizar HTTPS como protocolo de transporte predeterminado para enviar mensajes de AutoSupport al soporte de NetApp .

Para configurar HTTPS como protocolo de transporte para los mensajes de AutoSupport , ejecute el siguiente comando ONTAP :…system node autosupport modify -transport https

Cifrados inseguros de clúster para SSH

Advertencia @ < 1

Indica que SSH está utilizando cifrados inseguros, por ejemplo, cifrados que comienzan con *cbc.

Para eliminar los cifrados CBC, ejecute el siguiente comando ONTAP :…security ssh remove -vserver <admin vserver> -ciphers aes256-cbc,aes192-cbc,aes128-cbc,3des-cbc

Banner de inicio de sesión del clúster deshabilitado

Advertencia @ < 1

Indica que el banner de inicio de sesión está deshabilitado para los usuarios que acceden al sistema ONTAP . Mostrar un banner de inicio de sesión es útil para establecer expectativas de acceso y uso del sistema.

Para configurar el banner de inicio de sesión para un clúster, ejecute el siguiente comando ONTAP :…security login banner modify -vserver <admin svm> -message "Acceso restringido a usuarios autorizados"

Comunicación entre pares del clúster no cifrada

Advertencia @ < 1

Al replicar datos para recuperación ante desastres, almacenamiento en caché o copia de seguridad, debe proteger esos datos durante el transporte por cable desde un clúster de ONTAP a otro. El cifrado debe configurarse tanto en el clúster de origen como en el de destino.

Para habilitar el cifrado en las relaciones entre pares del clúster que se crearon antes de ONTAP 9.6, el clúster de origen y de destino se deben actualizar a 9.6. Luego, utilice el comando "cluster peer modification" para cambiar los pares del clúster de origen y destino para que utilicen el cifrado de intercambio de tráfico de clúster. Consulte la Guía de refuerzo de seguridad de NetApp para ONTAP 9 para obtener más detalles.

Usuario administrador local predeterminado habilitado

Advertencia @ > 0

NetApp recomienda bloquear (deshabilitar) cualquier cuenta de usuario administrador predeterminado (integrada) innecesaria con el comando de bloqueo. Se trata principalmente de cuentas predeterminadas cuyas contraseñas nunca se actualizaron ni cambiaron.

Para bloquear la cuenta "admin" incorporada, ejecute el siguiente comando ONTAP :…security login lock -username admin

Modo FIPS deshabilitado

Advertencia @ < 1

Cuando la conformidad con FIPS 140-2 está habilitada, TLSv1 y SSLv3 se deshabilitan, y solo TLSv1.1 y TLSv1.2 permanecen habilitados. ONTAP le impide habilitar TLSv1 y SSLv3 cuando la conformidad con FIPS 140-2 está habilitada.

Para habilitar la conformidad con FIPS 140-2 en un clúster, ejecute el siguiente comando ONTAP en modo de privilegio avanzado:…security config modify -interface SSL -is-fips-enabled true

Reenvío de registros no cifrado

Advertencia @ < 1

La descarga de información de syslog es necesaria para limitar el alcance o la huella de una violación a un solo sistema o solución. Por lo tanto, NetApp recomienda descargar de forma segura la información de syslog a una ubicación de almacenamiento o retención segura.

Una vez que se crea un destino de reenvío de registros, su protocolo no se puede cambiar. Para cambiar a un protocolo cifrado, elimine y vuelva a crear el destino de reenvío de registros mediante el siguiente comando ONTAP :…cluster log-forwarding create -destination <destination ip> -protocol tcp-encrypted

Contraseña con hash MD5

Advertencia @ > 0

NetApp recomienda encarecidamente utilizar la función hash SHA-512 más segura para las contraseñas de cuentas de usuario de ONTAP . Las cuentas que utilizan la función hash MD5, menos segura, deberían migrar a la función hash SHA-512.

NetApp recomienda encarecidamente que las cuentas de usuario migren a la solución SHA-512 más segura haciendo que los usuarios cambien sus contraseñas. Para bloquear cuentas con contraseñas que usan la función hash MD5, ejecute el siguiente comando ONTAP : security login lock -vserver * -username * -hash-function md5

No hay servidores NTP configurados

Advertencia @ < 1

Indica que el clúster no tiene servidores NTP configurados. Para lograr redundancia y un servicio óptimo, NetApp recomienda asociar al menos tres servidores NTP con el clúster.

Para asociar un servidor NTP con el clúster, ejecute el siguiente comando ONTAP : cluster time-service ntp server create -server <nombre de host o dirección IP del servidor ntp>

El número de servidores NTP es bajo

Advertencia @ < 3

Indica que el clúster tiene menos de 3 servidores NTP configurados. Para lograr redundancia y un servicio óptimo, NetApp recomienda asociar al menos tres servidores NTP con el clúster.

Para asociar un servidor NTP con el clúster, ejecute el siguiente comando ONTAP :…cluster time-service ntp server create -server <nombre de host o dirección IP del servidor ntp>

Shell remoto habilitado

Advertencia @ > 0

Remote Shell no es un método seguro para establecer acceso mediante línea de comandos a la solución ONTAP . El Shell remoto debe estar deshabilitado para un acceso remoto seguro.

NetApp recomienda Secure Shell (SSH) para acceso remoto seguro. Para deshabilitar el shell remoto en un clúster, ejecute el siguiente comando ONTAP en modo de privilegio avanzado: security protocol modify -application rsh- enabled false

Registro de auditoría de máquinas virtuales de almacenamiento deshabilitado

Advertencia @ < 1

Indica que el registro de auditoría está deshabilitado para SVM.

Para configurar el registro de auditoría de un vserver, ejecute el siguiente comando ONTAP :…vserver audit enable -vserver <svm>

Cifrados inseguros de máquinas virtuales de almacenamiento para SSH

Advertencia @ < 1

Indica que SSH está utilizando cifrados inseguros, por ejemplo, cifrados que comienzan con *cbc.

Para eliminar los cifrados CBC, ejecute el siguiente comando ONTAP :…security ssh remove -vserver <vserver> -ciphers aes256-cbc,aes192-cbc,aes128-cbc,3des-cbc

Banner de inicio de sesión de Storage VM deshabilitado

Advertencia @ < 1

Indica que el banner de inicio de sesión está deshabilitado para los usuarios que acceden a las SVM en el sistema. Mostrar un banner de inicio de sesión es útil para establecer expectativas de acceso y uso del sistema.

Para configurar el banner de inicio de sesión para un clúster, ejecute el siguiente comando ONTAP :…security login banner modify -vserver <svm> -message "Acceso restringido a usuarios autorizados"

Protocolo Telnet habilitado

Advertencia @ > 0

Telnet no es un método seguro para establecer acceso mediante línea de comandos a la solución ONTAP . Telnet debe estar deshabilitado para un acceso remoto seguro.

NetApp recomienda Secure Shell (SSH) para acceso remoto seguro. Para deshabilitar Telnet en un clúster, ejecute el siguiente comando ONTAP en modo de privilegio avanzado:…security protocol modify -application telnet -enabled false

Monitores de protección de datos

Nombre del monitor

Umbrales

Descripción del monitor

Acción correctiva

Espacio insuficiente para la copia de instantánea de LUN

(El filtro contiene_luns = Sí) Advertencia @ > 95 %… Crítica @ > 100 %

La capacidad de almacenamiento de un volumen es necesaria para almacenar datos de aplicaciones y clientes. Una parte de ese espacio, denominada espacio reservado para instantáneas, se utiliza para almacenar instantáneas que permiten proteger los datos localmente. Cuantos más datos nuevos y actualizados se almacenen en el volumen ONTAP , más capacidad de instantáneas se utilizará y menos capacidad de almacenamiento de instantáneas estará disponible para futuros datos nuevos o actualizados. Si la capacidad de datos de instantáneas dentro de un volumen alcanza el espacio total de reserva de instantáneas, es posible que el cliente no pueda almacenar nuevos datos de instantáneas y se reduzca el nivel de protección de los datos en los LUN del volumen. La supervisión del volumen utilizado de la capacidad de instantáneas garantiza la continuidad de los servicios de datos.

Acciones inmediatas Si se supera el umbral crítico, considere acciones inmediatas para minimizar la interrupción del servicio: 1. Configure instantáneas para utilizar el espacio de datos en el volumen cuando la reserva de instantáneas esté llena. 2. Elimina algunas instantáneas antiguas no deseadas para liberar espacio. Acciones a realizar pronto Si se supera el umbral de advertencia, planifique tomar las siguientes acciones inmediatas: 1. Aumente el espacio de reserva de instantáneas dentro del volumen para adaptarse al crecimiento. 2. Configure instantáneas para utilizar el espacio de datos en el volumen cuando la reserva de instantáneas esté llena.

Retraso en la relación de SnapMirror

Advertencia @ > 150%…Crítica @ > 300%

El retraso de la relación de SnapMirror es la diferencia entre la marca de tiempo de la instantánea y la hora en el sistema de destino. Lag_time_percent es la relación entre el tiempo de retraso y el intervalo de programación de la política SnapMirror . Si el tiempo de retraso es igual al intervalo de programación, el lag_time_percent será 100%. Si la política SnapMirror no tiene una programación, no se calculará lag_time_percent.

Supervise el estado de SnapMirror utilizando el comando "snapmirror show". Verifique el historial de transferencias de SnapMirror usando el comando "snapmirror show-history"

Monitores de volumen de nube (CVO)

Nombre del monitor

Gravedad de CI

Descripción del monitor

Acción correctiva

Disco CVO fuera de servicio

INFORMACIÓN

Este evento ocurre cuando un disco se retira del servicio porque ha sido marcado como fallido, está siendo desinfectado o ha ingresado al Centro de mantenimiento.

Ninguno

Falló la devolución del grupo de almacenamiento de CVO

CRÍTICO

Este evento ocurre durante la migración de un agregado como parte de una devolución de conmutación por error de almacenamiento (SFO), cuando el nodo de destino no puede alcanzar los almacenes de objetos.

Realice las siguientes acciones correctivas: Verifique que su LIF entre clústeres esté en línea y funcional mediante el comando "network interface show". Verifique la conectividad de la red con el servidor de almacén de objetos mediante el comando "ping" a través del LIF entre clústeres del nodo de destino. Verifique que la configuración de su almacén de objetos no haya cambiado y que la información de inicio de sesión y conectividad aún sea precisa utilizando el comando "aggregate object-store config show". Alternativamente, puede anular el error especificando falso para el parámetro "require-partner-waiting" del comando giveback. Comuníquese con el soporte técnico de NetApp para obtener más información o asistencia.

Interconexión CVO HA inactiva

ADVERTENCIA

La interconexión de alta disponibilidad (HA) está inactiva. Riesgo de interrupción del servicio cuando la conmutación por error no está disponible.

Las acciones correctivas dependen de la cantidad y el tipo de enlaces de interconexión de alta disponibilidad (HA) admitidos por la plataforma, así como del motivo por el cual la interconexión no funciona. Si los enlaces están inactivos: Verifique que ambos controladores en el par HA estén operativos. Para enlaces conectados externamente, asegúrese de que los cables de interconexión estén conectados correctamente y que los conectores SFP (de factor de forma pequeño), si corresponde, estén colocados correctamente en ambos controladores. Para los enlaces conectados internamente, deshabilite y vuelva a habilitar los enlaces, uno tras otro, utilizando los comandos "ic link off" y "ic link on". Si los enlaces están deshabilitados, habilítelos mediante el comando "ic link on". Si un par no está conectado, deshabilite y vuelva a habilitar los enlaces, uno tras otro, utilizando los comandos "ic link off" y "ic link on". Comuníquese con el soporte técnico de NetApp si el problema persiste.

Se superó el máximo de sesiones por usuario de CVO

ADVERTENCIA

Ha excedido el número máximo de sesiones permitidas por usuario en una conexión TCP. Cualquier solicitud para establecer una sesión será denegada hasta que se liberen algunas sesiones.

Realice las siguientes acciones correctivas: inspeccione todas las aplicaciones que se ejecutan en el cliente y finalice aquellas que no funcionen correctamente. Reinicie el cliente. Compruebe si el problema es causado por una aplicación nueva o existente: si la aplicación es nueva, establezca un umbral más alto para el cliente utilizando el comando "cifs option modify -max-opens-same-file-per-tree". En algunos casos, los clientes operan como se espera, pero requieren un umbral más alto. Debe tener privilegios avanzados para establecer un umbral más alto para el cliente. Si el problema es causado por una aplicación existente, podría haber un problema con el cliente. Comuníquese con el soporte técnico de NetApp para obtener más información o asistencia.

Conflicto de nombres NetBIOS de CVO

CRÍTICO

El servicio de nombres NetBIOS ha recibido una respuesta negativa a una solicitud de registro de nombre, desde una máquina remota. Generalmente, esto se debe a un conflicto en el nombre NetBIOS o un alias. Como resultado, es posible que los clientes no puedan acceder a los datos o conectarse al nodo de servicio de datos correcto en el clúster.

Realice cualquiera de las siguientes acciones correctivas: Si hay un conflicto en el nombre NetBIOS o un alias, realice una de las siguientes acciones: Elimine el alias NetBIOS duplicado mediante el comando "vserver cifs delete -aliases alias -vserver vserver". Cambie el nombre de un alias NetBIOS eliminando el nombre duplicado y agregando un alias con un nombre nuevo mediante el comando "vserver cifs create -aliases alias -vserver vserver". Si no hay alias configurados y hay un conflicto en el nombre NetBIOS, cambie el nombre del servidor CIFS utilizando los comandos "vserver cifs delete -vserver vserver" y "vserver cifs create -cifs-server netbiosname". NOTA: Eliminar un servidor CIFS puede hacer que los datos sean inaccesibles. Elimine el nombre NetBIOS o cambie el nombre del NetBIOS en la máquina remota.

El grupo de almacenamiento NFSv4 de CVO se ha agotado

CRÍTICO

Se ha agotado un grupo de almacenamiento NFSv4.

Si el servidor NFS no responde durante más de 10 minutos después de este evento, comuníquese con el soporte técnico de NetApp .

Pánico en el nodo CVO

ADVERTENCIA

Este evento se emite cuando se produce un pánico.

Comuníquese con el servicio de atención al cliente de NetApp .

Espacio bajo en el volumen raíz del nodo CVO

CRÍTICO

El sistema ha detectado que el volumen raíz tiene un espacio peligrosamente bajo. El nodo no está completamente operativo. Es posible que los LIF de datos hayan fallado dentro del clúster, por lo que el acceso a NFS y CIFS está limitado en el nodo. La capacidad administrativa está limitada a los procedimientos de recuperación local para que el nodo libere espacio en el volumen raíz.

Realice las siguientes acciones correctivas: libere espacio en el volumen raíz eliminando copias de instantáneas antiguas, eliminando archivos que ya no necesita del directorio /mroot o ampliando la capacidad del volumen raíz. Reinicie el controlador. Comuníquese con el soporte técnico de NetApp para obtener más información o asistencia.

CVO Compartir administrador inexistente

CRÍTICO

Problema de Vscan: un cliente intentó conectarse a un recurso compartido ONTAP_ADMIN$ inexistente.

Asegúrese de que Vscan esté habilitado para el ID de SVM mencionado. Al habilitar Vscan en una SVM, se crea automáticamente el recurso compartido ONTAP_ADMIN$ para la SVM.

Host de almacén de objetos CVO irresoluble

CRÍTICO

El nombre de host del servidor de almacenamiento de objetos no se puede resolver en una dirección IP. El cliente del almacén de objetos no puede comunicarse con el servidor del almacén de objetos sin resolverse en una dirección IP. Como resultado, los datos podrían resultar inaccesibles.

Verifique la configuración de DNS para verificar que el nombre de host esté configurado correctamente con una dirección IP.

LIF entre clústeres del almacén de objetos CVO inactivo

CRÍTICO

El cliente del almacén de objetos no puede encontrar un LIF operativo para comunicarse con el servidor del almacén de objetos. El nodo no permitirá el tráfico de clientes del almacén de objetos hasta que el LIF entre clústeres esté operativo. Como resultado, los datos podrían resultar inaccesibles.

Realice las siguientes acciones correctivas: Verifique el estado del LIF entre clústeres mediante el comando "network interface show -role intercluster". Verifique que el LIF entre clústeres esté configurado correctamente y operativo. Si no se configura un LIF entre clústeres, agréguelo mediante el comando "network interface create -role intercluster".

Falta de coincidencia de firmas del almacén de objetos CVO

CRÍTICO

La firma de solicitud enviada al servidor de almacén de objetos no coincide con la firma calculada por el cliente. Como resultado, los datos podrían resultar inaccesibles.

Verifique que la clave de acceso secreta esté configurada correctamente. Si está configurado correctamente, comuníquese con el soporte técnico de NetApp para obtener ayuda.

Memoria del monitor QoS de CVO al máximo

CRÍTICO

La memoria dinámica del subsistema QoS ha alcanzado su límite para el hardware de la plataforma actual. Algunas funciones de QoS podrían funcionar con una capacidad limitada.

Elimine algunas cargas de trabajo o transmisiones activas para liberar memoria. Utilice el comando “statistics show -object workload -counter ops” para determinar qué cargas de trabajo están activas. Las cargas de trabajo activas muestran operaciones distintas de cero. Luego, utilice el comando “workload delete <workload_name>” varias veces para eliminar cargas de trabajo específicas. Como alternativa, utilice el comando “stream delete -workload <workload name> *” para eliminar los flujos asociados de la carga de trabajo activa.

Tiempo de espera de CVO READDIR

CRÍTICO

Una operación de archivo READDIR ha excedido el tiempo de espera permitido para su ejecución en WAFL. Esto puede deberse a directorios muy grandes o dispersos. Se recomienda tomar medidas correctivas.

Realice las siguientes acciones correctivas: Busque información específica de los directorios recientes en los que expiraron las operaciones de archivo READDIR mediante el siguiente comando CLI de nodeshell con privilegio 'diag': wafl readdir notice show. Compruebe si los directorios están indicados como dispersos o no: si un directorio está indicado como disperso, se recomienda copiar el contenido del directorio a un nuevo directorio para eliminar la dispersión del archivo del directorio. Si un directorio no está indicado como disperso y el directorio es grande, se recomienda reducir el tamaño del archivo del directorio reduciendo la cantidad de entradas de archivo en el directorio.

Falló la reubicación del grupo de almacenamiento de CVO

CRÍTICO

Este evento ocurre durante la reubicación de un agregado, cuando el nodo de destino no puede alcanzar los almacenes de objetos.

Realice las siguientes acciones correctivas: Verifique que su LIF entre clústeres esté en línea y funcional mediante el comando "network interface show". Verifique la conectividad de la red con el servidor de almacén de objetos mediante el comando "ping" a través del LIF entre clústeres del nodo de destino. Verifique que la configuración de su almacén de objetos no haya cambiado y que la información de inicio de sesión y conectividad aún sea precisa utilizando el comando "aggregate object-store config show". Alternativamente, puede anular el error utilizando el parámetro "override-destination-checks" del comando de reubicación. Comuníquese con el soporte técnico de NetApp para obtener más información o asistencia.

Error en la copia de sombra de CVO

CRÍTICO

Se ha producido un error en una operación de copia de seguridad y restauración del Servicio de instantáneas de volumen (VSS) de Microsoft Server.

Verifique lo siguiente utilizando la información proporcionada en el mensaje del evento: ¿Está habilitada la configuración de copia de sombra? ¿Están instaladas las licencias adecuadas? ¿En qué acciones se realiza la operación de shadow copy? ¿Es correcto el nombre de la acción? ¿Existe la ruta compartida? ¿Cuáles son los estados del conjunto de copias de sombra y sus copias de sombra?

La máquina virtual de almacenamiento CVO se detuvo correctamente

INFORMACIÓN

Este mensaje aparece cuando una operación 'vserver stop' tiene éxito.

Utilice el comando 'vserver start' para iniciar el acceso a los datos en una máquina virtual de almacenamiento.

CVO Demasiadas autenticaciones CIFS

ADVERTENCIA

Se han producido simultáneamente muchas negociaciones de autenticación. Hay 256 solicitudes de nueva sesión incompletas de este cliente.

Investigue por qué el cliente ha creado 256 o más solicitudes de conexión nuevas. Es posible que tengas que ponerte en contacto con el proveedor del cliente o de la aplicación para determinar por qué se produjo el error.

Discos no asignados CVO

INFORMACIÓN

El sistema tiene discos sin asignar: se está desperdiciando capacidad y es posible que su sistema tenga alguna configuración incorrecta o un cambio de configuración parcial aplicado.

Realice las siguientes acciones correctivas: Determine qué discos no están asignados mediante el comando "disk show -n". Asigne los discos a un sistema mediante el comando "disk assign".

Acceso de usuario no autorizado a la cuenta de administrador de CVO

ADVERTENCIA

Un cliente intentó conectarse al recurso compartido privilegiado ONTAP_ADMIN$ aunque su usuario conectado no es un usuario permitido.

Realice las siguientes acciones correctivas: Asegúrese de que el nombre de usuario y la dirección IP mencionados estén configurados en uno de los grupos de escáneres Vscan activos. Verifique la configuración del grupo de escáneres que está actualmente activo mediante el comando "vserver vscan scanner pool show-active".

Virus CVO detectado

ADVERTENCIA

Un servidor Vscan ha informado de un error al sistema de almacenamiento. Esto generalmente indica que se ha encontrado un virus. Sin embargo, otros errores en el servidor Vscan pueden causar este evento. Se deniega el acceso del cliente al archivo. El servidor Vscan podría, dependiendo de su configuración, limpiar el archivo, ponerlo en cuarentena o eliminarlo.

Verifique el registro del servidor Vscan informado en el evento "syslog" para ver si pudo limpiar, poner en cuarentena o eliminar con éxito el archivo infectado. Si no puede hacerlo, es posible que un administrador del sistema tenga que eliminar el archivo manualmente.

Volumen CVO sin conexión

INFORMACIÓN

Este mensaje indica que un volumen está fuera de línea.

Vuelva a poner el volumen en línea.

Volumen CVO restringido

INFORMACIÓN

Este evento indica que un volumen flexible está restringido.

Vuelva a poner el volumen en línea.

Monitores de registro del mediador de SnapMirror para la continuidad empresarial (SMBC)

Nombre del monitor

Gravedad

Descripción del monitor

Acción correctiva

Mediador ONTAP añadido

INFORMACIÓN

Este mensaje aparece cuando ONTAP Mediator se agrega correctamente a un clúster.

Ninguno

Mediador de ONTAP no accesible

CRÍTICO

Este mensaje aparece cuando se reutiliza ONTAP Mediator o cuando el paquete Mediator ya no está instalado en el servidor Mediator. Como resultado, la conmutación por error de SnapMirror no es posible.

Elimine la configuración del mediador ONTAP actual mediante el comando "snapmirror mediator remove". Reconfigure el acceso al Mediador ONTAP mediante el comando "snapmirror mediator add".

Mediador de ONTAP eliminado

INFORMACIÓN

Este mensaje aparece cuando ONTAP Mediator se elimina correctamente de un clúster.

Ninguno

Mediador de ONTAP inalcanzable

ADVERTENCIA

Este mensaje aparece cuando no se puede acceder al mediador de ONTAP en un clúster. Como resultado, la conmutación por error de SnapMirror no es posible.

Verifique la conectividad de red al Mediador ONTAP mediante los comandos "network ping" y "network traceroute". Si el problema persiste, elimine la configuración del Mediador ONTAP actual mediante el comando "snapmirror mediator remove". Reconfigure el acceso al Mediador ONTAP mediante el comando "snapmirror mediator add".

Certificado CA SMBC expirado

CRÍTICO

Este mensaje aparece cuando el certificado de la autoridad de certificación (CA) de ONTAP Mediator ha expirado. Como resultado, no será posible ninguna comunicación adicional con el Mediador de ONTAP .

Elimine la configuración del mediador ONTAP actual mediante el comando "snapmirror mediator remove". Actualice un nuevo certificado de CA en el servidor ONTAP Mediator. Reconfigure el acceso al Mediador ONTAP mediante el comando "snapmirror mediator add".

Certificado de CA de SMBC a punto de expirar

ADVERTENCIA

Este mensaje aparece cuando el certificado de la autoridad de certificación (CA) de ONTAP Mediator está a punto de vencer dentro de los próximos 30 días.

Antes de que este certificado expire, elimine la configuración del Mediador ONTAP actual mediante el comando "snapmirror mediator remove". Actualice un nuevo certificado de CA en el servidor ONTAP Mediator. Reconfigure el acceso al Mediador ONTAP mediante el comando "snapmirror mediator add".

Certificado de cliente SMBC expirado

CRÍTICO

Este mensaje aparece cuando el certificado del cliente ONTAP Mediator ha expirado. Como resultado, no será posible ninguna comunicación adicional con el Mediador de ONTAP .

Elimine la configuración del mediador ONTAP actual mediante el comando "snapmirror mediator remove". Reconfigure el acceso al Mediador ONTAP mediante el comando "snapmirror mediator add".

Certificado de cliente SMBC a punto de expirar

ADVERTENCIA

Este mensaje aparece cuando el certificado del cliente ONTAP Mediator está a punto de vencer dentro de los próximos 30 días.

Antes de que este certificado expire, elimine la configuración del Mediador ONTAP actual mediante el comando "snapmirror mediator remove". Reconfigure el acceso al Mediador ONTAP mediante el comando "snapmirror mediator add".

Relación SMBC fuera de sincronización Nota: UM no tiene esta

CRÍTICO

Este mensaje aparece cuando una relación de SnapMirror for Business Continuity (SMBC) cambia su estado de "sincronizado" a "desincronizado". Debido a este RPO=0 la protección de datos se verá interrumpida.

Verifique la conexión de red entre los volúmenes de origen y destino. Supervise el estado de la relación SMBC utilizando el comando "snapmirror show" en el destino y el comando "snapmirror list-destinations" en el origen. La resincronización automática intentará que la relación vuelva al estado "sincronizado". Si la resincronización falla, verifique que todos los nodos del clúster estén en quórum y funcionen correctamente.

Certificado de servidor SMBC expirado

CRÍTICO

Este mensaje aparece cuando el certificado del servidor ONTAP Mediator ha expirado. Como resultado, no será posible ninguna comunicación adicional con el Mediador de ONTAP .

Elimine la configuración del mediador ONTAP actual mediante el comando "snapmirror mediator remove". Actualice un nuevo certificado de servidor en el servidor ONTAP Mediator. Reconfigure el acceso al Mediador ONTAP mediante el comando "snapmirror mediator add".

Certificado de servidor SMBC a punto de expirar

ADVERTENCIA

Este mensaje aparece cuando el certificado del servidor ONTAP Mediator está a punto de vencer dentro de los próximos 30 días.

Antes de que este certificado expire, elimine la configuración del Mediador ONTAP actual mediante el comando "snapmirror mediator remove". Actualice un nuevo certificado de servidor en el servidor ONTAP Mediator. Reconfigure el acceso al Mediador ONTAP mediante el comando "snapmirror mediator add".

Monitores adicionales de energía, frecuencia cardíaca y otros sistemas

Nombre del monitor Gravedad Descripción del monitor Acción correctiva

Se descubrió una fuente de alimentación para estantes de discos

INFORMATIVO

Este mensaje aparece cuando se agrega una unidad de fuente de alimentación al estante de discos.

NINGUNO

Estantes de discos Fuente de alimentación retirada

INFORMATIVO

Este mensaje aparece cuando se quita una unidad de fuente de alimentación del estante de discos.

NINGUNO

Cambio automático no planificado de MetroCluster deshabilitado

CRÍTICO

Este mensaje aparece cuando la capacidad de cambio automático no planificado está deshabilitada.

Ejecute el comando "metrocluster modify -node-name <nodename> -automatic-switchover-onfailure true" para cada nodo del clúster para habilitar el cambio automático.

Puente de almacenamiento de MetroCluster inaccesible

CRÍTICO

No se puede acceder al puente de almacenamiento a través de la red de administración

1) Si el puente está monitoreado por SNMP, verifique que el LIF de administración de nodos esté activo utilizando el comando "network interface show". Verifique que el puente esté activo utilizando el comando "ping de red". 2) Si el puente se monitorea en banda, verifique el cableado de la red hacia el puente y luego verifique que el puente esté encendido.

Temperatura del puente MetroCluster anormal - por debajo del nivel crítico

CRÍTICO

El sensor del puente Fibre Channel informa una temperatura que está por debajo del umbral crítico.

1) Verifique el estado operativo de los ventiladores del puente de almacenamiento. 2) Verificar que el puente esté operando bajo las condiciones de temperatura recomendadas.

Temperatura del puente MetroCluster anormal - por encima del nivel crítico

CRÍTICO

El sensor del puente Fibre Channel informa una temperatura que está por encima del umbral crítico.

1) Verifique el estado operativo del sensor de temperatura del chasis en el puente de almacenamiento utilizando el comando "storage bridge show -cooling". 2) Verifique que el puente de almacenamiento esté funcionando en las condiciones de temperatura recomendadas.

El agregado de MetroCluster se quedó atrás

ADVERTENCIA

El agregado quedó abandonado durante el retroceso.

1) Verifique el estado agregado utilizando el comando "aggr show". 2) Si el agregado está en línea, devuélvalo a su propietario original utilizando el comando "metrocluster switchback".

Todos los vínculos entre los socios de Metrocluster están caídos

CRÍTICO

Los adaptadores de interconexión RDMA y los LIF entre clústeres tienen conexiones interrumpidas con el clúster emparejado o el clúster emparejado está inactivo.

1) Asegúrese de que los LIF entre clústeres estén en funcionamiento. Reparar los LIF entre clústeres si están inactivos. 2) Verifique que el clúster emparejado esté en funcionamiento mediante el comando "cluster peer ping". Consulte la Guía de recuperación ante desastres de MetroCluster si el clúster emparejado no funciona. 3) Para el fabric MetroCluster, verifique que los ISL de fabric de back-end estén en funcionamiento. Reparar los ISL de la estructura del back-end si están caídos. 4) Para configuraciones de MetroCluster que no sean de estructura, verifique que el cableado sea correcto entre los adaptadores de interconexión RDMA. Reconfigure el cableado si los enlaces están inactivos.

Los socios de MetroCluster no son accesibles a través de la red de intercambio de tráfico

CRÍTICO

La conectividad con el clúster de pares está interrumpida.

1) Asegúrese de que el puerto esté conectado a la red/conmutador correcto. 2) Asegúrese de que el LIF entre clústeres esté conectado con el clúster emparejado. 3) Asegúrese de que el clúster emparejado esté en funcionamiento mediante el comando "cluster peer ping". Consulte la Guía de recuperación ante desastres de MetroCluster si el clúster emparejado no funciona.

MetroCluster Inter Switch Todos los enlaces caen

CRÍTICO

Todos los enlaces entre conmutadores (ISL) en el conmutador de almacenamiento están inactivos.

1) Reparar los ISL de la estructura back-end en el conmutador de almacenamiento. 2) Asegúrese de que el conmutador asociado esté activo y sus ISL estén operativos. 3) Asegúrese de que los equipos intermedios, como los dispositivos xWDM, estén operativos.

Enlace SAS del nodo MetroCluster a la pila de almacenamiento inactivo

ADVERTENCIA

Es posible que el adaptador SAS o el cable conectado al mismo sean los causantes de la falla.

1. Verifique que el adaptador SAS esté en línea y funcionando. 2. Verifique que la conexión del cable físico esté segura y funcionando, y reemplace el cable si es necesario. 3. Si el adaptador SAS está conectado a los estantes de discos, asegúrese de que los módulos de E/S y los discos estén colocados correctamente.

Los enlaces iniciadores de MetroClusterFC están caídos

CRÍTICO

El adaptador iniciador FC está defectuoso.

1. Asegúrese de que el enlace del iniciador FC no haya sido alterado. 2. Verifique el estado operativo del adaptador del iniciador FC mediante el comando "system node run -node local -command storage show adapter".

Enlace de interconexión FC-VI inactivo

CRÍTICO

El enlace físico en el puerto FC-VI está fuera de línea.

1. Asegúrese de que el enlace FC-VI no haya sido manipulado. 2. Verifique que el estado físico del adaptador FC-VI sea "Activo" utilizando el comando "metrocluster interconnect adapter show". 3. Si la configuración incluye conmutadores de estructura, asegúrese de que estén correctamente cableados y configurados.

Discos de repuesto de MetroCluster abandonados

ADVERTENCIA

El disco de repuesto se quedó atrás durante el cambio de sentido.

Si el disco no falla, devuélvalo a su propietario original utilizando el comando "metrocluster switchback".

Puerto del puente de almacenamiento de MetroCluster inactivo

CRÍTICO

El puerto en el puente de almacenamiento está fuera de línea.

1) Verifique el estado operativo de los puertos en el puente de almacenamiento utilizando el comando "storage bridge show -ports". 2) Verificar la conectividad lógica y física al puerto.

Fallo en los ventiladores del conmutador de almacenamiento MetroCluster

CRÍTICO

El ventilador del interruptor de almacenamiento falló.

1) Asegúrese de que los ventiladores del conmutador funcionen correctamente utilizando el comando "storage switch show -cooling". 2) Asegúrese de que las FRU del ventilador estén correctamente insertadas y operativas.

Conmutador de almacenamiento de MetroCluster inaccesible

CRÍTICO

No se puede acceder al conmutador de almacenamiento a través de la red de administración.

1) Asegúrese de que el LIF de administración de nodos esté activo mediante el comando "network interface show". 2) Asegúrese de que el conmutador esté activo mediante el comando "ping de red". 3) Asegúrese de que el conmutador sea accesible a través de SNMP verificando su configuración SNMP después de iniciar sesión en el conmutador.

Las fuentes de alimentación del conmutador MetroCluster fallaron

CRÍTICO

Una unidad de fuente de alimentación en el conmutador de almacenamiento no está operativa.

1) Verifique los detalles del error utilizando el comando "storage switch show -error -switch-name <swtich name>". 2) Identifique la unidad de fuente de alimentación defectuosa utilizando el comando "storage switch show -power -switch-name <nombre del interruptor>". 3) Asegúrese de que la unidad de fuente de alimentación esté correctamente insertada en el chasis del conmutador de almacenamiento y esté completamente operativa.

Los sensores de temperatura del conmutador MetroCluster fallaron

CRÍTICO

El sensor del conmutador Fibre Channel falló.

1) Verifique el estado operativo de los sensores de temperatura en el interruptor de almacenamiento utilizando el comando "storage switch show -cooling". 2) Verifique que el interruptor esté funcionando en las condiciones de temperatura recomendadas.

Temperatura anormal del interruptor MetroCluster

CRÍTICO

El sensor de temperatura del conmutador Fibre Channel informó una temperatura anormal.

1) Verifique el estado operativo de los sensores de temperatura en el interruptor de almacenamiento utilizando el comando "storage switch show -cooling". 2) Verifique que el interruptor esté funcionando en las condiciones de temperatura recomendadas.

Latido del procesador de servicio perdido

INFORMATIVO

Este mensaje aparece cuando ONTAP no recibe una señal de "latido" esperada del procesador de servicio (SP). Junto con este mensaje, se enviarán archivos de registro del SP para su depuración. ONTAP reiniciará el SP para intentar restablecer la comunicación. El SP no estará disponible durante dos minutos mientras se reinicia.

Comuníquese con el soporte técnico de NetApp .

El latido del procesador de servicio se detuvo

ADVERTENCIA

Este mensaje aparece cuando ONTAP ya no recibe latidos del procesador de servicio (SP). Dependiendo del diseño del hardware, el sistema puede continuar proporcionando datos o puede decidir apagarse para evitar la pérdida de datos o daños al hardware. El sistema continúa brindando datos, pero debido a que el SP podría no estar funcionando, el sistema no puede enviar notificaciones de dispositivos inactivos, errores de arranque o errores de prueba automática de encendido (POST) de firmware abierto (OFW). Si su sistema está configurado para hacerlo, genera y transmite un mensaje de AutoSupport (o "llamada a casa") al soporte técnico de NetApp y a los destinos configurados. La entrega exitosa de un mensaje de AutoSupport mejora significativamente la determinación y resolución de problemas.

Si el sistema se ha apagado, intente un ciclo de encendido completo: extraiga el controlador del chasis, empújelo hacia adentro y luego encienda el sistema. Comuníquese con el soporte técnico de NetApp si el problema persiste después del ciclo de encendido o si existe cualquier otra condición que requiera atención.