Skip to main content
Data Infrastructure Insights
La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Monitor di sistema

Collaboratori

Data Infrastructure Insights include un certo numero di monitor definiti dal sistema sia per metriche che per i registri. I monitor di sistema disponibili dipendono dai data collector presenti sul tenant. Per questo motivo, i monitor disponibili in Data Infrastructure Insights possono cambiare in base all'aggiunta di raccolte dati o alla modifica delle relative configurazioni.

Nota Per impostazione predefinita, molti monitor di sistema sono in stato di pausa. È possibile attivare un monitor di sistema selezionando l'opzione Riprendi per il monitor. Assicurarsi che raccolta dati contatore avanzata e attiva raccolta log EMS ONTAP siano attivati in Data Collector. Queste opzioni si trovano nel Data Collector di ONTAP in Configurazione avanzata: Attivazione della raccolta avanzata di contatori e registri EMS per ONTAP

Descrizioni dei monitor

I monitor definiti dal sistema comprendono metriche e condizioni predefinite, nonché descrizioni predefinite e azioni correttive, che non possono essere modificate. È possibile modificare l'elenco dei destinatari delle notifiche per i monitor definiti dal sistema. Per visualizzare metriche, condizioni, descrizione e azioni correttive o per modificare l'elenco dei destinatari, aprire un gruppo di monitor definito dal sistema e fare clic sul nome del monitor nell'elenco.

I gruppi di monitor definiti dal sistema non possono essere modificati o rimossi.

I seguenti monitor definiti dal sistema sono disponibili, nei gruppi indicati.

  • L'infrastruttura ONTAP include i monitor per i problemi relativi all'infrastruttura nei cluster ONTAP.

  • ONTAP workload Examples include monitor per problemi relativi al carico di lavoro.

  • Per impostazione predefinita, i monitor di entrambi i gruppi passano allo stato Paused.

Di seguito sono elencati i monitor di sistema attualmente inclusi in Data Infrastructure Insights:

Monitor metrici

Nome monitor

Severità

Descrizione del monitor

Azione correttiva

Utilizzo elevato delle porte Fibre Channel

CRITICO

Le porte del protocollo Fibre Channel vengono utilizzate per ricevere e trasferire il traffico SAN tra il sistema host del cliente e i LUN ONTAP. Se l'utilizzo della porta è elevato, In questo modo si trasformerà in un collo di bottiglia che, in ultima analisi, influirà sulle performance dei carichi di lavoro sensibili del protocollo Fibre Channel.…Un avviso indica che è necessario intraprendere un'azione pianificata per bilanciare il traffico di rete.…Un avviso critico indica che l'interruzione del servizio è imminente e che è necessario adottare misure di emergenza per bilanciare la rete traffico per garantire la continuità del servizio.

In caso di violazione della soglia critica, prendere in considerazione azioni immediate per ridurre al minimo l'interruzione del servizio: 1. Sposta i carichi di lavoro su un'altra porta FCP meno utilizzata. 2. Limitare il traffico di alcuni LUN solo al lavoro essenziale, sia tramite i criteri QoS in ONTAP o la configurazione lato host per alleggerire l'utilizzo delle porte FCP.… Se la soglia di avviso viene violata, pianificare di eseguire le seguenti azioni: 1. Configurare più porte FCP per gestire il traffico dati in modo che l'utilizzo delle porte venga distribuito tra più porte. 2. Sposta i carichi di lavoro su un'altra porta FCP meno utilizzata. 3. Limitare il traffico di determinati LUN solo al lavoro essenziale, tramite policy QoS in ONTAP o configurazione lato host per semplificare l'utilizzo delle porte FCP.

Latenza LUN alta

CRITICO

I LUN sono oggetti che servono il traffico i/o spesso determinato da applicazioni sensibili alle performance, come i database. Un'elevata latenze delle LUN significa che le applicazioni stesse potrebbero subire problemi e non essere in grado di svolgere le proprie attività.…Un avviso indica che è necessario intraprendere un'azione pianificata per spostare la LUN nel nodo o nell'aggregato appropriato.…Un avviso critico indica che l'interruzione del servizio è imminente e che è necessario adottare misure di emergenza garantire la continuità del servizio. Di seguito sono riportate le latenze previste in base al tipo di supporto: SSD fino a 1-2 millisecondi, SAS fino a 8-10 millisecondi e HDD SATA 17-20 millisecondi

In caso di violazione della soglia critica, prendere in considerazione le seguenti azioni per ridurre al minimo l'interruzione del servizio: Se al LUN o al suo volume è associata una policy di QoS, valutarne i limiti di soglia e convalidarne la causa alla regolazione del carico di lavoro delle LUN.… Se la soglia di avviso viene violata, pianificare di eseguire le seguenti azioni: 1. Se anche l'aggregato presenta un elevato utilizzo, spostare il LUN in un altro aggregato. 2. Se anche il nodo presenta un utilizzo elevato, spostare il volume su un altro nodo o ridurre il carico di lavoro totale del nodo. 3. Se al LUN o al suo volume è associata una policy di QoS, valutarne i limiti di soglia e convalidarne la causa alla regolazione del carico di lavoro del LUN.

Utilizzo della porta di rete elevato

CRITICO

Le porte di rete vengono utilizzate per ricevere e trasferire il traffico dei protocolli NFS, CIFS e iSCSI tra i sistemi host del cliente e i volumi ONTAP. Se l'utilizzo delle porte è elevato, diventa un collo di bottiglia e in ultima analisi influirà sulle prestazioni di NFS, Carichi di lavoro CIFS e iSCSI.…Un avviso indica che è necessario intraprendere un'azione pianificata per bilanciare il traffico di rete.…Un avviso critico indica che l'interruzione del servizio è imminente e che è necessario adottare misure di emergenza per bilanciare il traffico di rete e garantire la continuità del servizio.

In caso di violazione della soglia critica, prendere in considerazione le seguenti azioni immediate per ridurre al minimo l'interruzione del servizio: 1. Limitare il traffico di determinati volumi solo al lavoro essenziale, tramite policy QoS in ONTAP o analisi lato host per ridurre l'utilizzo delle porte di rete. 2. Configurare uno o più volumi per utilizzare un'altra porta di rete utilizzata in modo inferiore.… In caso di superamento della soglia di avviso, prendere in considerazione le seguenti azioni immediate: 1. Configurare più porte di rete per gestire il traffico dati in modo che l'utilizzo delle porte venga distribuito tra più porte. 2. Configurare uno o più volumi per utilizzare un'altra porta di rete utilizzata in modo inferiore.

Latenza dello spazio dei nomi NVMe alta

CRITICO

I NVMe Namespace sono oggetti che servono il traffico i/o gestito da applicazioni sensibili alle performance, come i database. Un'elevata latenza NVMe Namespaces significa che le applicazioni stesse potrebbero subire problemi e non essere in grado di svolgere le proprie attività.…Un avviso indica che è necessario intraprendere un'azione pianificata per spostare il LUN nel nodo o nell'aggregato appropriato.…Un avviso critico indica che l'interruzione del servizio è imminente e che devono essere adottate misure di emergenza per garantire la continuità del servizio.

In caso di violazione della soglia critica, prendi in considerazione azioni immediate per ridurre al minimo l'interruzione del servizio: Se il namespace NVMe o il suo volume dispone di una policy di QoS, valutane le soglie limite nel caso in cui stiano causando la regolazione del carico di lavoro del namespace NVMe.… Se la soglia di avviso viene violata, prendere in considerazione le seguenti azioni: 1. Se anche l'aggregato presenta un elevato utilizzo, spostare il LUN in un altro aggregato. 2. Se anche il nodo presenta un utilizzo elevato, spostare il volume su un altro nodo o ridurre il carico di lavoro totale del nodo. 3. Se al namespace NVMe o al suo volume è assegnata una policy di QoS, valutane le soglie limite in caso stiano causando la regolazione del carico di lavoro del namespace NVMe.

Capacità qtree piena

CRITICO

Un qtree è un file system definito logicamente che può esistere come una sottodirectory speciale della directory root all'interno di un volume. Ogni qtree dispone di una quota di spazio predefinita o di una quota definita da una policy di quota per limitare la quantità di dati memorizzati nella struttura all'interno della capacità del volume.…Un avviso indica che è necessario intraprendere un'azione pianificata per aumentare lo spazio.…Un avviso critico indica che l'interruzione del servizio è imminente e è necessario adottare misure di emergenza per liberare spazio e garantire la continuità del servizio.

In caso di violazione della soglia critica, prendere in considerazione azioni immediate per ridurre al minimo l'interruzione del servizio: 1. Aumentare lo spazio del qtree per adattarlo alla crescita. 2. Eliminare i dati indesiderati per liberare spazio.… In caso di superamento della soglia di avviso, pianificare le seguenti azioni immediate: 1. Aumentare lo spazio del qtree per adattarlo alla crescita. 2. Eliminare i dati indesiderati per liberare spazio.

Limite massimo capacità qtree

CRITICO

Un qtree è un file system definito logicamente che può esistere come una sottodirectory speciale della directory root all'interno di un volume. Ogni qtree ha una quota di spazio misurata in KByte che viene utilizzata per memorizzare i dati al fine di controllare la crescita dei dati utente nel volume e non superare la capacità totale.…Un qtree mantiene una quota di capacità di storage soft che fornisce un avviso proattivo all'utente prima di raggiungere il totale limite di quota di capacità nel qtree e impossibilità di memorizzare più i dati. Il monitoraggio della quantità di dati memorizzati all'interno di un qtree garantisce che l'utente riceva un servizio dati ininterrotto.

In caso di violazione della soglia critica, prendere in considerazione le seguenti azioni immediate per ridurre al minimo l'interruzione del servizio: 1. Aumentare la quota di spazio dell'albero per adattarla alla crescita 2. Chiedere all'utente di eliminare i dati indesiderati nell'albero per liberare spazio

Limite soft capacità qtree

ATTENZIONE

Un qtree è un file system definito logicamente che può esistere come una sottodirectory speciale della directory root all'interno di un volume. Ogni qtree ha una quota di spazio misurata in KByte che può utilizzare per memorizzare i dati al fine di controllare la crescita dei dati utente nel volume e non superare la capacità totale.…Un qtree mantiene una quota di capacità di storage soft che fornisce un avviso proattivo all'utente prima di raggiungere il limite di quota della capacità totale nel qtree e impossibilità di memorizzare più i dati. Il monitoraggio della quantità di dati memorizzati all'interno di un qtree garantisce che l'utente riceva un servizio dati ininterrotto.

In caso di superamento della soglia di avviso, prendere in considerazione le seguenti azioni immediate: 1. Aumentare la quota di spazio dell'albero per adattarla alla crescita. 2. Chiedere all'utente di eliminare i dati indesiderati nella struttura ad albero per liberare spazio.

Limite massimo dei file qtree

CRITICO

Un qtree è un file system definito logicamente che può esistere come una sottodirectory speciale della directory root all'interno di un volume. Ogni qtree ha una quota del numero di file che può contenere per mantenere una dimensione del file system gestibile all'interno del volume.…Un qtree mantiene una quota del numero di file rigidi oltre la quale i nuovi file nell'albero vengono rifiutati. Il monitoraggio del numero di file all'interno di un qtree garantisce che l'utente riceva un servizio dati ininterrotto.

In caso di violazione della soglia critica, prendere in considerazione azioni immediate per ridurre al minimo l'interruzione del servizio: 1. Aumentare la quota del numero di file per il qtree. 2. Eliminare i file indesiderati dal file system del qtree.

Limite di software dei file qtree

ATTENZIONE

Un qtree è un file system definito logicamente che può esistere come una sottodirectory speciale della directory root all'interno di un volume. Ogni qtree ha una quota del numero di file che può contenere per mantenere una dimensione del file system gestibile all'interno del volume.…Un qtree mantiene una quota del numero di file soft per fornire un avviso proattivo all'utente prima di raggiungere il limite di file nel qtree e. impossibile memorizzare altri file. Il monitoraggio del numero di file all'interno di un qtree garantisce che l'utente riceva un servizio dati ininterrotto.

In caso di superamento della soglia di avviso, pianificare le seguenti azioni immediate: 1. Aumentare la quota del numero di file per il qtree. 2. Eliminare i file indesiderati dal file system del qtree.

Spazio riserva Snapshot pieno

CRITICO

La capacità di storage di un volume è necessaria per memorizzare i dati delle applicazioni e dei clienti. Una parte di tale spazio, denominata spazio riservato di snapshot, viene utilizzata per memorizzare le snapshot che consentono la protezione dei dati localmente. Maggiore è il numero di dati nuovi e aggiornati memorizzati nel volume ONTAP, maggiore sarà la capacità di snapshot utilizzata e minore sarà la capacità di storage di snapshot disponibile per i dati nuovi o aggiornati in futuro. Se la capacità dei dati di snapshot all'interno di un volume raggiunge lo spazio totale di riserva di snapshot, il cliente potrebbe non essere in grado di memorizzare nuovi dati di snapshot e ridurre il livello di protezione dei dati nel volume. Il monitoraggio della capacità di snapshot del volume utilizzato garantisce la continuità dei servizi dati.

In caso di violazione della soglia critica, prendere in considerazione azioni immediate per ridurre al minimo l'interruzione del servizio: 1. Configurare le snapshot in modo che utilizzino lo spazio dati nel volume quando la riserva di snapshot è piena. 2. Eliminare alcune vecchie istantanee indesiderate per liberare spazio.… In caso di superamento della soglia di avviso, pianificare le seguenti azioni immediate: 1. Aumentare lo spazio di riserva snapshot all'interno del volume per adattarlo alla crescita. 2. Configurare le snapshot in modo che utilizzino lo spazio dati nel volume quando la riserva di snapshot è piena.

Limite di capacità dello storage

CRITICO

Quando un pool di storage (aggregato) si sta riempiendo, le operazioni di i/o rallentano e finiscono per cessare, causando incidenti di disservizio dello storage. Un avviso indica che è necessario intraprendere presto un'azione pianificata per ripristinare lo spazio libero minimo. Un avviso critico indica che l'interruzione del servizio è imminente e che è necessario adottare misure di emergenza per liberare spazio e garantire la continuità del servizio.

In caso di violazione della soglia critica, considerare immediatamente le seguenti azioni per ridurre al minimo l'interruzione del servizio: 1. Eliminare le istantanee su volumi non critici. 2. Eliminare i volumi o le LUN che sono carichi di lavoro non essenziali e che possono essere ripristinati da copie di archiviazione.……se la soglia di avviso viene violata, pianificare le seguenti azioni immediate: 1. Spostare uno o più volumi in una posizione di storage diversa. 2. Aggiungi maggiore capacità di storage. 3. Modifica delle impostazioni dell'efficienza dello storage o dei dati inattivi del Tier nel cloud storage.

Limite di performance dello storage

CRITICO

Quando un sistema storage raggiunge il limite di performance, le operazioni rallentano, aumenta la latenza e i carichi di lavoro e le applicazioni potrebbero iniziare a guastarsi. ONTAP valuta l'utilizzo del pool di storage per i carichi di lavoro e stima la percentuale di performance consumata.…Un avviso indica che è necessario intraprendere un'azione pianificata per ridurre il carico del pool di storage per garantire che le performance del pool di storage siano sufficienti per gestire i picchi dei carichi di lavoro.…Un avviso critico indica che è imminente una ricerca delle performance e devono essere adottate misure di emergenza per ridurre il carico del pool di storage e garantire la continuità del servizio.

In caso di violazione della soglia critica, prendere in considerazione le seguenti azioni immediate per ridurre al minimo l'interruzione del servizio: 1. Sospendere le attività pianificate, ad esempio le snapshot o la replica di SnapMirror. 2. Carichi di lavoro non essenziali inattivi.… Se la soglia di avvertenza viene violata, eseguire immediatamente le seguenti azioni: 1. Spostare uno o più carichi di lavoro in un'altra posizione di storage. 2. Aggiunta di più nodi di storage (AFF) o shelf di dischi (FAS) e ridistribuzione dei carichi di lavoro 3. Modificare le caratteristiche del carico di lavoro (dimensione del blocco, caching dell'applicazione).

Limite massimo capacità quota utente

CRITICO

ONTAP riconosce gli utenti di sistemi Unix o Windows che dispongono dei diritti di accesso a volumi, file o directory all'interno di un volume. Di conseguenza, ONTAP consente ai clienti di configurare la capacità di storage per i propri utenti o gruppi di utenti dei sistemi Linux o Windows. La quota della policy di gruppo o dell'utente limita la quantità di spazio che l'utente può utilizzare per i propri dati.…Un limite massimo di questa quota consente di notificare all'utente quando la quantità di capacità utilizzata all'interno del volume è corretta prima di raggiungere la quota di capacità totale. Il monitoraggio della quantità di dati memorizzati all'interno di una quota utente o di gruppo garantisce che l'utente riceva un servizio dati ininterrotto.

In caso di violazione della soglia critica, prendere in considerazione le seguenti azioni immediate per ridurre al minimo l'interruzione del servizio: 1. Aumentare lo spazio della quota di utenti o gruppi per adattarsi alla crescita. 2. Chiedere all'utente o al gruppo di eliminare i dati indesiderati per liberare spazio.

Limite soft capacità quota utente

ATTENZIONE

ONTAP riconosce gli utenti di sistemi Unix o Windows che dispongono dei diritti di accesso a volumi, file o directory all'interno di un volume. Di conseguenza, ONTAP consente ai clienti di configurare la capacità di storage per i propri utenti o gruppi di utenti dei sistemi Linux o Windows. La quota della policy di gruppo o dell'utente limita la quantità di spazio che l'utente può utilizzare per i propri dati.…Un limite minimo di questa quota consente una notifica proattiva all'utente quando la quantità di capacità utilizzata all'interno del volume raggiunge la quota di capacità totale. Il monitoraggio della quantità di dati memorizzati all'interno di una quota utente o di gruppo garantisce che l'utente riceva un servizio dati ininterrotto.

In caso di superamento della soglia di avviso, pianificare le seguenti azioni immediate: 1. Aumentare lo spazio della quota di utenti o gruppi per adattarsi alla crescita. 2. Eliminare i dati indesiderati per liberare spazio.

Capacità del volume piena

CRITICO

La capacità di storage di un volume è necessaria per memorizzare i dati delle applicazioni e dei clienti. Maggiore è il numero di dati memorizzati nel volume ONTAP, minore sarà la disponibilità dello storage per i dati futuri. Se la capacità di storage dei dati all'interno di un volume raggiunge la capacità di storage totale, il cliente potrebbe non essere in grado di memorizzare i dati a causa della mancanza di capacità di storage. Il monitoraggio della capacità di storage utilizzata per il volume garantisce la continuità dei servizi dati.

In caso di violazione della soglia critica, prendere in considerazione le seguenti azioni immediate per ridurre al minimo l'interruzione del servizio: 1. Aumentare lo spazio del volume per adattarlo alla crescita. 2. Eliminare i dati indesiderati per liberare spazio. 3. Se le copie snapshot occupano più spazio della riserva snapshot, eliminare le vecchie snapshot o attivare Volume Snapshot Autodelete.…se la soglia di avviso viene violata, pianificare di eseguire le seguenti azioni immediate: 1. Aumentare lo spazio del volume per adattarlo alla crescita 2. Se le copie Snapshot occupano più spazio rispetto alla riserva di snapshot, eliminare le istantanee precedenti o attivare l'eliminazione automatica di Volume Snapshot.……

Volume Inode Limit (limite nodi volume

CRITICO

I volumi che memorizzano i file utilizzano i nodi indice (inode) per memorizzare i metadati dei file. Quando un volume esaurisce la propria allocazione inode, Non è possibile aggiungere altri file.…Un avviso indica che è necessario intraprendere un'azione pianificata per aumentare il numero di inode disponibili.…Un avviso critico indica che l'esaurimento del limite di file è imminente e che è necessario adottare misure di emergenza per liberare inode per garantire la continuità del servizio.

In caso di violazione della soglia critica, prendere in considerazione le seguenti azioni immediate per ridurre al minimo l'interruzione del servizio: 1. Aumentare il valore degli inode per il volume. Se il valore inode è già al valore massimo, suddividere il volume in due o più volumi perché il file system è cresciuto oltre le dimensioni massime. 2. Utilizzare FlexGroup in quanto consente di gestire file system di grandi dimensioni.… In caso di superamento della soglia di avviso, pianificare le seguenti azioni immediate: 1. Aumentare il valore degli inode per il volume. Se il valore degli inode è già al massimo, suddividere il volume in due o più volumi perché il file system è cresciuto oltre le dimensioni massime. 2. È possibile utilizzare FlexGroup per adattarsi ai file system di grandi dimensioni

Latenza del volume elevata

CRITICO

I volumi sono oggetti che servono il traffico i/o spesso determinato da applicazioni sensibili alle performance, tra cui applicazioni DevOps, home directory e database. L'elevata latenze dei volumi implica che le applicazioni stesse potrebbero risentirne e non essere in grado di svolgere le proprie attività. Il monitoraggio delle latenze dei volumi è fondamentale per mantenere performance coerenti con le applicazioni. Di seguito sono riportate le latenze previste in base al tipo di supporto: SSD fino a 1-2 millisecondi; SAS fino a 8-10 millisecondi e HDD SATA 17-20 millisecondi.

In caso di violazione della soglia critica, prendere in considerazione le seguenti azioni immediate per ridurre al minimo l'interruzione del servizio: Se al volume è assegnato un criterio di QoS, valutare le soglie limite nel caso in cui il carico di lavoro del volume venga rallentato.… In caso di superamento della soglia di avviso, prendere in considerazione le seguenti azioni immediate: 1. Se anche l'aggregato presenta un elevato utilizzo, spostare il volume su un altro aggregato. 2. Se al volume è assegnata una policy di QoS, valutarne le soglie limite in caso di rallentamento del carico di lavoro del volume. 3. Se anche il nodo presenta un utilizzo elevato, spostare il volume su un altro nodo o ridurre il carico di lavoro totale del nodo.

Nome monitor

Severità

Descrizione del monitor

Azione correttiva

Nodo a latenza elevata

ATTENZIONE / CRITICO

La latenza del nodo ha raggiunto i livelli in cui potrebbe influire sulle prestazioni delle applicazioni sul nodo. Una latenza dei nodi inferiore garantisce performance costanti delle applicazioni. Le latenze previste in base al tipo di supporto sono: SSD fino a 1-2 millisecondi; SAS fino a 8-10 millisecondi e HDD SATA 17-20 millisecondi.

In caso di violazione della soglia critica, è necessario intraprendere azioni immediate per ridurre al minimo l'interruzione del servizio: 1. Sospendere le attività pianificate, le snapshot o la replica di SnapMirror 2. Ridurre la domanda di carichi di lavoro con priorità inferiore attraverso i limiti di QoS 3. Inattivare i carichi di lavoro non essenziali considerare azioni immediate in caso di superamento della soglia di avviso: 1. Spostamento di uno o più carichi di lavoro in un'altra posizione di storage 2. Ridurre la domanda di carichi di lavoro con priorità inferiore attraverso i limiti di QoS 3. Aggiungi altri nodi di storage (AFF) o shelf di dischi (FAS) e ridistribuisci i carichi di lavoro 4. Modifica delle caratteristiche del carico di lavoro (dimensioni del blocco, caching delle applicazioni, ecc.)

Limite di performance del nodo

ATTENZIONE / CRITICO

L'utilizzo delle performance dei nodi ha raggiunto i livelli in cui potrebbe influire sulle performance di iOS e delle applicazioni supportate dal nodo. Un basso utilizzo delle performance dei nodi garantisce performance costanti delle applicazioni.

In caso di superamento della soglia critica, è necessario intraprendere azioni immediate per ridurre al minimo l'interruzione del servizio: 1. Sospendere le attività pianificate, le snapshot o la replica di SnapMirror 2. Ridurre la domanda di carichi di lavoro con priorità inferiore attraverso i limiti di QoS 3. Disattivare i carichi di lavoro non essenziali considerare le seguenti azioni in caso di superamento della soglia di avviso: 1. Spostamento di uno o più carichi di lavoro in un'altra posizione di storage 2. Ridurre la domanda di carichi di lavoro con priorità inferiore attraverso i limiti di QoS 3. Aggiungi altri nodi storage (AFF) o shelf di dischi (FAS) e ridistribuisci i carichi di lavoro 4. Modifica delle caratteristiche del carico di lavoro (dimensioni del blocco, caching delle applicazioni, ecc.)

Storage VM elevata latenza

ATTENZIONE / CRITICO

La latenza delle macchine virtuali dello storage (SVM) ha raggiunto i livelli in cui potrebbe influire sulle prestazioni delle applicazioni sulla macchina virtuale dello storage. La minore latenza delle macchine virtuali dello storage garantisce performance costanti delle applicazioni. Le latenze previste in base al tipo di supporto sono: SSD fino a 1-2 millisecondi; SAS fino a 8-10 millisecondi e HDD SATA 17-20 millisecondi.

In caso di violazione della soglia critica, valutare immediatamente i limiti di soglia per i volumi della VM di storage con un criterio QoS assegnato, per verificare se i carichi di lavoro del volume vengono rallentati, prendere in considerazione la possibilità di seguire azioni immediate in caso di violazione della soglia di avviso: 1. Se anche l'aggregato presenta un elevato utilizzo, spostare alcuni volumi della VM di storage in un altro aggregato. 2. Per i volumi della VM di storage con una policy di QoS assegnata, valutare i limiti di soglia se stanno causando la regolazione dei carichi di lavoro dei volumi 3. Se il nodo presenta un utilizzo elevato, spostare alcuni volumi della VM di storage in un altro nodo o ridurre il carico di lavoro totale del nodo

Limite massimo dei file di quota utente

CRITICO

Il numero di file creati all'interno del volume ha raggiunto il limite critico e non è possibile creare altri file. Il monitoraggio del numero di file memorizzati garantisce che l'utente riceva un servizio dati ininterrotto.

Sono necessarie azioni immediate per ridurre al minimo l'interruzione del servizio in caso di superamento della soglia critica.…prendere in considerazione le seguenti azioni: 1. Aumentare la quota del numero di file per l'utente specifico 2. Eliminare i file indesiderati per ridurre la pressione sulla quota dei file per l'utente specifico

Limite minimo file quota utente

ATTENZIONE

Il numero di file creati all'interno del volume ha raggiunto il limite di soglia della quota ed è prossimo al limite critico. Non è possibile creare file aggiuntivi se la quota raggiunge il limite critico. Il monitoraggio del numero di file memorizzati da un utente garantisce che l'utente riceva un servizio dati ininterrotto.

Prendere in considerazione azioni immediate in caso di superamento della soglia di avviso: 1. Aumentare la quota del numero di file per la quota utente specifica 2. Eliminare i file indesiderati per ridurre la pressione sulla quota dei file per l'utente specifico

Rapporto errori cache volume

ATTENZIONE / CRITICO

Volume cache Miss ratio (rapporto errori cache volume) è la percentuale di richieste di lettura provenienti dalle applicazioni client che vengono restituite dal disco invece di essere restituite dalla cache. Ciò significa che il volume ha raggiunto la soglia impostata.

In caso di violazione della soglia critica, è necessario intraprendere azioni immediate per ridurre al minimo l'interruzione del servizio: 1. Spostare alcuni carichi di lavoro fuori dal nodo del volume per ridurre il carico di i/o 2. Se non si trova già nel nodo del volume, aumentare la cache WAFL acquistando e aggiungendo una Flash cache 3. Ridurre la richiesta di carichi di lavoro con priorità inferiore sullo stesso nodo tramite i limiti di QoS considerare azioni immediate in caso di superamento della soglia di avviso: 1. Spostare alcuni carichi di lavoro fuori dal nodo del volume per ridurre il carico di i/o 2. Se non si trova già nel nodo del volume, aumentare la cache WAFL acquistando e aggiungendo una Flash cache 3. Ridurre la domanda di carichi di lavoro con priorità inferiore sullo stesso nodo tramite i limiti di QoS 4. Modifica delle caratteristiche del carico di lavoro (dimensioni del blocco, caching delle applicazioni, ecc.)

Overcommit quota Qtree volume

ATTENZIONE / CRITICO

Volume Qtree quota Overcommit specifica la percentuale in cui un volume viene considerato overcommit dalle quote del qtree. La soglia impostata per la quota qtree viene raggiunta per il volume. Il monitoraggio dell'overcommit della quota qtree del volume garantisce che l'utente riceva un servizio dati ininterrotto.

In caso di violazione della soglia critica, è necessario intraprendere azioni immediate per ridurre al minimo l'interruzione del servizio: 1. Aumentare lo spazio del volume 2. Eliminare i dati indesiderati in caso di superamento della soglia di avviso, quindi considerare l'aumento dello spazio del volume.

Log Monitor

Nome monitor

Severità

Descrizione

Azione correttiva

Credenziali AWS non inizializzate

INFO

Questo evento si verifica quando un modulo tenta di accedere alle credenziali Amazon Web Services (AWS) Identity and Access Management (IAM) basate sul ruolo dal thread delle credenziali cloud prima che vengano inizializzate.

Attendere che il thread delle credenziali cloud e il sistema completino l'inizializzazione.

Livello cloud non raggiungibile

CRITICO

Un nodo storage non può connettersi all'API dell'archivio di oggetti Cloud Tier. Alcuni dati non saranno accessibili.

Se si utilizzano prodotti on-premise, eseguire le seguenti azioni correttive: …Verificare che la LIF dell'intercluster sia in linea e funzionante utilizzando il comando "network interface show".…verificare la connettività di rete con il server dell'archivio oggetti utilizzando il comando "ping" sul LIF dell'intercluster del nodo di destinazione.…verificare quanto segue:…la configurazione dell'archivio oggetti non è stata modificata.…le informazioni di accesso e connettività sono disponibili Ancora valido.…se il problema persiste, contattare il supporto tecnico NetApp. Se si utilizza Cloud Volumes ONTAP, eseguire le seguenti azioni correttive: …Assicurarsi che la configurazione dell'archivio di oggetti non sia stata modificata.… Verificare che le informazioni di accesso e di connettività siano ancora valide.…se il problema persiste, contattare il supporto tecnico NetApp.

Disco fuori servizio

INFO

Questo evento si verifica quando un disco viene rimosso dal servizio perché è stato contrassegnato come non riuscito, viene sanificato o è entrato nel Centro di manutenzione.

Nessuno.

FlexGroup costituente completo

CRITICO

Un componente all'interno di un volume FlexGroup è pieno, il che potrebbe causare un'interruzione del servizio. È comunque possibile creare o espandere i file sul volume FlexGroup. Tuttavia, nessuno dei file memorizzati nel costituente può essere modificato. Di conseguenza, quando si tenta di eseguire operazioni di scrittura sul volume FlexGroup, potrebbero verificarsi errori casuali di spazio insufficiente.

Si consiglia di aggiungere capacità al volume FlexGroup utilizzando il comando "volume modify -Files +X".…in alternativa, eliminare i file dal volume FlexGroup. Tuttavia, è difficile determinare quali archivi sono stati depositati sul costituente.

Costituente FlexGroup quasi pieno

ATTENZIONE

Un componente all'interno di un volume FlexGroup è quasi esaurito, il che potrebbe causare una potenziale interruzione del servizio. I file possono essere creati ed espansi. Tuttavia, se il costituente esaurisce lo spazio, potrebbe non essere possibile aggiungere o modificare i file sul costituente.

Si consiglia di aggiungere capacità al volume FlexGroup utilizzando il comando "volume modify -Files +X".…in alternativa, eliminare i file dal volume FlexGroup. Tuttavia, è difficile determinare quali archivi sono stati depositati sul costituente.

Costituente FlexGroup quasi fuori dagli nodi

ATTENZIONE

Un componente all'interno di un volume FlexGroup è quasi fuori dagli inode, il che potrebbe causare una potenziale interruzione del servizio. Il costituente riceve richieste di creazione inferiori alla media. Ciò potrebbe influire sulle prestazioni complessive del volume FlexGroup, in quanto le richieste vengono instradate ai componenti con più inode.

Si consiglia di aggiungere capacità al volume FlexGroup utilizzando il comando "volume modify -Files +X".…in alternativa, eliminare i file dal volume FlexGroup. Tuttavia, è difficile determinare quali archivi sono stati depositati sul costituente.

Costituente FlexGroup fuori dagli nodi

CRITICO

Un componente di un volume FlexGroup ha esaurito gli inode, il che potrebbe causare una potenziale interruzione del servizio. Non è possibile creare nuovi file su questo costituente. Questo potrebbe portare a una distribuzione generale del contenuto sbilanciata nel volume FlexGroup.

Si consiglia di aggiungere capacità al volume FlexGroup utilizzando il comando "volume modify -Files +X".…in alternativa, eliminare i file dal volume FlexGroup. Tuttavia, è difficile determinare quali archivi sono stati depositati sul costituente.

LUN non in linea

INFO

Questo evento si verifica quando un LUN viene portato offline manualmente.

Riportare il LUN in linea.

Ventola dell'unità principale non riuscita

ATTENZIONE

Una o più ventole dell'unità principale si sono guaste. Il sistema rimane operativo.…tuttavia, se la condizione persiste per troppo tempo, la sovratemperatura potrebbe attivare un arresto automatico.

Riposizionare le ventole guaste. Se l'errore persiste, sostituirli.

Ventola dell'unità principale in stato di avviso

INFO

Questo evento si verifica quando una o più ventole dell'unità principale sono in stato di avviso.

Sostituire le ventole indicate per evitare il surriscaldamento.

Batteria NVRAM scarica

ATTENZIONE

La capacità della batteria NVRAM è molto bassa. Potrebbe verificarsi una potenziale perdita di dati se la batteria si esaurisce.…il sistema genera e trasmette un messaggio AutoSupport o "call home" al supporto tecnico NetApp e alle destinazioni configurate, se configurate. La corretta consegna di un messaggio AutoSupport migliora significativamente la determinazione e la risoluzione dei problemi.

Eseguire le seguenti azioni correttive:…visualizzare lo stato corrente, la capacità e lo stato di carica della batteria utilizzando il comando "System node environment sensors show" (Mostra sensori ambiente nodo sistema).…se la batteria è stata sostituita di recente o il sistema non è stato operativo per un periodo di tempo prolungato, Monitorare la batteria per verificare che si stia caricando correttamente.…contattare il supporto tecnico NetApp se il runtime della batteria continua a scendere al di sotto dei livelli critici e il sistema di storage si spegne automaticamente.

Service Processor non configurato

ATTENZIONE

Questo evento si verifica ogni settimana, per ricordare di configurare il Service Processor (SP). SP è un dispositivo fisico incorporato nel sistema per fornire accesso remoto e funzionalità di gestione remota. È necessario configurare l'SP in modo che utilizzi tutte le funzionalità.

Eseguire le seguenti azioni correttive:…configurare l'SP utilizzando il comando "modifica rete del processore di servizio del sistema".…facoltativamente, Ottenere l'indirizzo MAC dell'SP utilizzando il comando "system service processor network show" (visualizzazione rete del processore di servizio del sistema).…verificare la configurazione della rete SP utilizzando il comando "system service-processor network show" (visualizzazione rete del processore di servizio del sistema).…verificare che l'SP possa inviare un'e-mail AutoSupport utilizzando il comando "system service-processor AutoSupport invoke". NOTA: Gli host e i destinatari di posta elettronica AutoSupport devono essere configurati in ONTAP prima di eseguire questo comando.

Service Processor offline

CRITICO

ONTAP non riceve più heartbeat dal Service Processor (SP), anche se sono state eseguite tutte le azioni di ripristino SP. ONTAP non è in grado di monitorare lo stato dell'hardware senza SP.…il sistema si spegne per evitare danni all'hardware e perdita di dati. Impostare un avviso critico per ricevere una notifica immediata se l'SP passa offline.

Spegnere e riaccendere il sistema eseguendo le seguenti operazioni:…estrarre il controller dal telaio.…reinserire il controller.…riaccendere il controller.…se il problema persiste, sostituire il modulo controller.

Ventole dello shelf non riuscite

CRITICO

Si è verificato un guasto nella ventola di raffreddamento indicata o nel modulo della ventola dello shelf. I dischi nello shelf potrebbero non ricevere un flusso d'aria di raffreddamento sufficiente, il che potrebbe causare un guasto al disco.

Eseguire le seguenti azioni correttive:…verificare che il modulo della ventola sia inserito e fissato correttamente. NOTA: La ventola è integrata nel modulo di alimentazione in alcuni shelf di dischi.…se il problema persiste, sostituire il modulo della ventola.…se il problema persiste, contattare il supporto tecnico NetApp per assistenza.

Il sistema non funziona a causa di un guasto alla ventola dell'unità principale

CRITICO

Una o più ventole dell'unità principale si sono guastate, interrompendo il funzionamento del sistema. Ciò potrebbe causare una potenziale perdita di dati.

Sostituire le ventole guaste.

Dischi non assegnati

INFO

Il sistema dispone di dischi non assegnati: La capacità viene sprecata e il sistema potrebbe presentare modifiche di configurazione errate o parziali.

Eseguire le seguenti azioni correttive:…determinare quali dischi non sono assegnati utilizzando il comando "disk show -n".…assegnare i dischi a un sistema utilizzando il comando "disk assign".

Server antivirus occupato

ATTENZIONE

Il server antivirus è troppo occupato per accettare nuove richieste di scansione.

Se questo messaggio viene visualizzato frequentemente, assicurarsi che siano presenti server antivirus sufficienti per gestire il carico di scansione del virus generato dalla SVM.

Credenziali AWS per il ruolo IAM scadute

CRITICO

Cloud Volume ONTAP è diventato inaccessibile. Le credenziali basate sul ruolo di Identity and Access Management (IAM) sono scadute. Le credenziali vengono acquisite dal server di metadati AWS (Amazon Web Services) utilizzando il ruolo IAM e vengono utilizzate per firmare le richieste API ad Amazon Simple Storage Service (Amazon S3).

Eseguire le seguenti operazioni:…accedere alla console di gestione di AWS EC2.…accedere alla pagina delle istanze.…individuare l'istanza per l'implementazione di Cloud Volumes ONTAP e controllarne l'integrità.…verificare che il ruolo AWS IAM associato all'istanza sia valido e che siano stati concessi i privilegi appropriati all'istanza.

Credenziali AWS per il ruolo IAM non trovate

CRITICO

Il thread delle credenziali cloud non può acquisire le credenziali Amazon Web Services (AWS) Identity and Access Management (IAM) basate sul ruolo dal server di metadati AWS. Le credenziali vengono utilizzate per firmare le richieste API ad Amazon Simple Storage Service (Amazon S3). Cloud Volume ONTAP è diventato inaccessibile.…

Eseguire le seguenti operazioni:…accedere alla console di gestione di AWS EC2.…accedere alla pagina delle istanze.…individuare l'istanza per l'implementazione di Cloud Volumes ONTAP e controllarne l'integrità.…verificare che il ruolo AWS IAM associato all'istanza sia valido e che siano stati concessi i privilegi appropriati all'istanza.

Credenziali AWS per il ruolo IAM non valide

CRITICO

Le credenziali basate sul ruolo di Identity and Access Management (IAM) non sono valide. Le credenziali vengono acquisite dal server di metadati AWS (Amazon Web Services) utilizzando il ruolo IAM e vengono utilizzate per firmare le richieste API ad Amazon Simple Storage Service (Amazon S3). Cloud Volume ONTAP è diventato inaccessibile.

Eseguire le seguenti operazioni:…accedere alla console di gestione di AWS EC2.…accedere alla pagina delle istanze.…individuare l'istanza per l'implementazione di Cloud Volumes ONTAP e controllarne l'integrità.…verificare che il ruolo AWS IAM associato all'istanza sia valido e che siano stati concessi i privilegi appropriati all'istanza.

Ruolo AWS IAM non trovato

CRITICO

Il thread dei ruoli di Identity and Access Management (IAM) non riesce a trovare un ruolo IAM Amazon Web Services (AWS) sul server di metadati AWS. Il ruolo IAM è necessario per acquisire le credenziali basate sul ruolo utilizzate per firmare le richieste API ad Amazon Simple Storage Service (Amazon S3). Cloud Volume ONTAP è diventato inaccessibile.…

Eseguire le seguenti operazioni:…accedere alla console di gestione di AWS EC2.…accedere alla pagina delle istanze.…individuare l'istanza per l'implementazione di Cloud Volumes ONTAP e controllarne lo stato.…verificare che il ruolo di AWS IAM associato all'istanza sia valido.

Ruolo AWS IAM non valido

CRITICO

Il ruolo Amazon Web Services (AWS) Identity and Access Management (IAM) sul server di metadati AWS non è valido. Il Cloud Volume ONTAP è diventato inaccessibile.…

Eseguire le seguenti operazioni:…accedere alla console di gestione di AWS EC2.…accedere alla pagina delle istanze.…individuare l'istanza per l'implementazione di Cloud Volumes ONTAP e controllarne l'integrità.…verificare che il ruolo AWS IAM associato all'istanza sia valido e che siano stati concessi i privilegi appropriati all'istanza.

Connessione server metadati AWS non riuscita

CRITICO

Il thread dei ruoli IAM (Identity and Access Management) non può stabilire un collegamento di comunicazione con il server di metadati AWS (Amazon Web Services). È necessario stabilire una comunicazione per acquisire le credenziali AWS IAM in base al ruolo necessarie per firmare le richieste API ad Amazon Simple Storage Service (Amazon S3). Cloud Volume ONTAP è diventato inaccessibile.…

Eseguire le seguenti operazioni:…accedere alla console di gestione EC2 di AWS.…accedere alla pagina delle istanze.…individuare l'istanza per l'implementazione di Cloud Volumes ONTAP e verificarne lo stato.…

Limite di utilizzo dello spazio FabricPool quasi raggiunto

ATTENZIONE

L'utilizzo totale dello spazio FabricPool a livello di cluster degli archivi di oggetti da parte di provider con licenza di capacità ha quasi raggiunto il limite concesso in licenza.

Eseguire le seguenti azioni correttive:…controllare la percentuale della capacità concessa in licenza utilizzata da ciascun livello di storage FabricPool utilizzando il comando "storage aggregate object-store show-space".…eliminare le copie Snapshot dai volumi con la policy di tiering "snapshot" o "backup" utilizzando il comando "volume snapshot delete" per liberare spazio.…installare una nuova licenza sul cluster per aumentare la capacità concessa in licenza.

Limite di utilizzo dello spazio FabricPool raggiunto

CRITICO

L'utilizzo totale dello spazio FabricPool a livello di cluster degli archivi di oggetti dei provider con licenza di capacità ha raggiunto il limite di licenza.

Eseguire le seguenti azioni correttive:…controllare la percentuale della capacità concessa in licenza utilizzata da ciascun livello di storage FabricPool utilizzando il comando "storage aggregate object-store show-space".…eliminare le copie Snapshot dai volumi con la policy di tiering "snapshot" o "backup" utilizzando il comando "volume snapshot delete" per liberare spazio.…installare una nuova licenza sul cluster per aumentare la capacità concessa in licenza.

Giveback dell'aggregato non riuscito

CRITICO

Questo evento si verifica durante la migrazione di un aggregato come parte di un giveback di failover dello storage (SFO), quando il nodo di destinazione non riesce a raggiungere gli archivi di oggetti.

Eseguire le seguenti azioni correttive:…verificare che la LIF dell'intercluster sia online e funzionante utilizzando il comando "network interface show".…verificare la connettività di rete al server dell'archivio oggetti utilizzando il comando"'ping" sul LIF dell'intercluster del nodo di destinazione. …Verificare che la configurazione dell'archivio di oggetti non sia stata modificata e che le informazioni di accesso e connettività siano ancora accurate utilizzando il comando "aggregate object-store config show".…in alternativa, È possibile ignorare l'errore specificando false per il parametro "richiede-partner-in attesa" del comando giveback.…contattare il supporto tecnico NetApp per ulteriori informazioni o assistenza.

Interconnessione HA non disponibile

ATTENZIONE

L'interconnessione ad alta disponibilità (ha) non è disponibile. Rischio di interruzione del servizio quando il failover non è disponibile.

Le azioni correttive dipendono dal numero e dal tipo di collegamenti di interconnessione ha supportati dalla piattaforma, nonché dal motivo per cui l'interconnessione è inattiva. …Se i collegamenti non sono attivi:…verificare che entrambi i controller della coppia ha siano funzionanti.…per i collegamenti esterni, assicurarsi che i cavi di interconnessione siano collegati correttamente e che i Small Form-Factor pluggable (SFP), se presenti, siano posizionati correttamente su entrambi i controller.…per i collegamenti interni, disattivare e riattivare i collegamenti, uno dopo l'altro, utilizzando i comandi "ic link off" (collegamento ic disattivato) e "ic link on" (collegamento ic attivato). …Se i collegamenti sono disattivati, abilitarlo usando il comando "ic link on". …Se un peer non è connesso, disattivare e riattivare i collegamenti, uno dopo l'altro, utilizzando i comandi "ic link Off" (collegamento ic disattivato) e "ic link on" (collegamento ic attivato).…se il problema persiste, contattare il supporto tecnico NetApp.

Numero massimo di sessioni per utente superato

ATTENZIONE

È stato superato il numero massimo di sessioni consentite per utente su una connessione TCP. Qualsiasi richiesta di stabilire una sessione verrà rifiutata fino al rilascio di alcune sessioni. …

Eseguire le seguenti azioni correttive: …Esaminare tutte le applicazioni eseguite sul client e terminare quelle che non funzionano correttamente.…riavviare il client.…controllare se il problema è causato da un'applicazione nuova o esistente:…se l'applicazione è nuova, impostare una soglia più alta per il client utilizzando il comando "cifs option modify -max-opes-same-file-per-tree". In alcuni casi, i client funzionano come previsto, ma richiedono una soglia più alta. È necessario disporre di privilegi avanzati per impostare una soglia più alta per il client. …Se il problema è causato da un'applicazione esistente, potrebbe esserci un problema con il client. Per ulteriori informazioni o assistenza, contattare il supporto tecnico NetApp.

Numero massimo di volte di apertura per file superato

ATTENZIONE

È stato superato il numero massimo di volte in cui è possibile aprire il file tramite una connessione TCP. Qualsiasi richiesta di apertura del file verrà rifiutata fino alla chiusura di alcune istanze aperte del file. Questo indica in genere un comportamento anomalo dell'applicazione.…

Eseguire le seguenti azioni correttive:…ispezionare le applicazioni in esecuzione sul client utilizzando questa connessione TCP. Il client potrebbe non funzionare correttamente a causa dell'applicazione in esecuzione.…riavviare il client.…controllare se il problema è causato da un'applicazione nuova o esistente:…se l'applicazione è nuova, impostare una soglia più alta per il client utilizzando il comando "cifs option modify -max-opes-same-file-per-tree". In alcuni casi, i client funzionano come previsto, ma richiedono una soglia più alta. È necessario disporre di privilegi avanzati per impostare una soglia più alta per il client. …Se il problema è causato da un'applicazione esistente, potrebbe esserci un problema con il client. Per ulteriori informazioni o assistenza, contattare il supporto tecnico NetApp.

Conflitto nome NetBIOS

CRITICO

NetBIOS Name Service ha ricevuto una risposta negativa a una richiesta di registrazione del nome da un computer remoto. Questo problema è causato in genere da un conflitto nel nome NetBIOS o in un alias. Di conseguenza, i client potrebbero non essere in grado di accedere ai dati o di connettersi al nodo di servizio dati corretto nel cluster.

Eseguire una delle seguenti azioni correttive:…in caso di conflitto nel nome NetBIOS o in un alias, Eseguire una delle seguenti operazioni:…eliminare l'alias NetBIOS duplicato utilizzando il comando "vserver cifs delete -alias -vserver vserver".…rinominare un alias NetBIOS eliminando il nome duplicato e aggiungendo un alias con un nuovo nome utilizzando il comando "vserver cifs create -alias -vserver vserver vserver". …Se non sono configurati alias e si verifica un conflitto nel nome NetBIOS, rinominare il server CIFS utilizzando i comandi "vserver cifs delete -vserver vserver vserver" e "vserver cifs create -cifs-server netbiosname". NOTA: L'eliminazione di un server CIFS può rendere i dati inaccessibili. …Rimuovere il nome NetBIOS o rinominare NetBIOS sul computer remoto.

Pool di store NFSv4 esaurito

CRITICO

Un pool di store NFSv4 è stato esaurito.

Se il server NFS non risponde per più di 10 minuti dopo l'evento, contattare il supporto tecnico di NetApp.

Nessun motore di scansione registrato

CRITICO

Il connettore antivirus ha notificato a ONTAP che non dispone di un motore di scansione registrato. Ciò potrebbe causare la non disponibilità dei dati se l'opzione "scansione obbligatoria" è attivata.

Eseguire le seguenti azioni correttive:…assicurarsi che il software del motore di scansione installato sul server antivirus sia compatibile con ONTAP.…assicurarsi che il software del motore di scansione sia in esecuzione e configurato per connettersi al connettore antivirus tramite loopback locale.

Nessuna connessione Vscan

CRITICO

ONTAP non dispone di una connessione Vscan per soddisfare le richieste di scansione virus. Ciò potrebbe causare la non disponibilità dei dati se l'opzione "scansione obbligatoria" è attivata.

Assicurarsi che il pool di scanner sia configurato correttamente e che i server antivirus siano attivi e connessi a ONTAP.

Spazio volume radice nodo basso

CRITICO

Il sistema ha rilevato che lo spazio del volume root è pericolosamente basso. Il nodo non è completamente operativo. È possibile che si sia verificato un failover dei dati LIF all'interno del cluster, a causa del quale l'accesso NFS e CIFS è limitato sul nodo. La funzionalità amministrativa è limitata alle procedure di ripristino locali per consentire al nodo di liberare spazio sul volume root.

Eseguire le seguenti azioni correttive:…liberare spazio sul volume root eliminando le vecchie copie Snapshot, eliminando i file non più necessari dalla directory /mroot o espandendo la capacità del volume root.…riavviare il controller.…contattare il supporto tecnico NetApp per ulteriori informazioni o assistenza.

Condivisione amministrativa inesistente

CRITICO

Problema con Vscan: Un client ha tentato di connettersi a una condivisione ONTAP_ADMIN inesistente.

Assicurarsi che Vscan sia abilitato per l'ID SVM specificato. L'abilitazione di Vscan su una SVM determina la creazione automatica della condivisione ONTAP_ADMIN per la SVM.

Spazio vuoto NVMe

CRITICO

Uno spazio dei nomi NVMe è stato portato offline a causa di un errore di scrittura causato dalla mancanza di spazio.

Aggiungere spazio al volume, quindi portare online lo spazio dei nomi NVMe utilizzando il comando "vserver nvme namespace modify".

Periodo di tolleranza NVMe attivo

ATTENZIONE

Questo evento si verifica ogni giorno quando il protocollo NVMe over Fabrics (NVMe-of) è in uso e il periodo di tolleranza della licenza è attivo. La funzionalità NVMe-of richiede una licenza dopo la scadenza del periodo di tolleranza della licenza. La funzionalità NVMe-of viene disattivata quando il periodo di tolleranza della licenza è terminato.

Contattare il rappresentante commerciale per ottenere una licenza NVMe-of e aggiungerla al cluster oppure rimuovere tutte le istanze di configurazione NVMe-of dal cluster.

Periodo di tolleranza NVMe scaduto

ATTENZIONE

Il periodo di tolleranza della licenza NVMe over Fabrics (NVMe-of) è terminato e la funzionalità NVMe-of è disattivata.

Contattare il rappresentante commerciale per ottenere una licenza NVMe-of e aggiungerla al cluster.

Inizio del periodo di prova NVMe-of Grace

ATTENZIONE

La configurazione NVMe over Fabrics (NVMe-of) è stata rilevata durante l'aggiornamento al software ONTAP 9.5. La funzionalità NVMe-of richiede una licenza dopo la scadenza del periodo di tolleranza della licenza.

Contattare il rappresentante commerciale per ottenere una licenza NVMe-of e aggiungerla al cluster.

Host archivio oggetti non risolvibile

CRITICO

Il nome host del server archivio oggetti non può essere risolto in un indirizzo IP. Il client dell'archivio di oggetti non può comunicare con il server dell'archivio di oggetti senza risolvere un indirizzo IP. Di conseguenza, i dati potrebbero essere inaccessibili.

Controllare la configurazione DNS per verificare che il nome host sia configurato correttamente con un indirizzo IP.

LIF dell'intercluster dell'archivio di oggetti non disponibile

CRITICO

Il client dell'archivio di oggetti non riesce a trovare una LIF operativa per comunicare con il server dell'archivio di oggetti. Il nodo non consentirà il traffico del client dell'archivio di oggetti fino a quando la LIF dell'intercluster non sarà operativa. Di conseguenza, i dati potrebbero essere inaccessibili.

Eseguire le seguenti azioni correttive:…controllare lo stato LIF dell'intercluster utilizzando il comando "network intercluster show -role intercluster".…verificare che la LIF dell'intercluster sia configurata correttamente e operativa.…se la LIF dell'intercluster non è configurata, aggiungerla utilizzando il comando "network intercluster create -role".

Mancata corrispondenza firma archivio oggetti

CRITICO

La firma della richiesta inviata al server archivio oggetti non corrisponde alla firma calcolata dal client. Di conseguenza, i dati potrebbero essere inaccessibili.

Verificare che la chiave di accesso segreta sia configurata correttamente. Se la configurazione è corretta, contattare il supporto tecnico NetApp per assistenza.

Timeout DI READDIR

CRITICO

Un'operazione del file READDIR ha superato il timeout consentito per l'esecuzione in WAFL. Questo può essere dovuto a directory molto grandi o sparse. Si consiglia di intraprendere un'azione correttiva.

Eseguire le seguenti azioni correttive:…trovare informazioni specifiche per le directory recenti che hanno avuto la scadenza delle operazioni del file READDIR utilizzando il seguente comando 'diag' Privilege nodeshell CLI: WAFL readdir notice show.…controllare se le directory sono indicate come sparse o no:…se una directory è indicata come sparse, si consiglia di copiare il contenuto della directory in una nuova directory per rimuovere la scarsità del file di directory. …Se una directory non è indicata come sparse e la directory è grande, si consiglia di ridurre la dimensione del file di directory riducendo il numero di voci di file nella directory.

Trasferimento dell'aggregato non riuscito

CRITICO

Questo evento si verifica durante il trasferimento di un aggregato, quando il nodo di destinazione non riesce a raggiungere gli archivi di oggetti.

Eseguire le seguenti azioni correttive:…verificare che la LIF dell'intercluster sia online e funzionante utilizzando il comando "network interface show".…verificare la connettività di rete al server dell'archivio oggetti utilizzando il comando"'ping" sul LIF dell'intercluster del nodo di destinazione. …Verificare che la configurazione dell'archivio di oggetti non sia stata modificata e che le informazioni di accesso e connettività siano ancora accurate utilizzando il comando "aggregate object-store config show".…in alternativa, è possibile ignorare l'errore utilizzando il parametro "override-destination-checks" del comando di trasferimento.…contattare il supporto tecnico NetApp per ulteriori informazioni o assistenza.

Copia shadow non riuscita

CRITICO

Un servizio di copia shadow del volume (VSS), un'operazione del servizio di backup e ripristino di Microsoft Server, non è riuscita.

Verificare quanto segue utilizzando le informazioni fornite nel messaggio di evento:…la configurazione della copia shadow è attivata?…sono installate le licenze appropriate? …Su quali condivisioni viene eseguita l'operazione di copia shadow?…il nome della condivisione è corretto?…il percorso di condivisione esiste?…quali sono gli stati del set di copie shadow e delle relative copie shadow?

Guasto agli alimentatori dello switch di storage

ATTENZIONE

Manca l'alimentazione nello switch del cluster. La ridondanza è ridotta, il rischio di interruzioni di corrente con ulteriori interruzioni dell'alimentazione.

Eseguire le seguenti azioni correttive:…assicurarsi che l'alimentazione di rete, che alimenta lo switch del cluster, sia accesa.…assicurarsi che il cavo di alimentazione sia collegato all'alimentatore.…se il problema persiste, contattare il supporto tecnico NetApp.

Troppe autenticazione CIFS

ATTENZIONE

Molte negoziazioni di autenticazione si sono verificate simultaneamente. Ci sono 256 richieste di nuova sessione incomplete da questo client.

Esaminare il motivo per cui il client ha creato 256 o più nuove richieste di connessione. Potrebbe essere necessario contattare il fornitore del client o dell'applicazione per determinare il motivo dell'errore.

Accesso utente non autorizzato alla condivisione amministrativa

ATTENZIONE

Un client ha tentato di connettersi alla condivisione con privilegi ONTAP_ADMIN, anche se l'utente connesso non è un utente consentito.

Eseguire le seguenti azioni correttive:…assicurarsi che il nome utente e l'indirizzo IP menzionati siano configurati in uno dei pool di scanner Vscan attivi.…controllare la configurazione del pool di scanner attualmente attiva utilizzando il comando "vserver vscan scanner pool show-Active".

Virus rilevato

ATTENZIONE

Un server Vscan ha segnalato un errore al sistema di storage. Questo indica in genere che è stato rilevato un virus. Tuttavia, altri errori sul server Vscan possono causare questo evento.…l'accesso client al file viene negato. Il server Vscan potrebbe, a seconda delle impostazioni e della configurazione, pulire il file, metterlo in quarantena o eliminarlo.

Controllare il log del server Vscan riportato nell'evento "syslog" per verificare se è stato in grado di pulire, mettere in quarantena o eliminare correttamente il file infetto. In caso contrario, l'amministratore di sistema potrebbe dover eliminare manualmente il file.

Volume offline

INFO

Questo messaggio indica che un volume viene reso offline.

Riportare il volume online.

Volume Restricted (Volume limitato)

INFO

Questo evento indica che un volume flessibile viene limitato.

Riportare il volume online.

Arresto VM storage riuscito

INFO

Questo messaggio viene visualizzato quando un'operazione di "vserver stop" ha esito positivo.

Utilizzare il comando 'vserver start' per avviare l'accesso ai dati su una VM di storage.

Nodo Panic

ATTENZIONE

Questo evento viene generato quando si verifica un panico

Contattare l'assistenza clienti NetApp.

Monitor di log anti-ransomware

Nome monitor

Severità

Descrizione

Azione correttiva

Monitoraggio Anti-ransomware di Storage VM disattivato

ATTENZIONE

Il monitoraggio anti-ransomware per la VM di storage è disattivato. Abilitare l'anti-ransomware per proteggere la VM di storage.

Nessuno

Monitoraggio Anti-ransomware Storage VM abilitato (modalità apprendimento)

INFO

Il monitoraggio anti-ransomware per la VM di storage è attivato in modalità di apprendimento.

Nessuno

Volume Anti-ransomware Monitoring abilitato

INFO

Il monitoraggio anti-ransomware per il volume è attivato.

Nessuno

Volume Anti-ransomware Monitoring Disabled (monitoraggio Anti-ransomware volume disabilitato)

ATTENZIONE

Il monitoraggio anti-ransomware per il volume è disattivato. Abilitare l'anti-ransomware per proteggere il volume.

Nessuno

Volume Anti-ransomware Monitoring Enabled (modalità apprendimento)

INFO

Il monitoraggio anti-ransomware per il volume è attivato in modalità di apprendimento.

Nessuno

Volume Anti-ransomware Monitoring Paused (modalità di apprendimento)

ATTENZIONE

Il monitoraggio anti-ransomware per il volume viene messo in pausa in modalità di apprendimento.

Nessuno

Volume Anti-ransomware Monitoring Paused (monitoraggio anti-ransomware volume in pausa)

ATTENZIONE

Il monitoraggio anti-ransomware per il volume viene messo in pausa.

Nessuno

Volume Anti-ransomware Monitoring (monitoraggio Anti-ransomware volume) Disattiva

ATTENZIONE

Il monitoraggio anti-ransomware per il volume è in corso di disattivazione.

Nessuno

Rilevata attività ransomware

CRITICO

Per proteggere i dati dal ransomware rilevato, è stata eseguita una copia Snapshot che può essere utilizzata per ripristinare i dati originali. Il sistema genera e trasmette un messaggio AutoSupport o "call home" al supporto tecnico NetApp e a qualsiasi destinazione configurata. Il messaggio AutoSupport migliora la determinazione e la risoluzione dei problemi.

Fare riferimento al "NOME-DOCUMENTO-FINALE" per prendere misure correttive per l'attività ransomware.

FSX per i monitor ONTAP NetApp

Nome monitor

Soglie

Descrizione del monitor

Azione correttiva

La capacità del volume FSX è piena

Avvertenza @ > 85%…critica @ > 95%

La capacità di storage di un volume è necessaria per memorizzare i dati delle applicazioni e dei clienti. Maggiore è il numero di dati memorizzati nel volume ONTAP, minore sarà la disponibilità dello storage per i dati futuri. Se la capacità di storage dei dati all'interno di un volume raggiunge la capacità di storage totale, il cliente potrebbe non essere in grado di memorizzare i dati a causa della mancanza di capacità di storage. Il monitoraggio della capacità di storage utilizzata per il volume garantisce la continuità dei servizi dati.

Sono necessarie azioni immediate per ridurre al minimo l'interruzione del servizio in caso di superamento della soglia critica:…1. Prendere in considerazione l'eliminazione di dati non più necessari per liberare spazio

Volume FSX elevata latenza

Avviso @ > 1000 µs…critico @ > 2000 µs

I volumi sono oggetti che servono il traffico io spesso guidato da applicazioni sensibili alle performance, tra cui applicazioni DevOps, home directory e database. L'elevata latenze dei volumi implica che le applicazioni stesse potrebbero risentirne e non essere in grado di svolgere le proprie attività. Il monitoraggio delle latenze dei volumi è fondamentale per mantenere performance coerenti con le applicazioni.

Sono necessarie azioni immediate per ridurre al minimo l'interruzione del servizio in caso di superamento della soglia critica:…1. Se al volume è stata assegnata una policy di QoS, valutarne le soglie limite nel caso in cui il carico di lavoro del volume venga rallentato……pianificare di intraprendere le seguenti azioni subito se la soglia di avviso viene violata:…1. Se al volume è stato assegnato un criterio QoS, valutarne le soglie limite nel caso in cui il carico di lavoro del volume venga rallentato.…2. Se anche il nodo presenta un utilizzo elevato, spostare il volume su un altro nodo o ridurre il carico di lavoro totale del nodo.

FSX Volume Inodes Limit (limite nodi volume FSX

Avvertenza @ > 85%…critica @ > 95%

I volumi che memorizzano i file utilizzano i nodi indice (inode) per memorizzare i metadati dei file. Quando un volume esaurisce la propria allocazione inode, non è possibile aggiungervi altri file. Un avviso indica che è necessario intraprendere un'azione pianificata per aumentare il numero di inode disponibili. Un avviso critico indica che l'esaurimento del limite di file è imminente e che è necessario adottare misure di emergenza per liberare gli inode e garantire la continuità del servizio

Sono necessarie azioni immediate per ridurre al minimo l'interruzione del servizio in caso di superamento della soglia critica:…1. Considerare l'aumento del valore degli inode per il volume. Se il valore degli inode è già al massimo, considerare la possibilità di suddividere il volume in due o più volumi perché il file system è cresciuto oltre le dimensioni massime……pianificare di intraprendere le seguenti azioni al più presto in caso di superamento della soglia di avviso:…1. Considerare l'aumento del valore degli inode per il volume. Se il valore degli inode è già al massimo, considerare la possibilità di suddividere il volume in due o più volumi perché il file system è cresciuto oltre le dimensioni massime

Overcommit quota Qtree volume FSX

Avvertenza @ > 95%…critica @ > 100%

Volume Qtree quota Overcommit specifica la percentuale in cui un volume viene considerato overcommit dalle quote del qtree. La soglia impostata per la quota qtree viene raggiunta per il volume. Il monitoraggio dell'overcommit della quota qtree del volume garantisce che l'utente riceva un servizio dati ininterrotto.

In caso di violazione della soglia critica, è necessario intraprendere azioni immediate per ridurre al minimo l'interruzione del servizio: 1. Eliminare i dati indesiderati…in caso di superamento della soglia di avviso, prendere in considerazione l'aumento dello spazio del volume.

Spazio riserva snapshot FSX pieno

Avvertenza @ > 90%…critica @ > 95%

La capacità di storage di un volume è necessaria per memorizzare i dati delle applicazioni e dei clienti. Una parte di tale spazio, denominata spazio riservato di snapshot, viene utilizzata per memorizzare le snapshot che consentono la protezione dei dati localmente. Maggiore è il numero di dati nuovi e aggiornati memorizzati nel volume ONTAP, maggiore sarà la capacità di snapshot utilizzata e minore sarà la capacità di storage di snapshot disponibile per i dati nuovi o aggiornati in futuro. Se la capacità dei dati di snapshot all'interno di un volume raggiunge lo spazio totale di riserva di snapshot, il cliente potrebbe non essere in grado di memorizzare nuovi dati di snapshot e ridurre il livello di protezione dei dati nel volume. Il monitoraggio della capacità di snapshot del volume utilizzato garantisce la continuità dei servizi dati.

Sono necessarie azioni immediate per ridurre al minimo l'interruzione del servizio in caso di superamento della soglia critica:…1. Prendere in considerazione la configurazione delle snapshot per utilizzare lo spazio dati nel volume quando la riserva di snapshot è piena…2. Prendere in considerazione l'eliminazione di alcuni snapshot meno recenti che potrebbero non essere più necessari per liberare spazio……pianificare di intraprendere le seguenti azioni al più presto in caso di violazione della soglia di avviso:…1. Considerare l'aumento dello spazio di riserva snapshot all'interno del volume per adattarsi alla crescita…2. È consigliabile configurare le snapshot in modo che utilizzino lo spazio dati nel volume quando la riserva di snapshot è piena

FSX Volume cache Miss ratio (rapporto errori cache volume FSX)

Avvertenza @ > 95%…critica @ > 100%

Volume cache Miss ratio (rapporto errori cache volume) è la percentuale di richieste di lettura provenienti dalle applicazioni client che vengono restituite dal disco invece di essere restituite dalla cache. Ciò significa che il volume ha raggiunto la soglia impostata.

In caso di violazione della soglia critica, è necessario intraprendere azioni immediate per ridurre al minimo l'interruzione del servizio: 1. Spostare alcuni carichi di lavoro fuori dal nodo del volume per ridurre il carico di i/o 2. Ridurre la richiesta di carichi di lavoro con priorità inferiore sullo stesso nodo tramite i limiti di QoS…considerare azioni immediate in caso di superamento della soglia di avviso: 1. Spostare alcuni carichi di lavoro fuori dal nodo del volume per ridurre il carico di i/o 2. Ridurre la domanda di carichi di lavoro con priorità inferiore sullo stesso nodo tramite i limiti di QoS 3. Modifica delle caratteristiche del carico di lavoro (dimensioni del blocco, caching delle applicazioni, ecc.)

Monitor K8s

Nome monitor

Descrizione

Azioni correttive

Gravità/soglia

Latenza del volume persistente alta

Elevate latenze di volume persistente significano che le applicazioni stesse potrebbero soffrirne e non essere in grado di eseguire le loro attività. Il monitoraggio delle latenze dei volumi persistenti è fondamentale per mantenere performance coerenti con le applicazioni. Di seguito sono riportate le latenze previste in base al tipo di supporto: SSD fino a 1-2 millisecondi; SAS fino a 8-10 millisecondi e HDD SATA 17-20 millisecondi.

Azioni immediate in caso di violazione della soglia critica, prendere in considerazione azioni immediate per ridurre al minimo l'interruzione del servizio: Se al volume è stato assegnato un criterio QoS, valutare le soglie limite nel caso in cui il carico di lavoro del volume venga rallentato. Azioni da intraprendere al più presto se la soglia di allarme viene violata, pianificare le seguenti azioni immediate: 1. Se anche il pool di storage sta riscontrando un elevato utilizzo, spostare il volume in un altro pool di storage. 2. Se al volume è assegnata una policy di QoS, valutarne le soglie limite in caso di rallentamento del carico di lavoro del volume. 3. Se anche il controller sta ricevendo un utilizzo elevato, sposta il volume su un altro controller o riduci il carico di lavoro totale.

Avvertenza a > 6.000 μs critico a > 12.000 μs

Saturazione memoria cluster alta

La saturazione della memoria allocabile del cluster è elevata. La saturazione della CPU del cluster viene calcolata come la somma dell'utilizzo della memoria divisa per la somma della memoria allocabile in tutti i K8s nodi.

Aggiungere nodi. Correggere eventuali nodi non pianificati. Pod di dimensioni adeguate per liberare memoria sui nodi.

Avvertenza @ > 80 % critico a > 90 %

Collegamento POD non riuscito

Questo avviso si verifica quando un allegato di un volume con POD non funziona.

Attenzione

Elevata velocità di ritrasmissione

Velocità di ritrasmissione TCP elevata

Controllare la congestione di rete - identificare i carichi di lavoro che consumano una grande quantità di larghezza di banda di rete. Controllare l'utilizzo elevato della CPU del pod. Controllare le prestazioni della rete hardware.

Avvertenza @ > 10 % critico a > 25 %

Capacità file system nodo alta

Capacità file system nodo alta

- Aumentare le dimensioni dei dischi del nodo per assicurarsi che vi sia spazio sufficiente per i file dell'applicazione. - Ridurre l'utilizzo del file dell'applicazione.

Avvertenza @ > 80 % critico a > 90 %

Jitter di rete del carico di lavoro alto

Jitter TCP elevato (variazioni dei tempi di risposta/latenza elevata)

Verificare la presenza di congestione della rete. Identifica i workload che consumano una notevole larghezza di banda della rete. Controllare l'utilizzo elevato della CPU del pod. Controllare le prestazioni della rete hardware

Avvertenza @ > 30 ms critico a > 50 ms.

Throughput del volume persistente

Le soglie di MBPS sui volumi persistenti possono essere utilizzate per avvisare un amministratore quando i volumi persistenti superano le aspettative di performance predefinite, con un potenziale impatto su altri volumi persistenti. L'attivazione di questo monitor genera avvisi appropriati per il profilo di throughput tipico dei volumi persistenti su SSD. Il monitor copre tutti i volumi persistenti del tenant. I valori di soglia critici e di avvertenza possono essere modificati in base agli obiettivi di monitoraggio duplicando questo monitor e impostando le soglie appropriate per la classe di archiviazione. Un monitor duplicato può essere indirizzato ulteriormente a un sottoinsieme dei volumi persistenti sul tenant.

Azioni immediate se la soglia critica viene violata, pianificare azioni immediate per ridurre al minimo l'interruzione del servizio: 1. Introdurre i limiti QoS MBPS per il volume. 2. Verificare l'eventuale presenza di anomalie nell'applicazione che aziona il carico di lavoro sul volume. Azioni da intraprendere a breve in caso di superamento della soglia di avviso, pianificare le seguenti azioni immediate: 1. Introdurre i limiti QoS MBPS per il volume. 2. Verificare l'eventuale presenza di anomalie nell'applicazione che aziona il carico di lavoro sul volume.

Avvertenza @ > 10.000 MB/s critico @ > 15.000 MB/s.

Contenitore a rischio di morte OOM

I limiti di memoria del contenitore sono troppo bassi. Il contenitore è a rischio di sfratto (esaurimento della memoria).

Aumentare i limiti della memoria del contenitore.

Avvertenza a > 95 %

Riduzione del carico di lavoro

Il carico di lavoro non dispone di pod integri.

Critico a < 1

Persistente richiesta di rimborso del volume non riuscita

Questo avviso si verifica quando un'associazione su un PVC non riesce.

Attenzione

I limiti di ResourceQuota Mem stanno per superare

I limiti di memoria per lo spazio dei nomi stanno per superare ResourceQuota

Avvertenza @ > 80 % critico a > 90 %

Le richieste di ResourceQuota Mem stanno per superare

Le richieste di memoria per lo spazio dei nomi stanno per superare ResourceQuota

Avvertenza @ > 80 % critico a > 90 %

Creazione nodo non riuscita

Impossibile pianificare il nodo a causa di un errore di configurazione.

Controllare il registro eventi di Kubernetes per verificare la causa dell'errore di configurazione.

Critico

Recupero volume persistente non riuscito

Il recupero automatico del volume non è riuscito.

Avvertenza @ > 0 B.

Limitazione della CPU del container

I limiti della CPU del contenitore sono impostati su un valore troppo basso. I processi dei container vengono rallentati.

Aumentare i limiti della CPU del container.

Avvertenza @ > 95 % critico a > 98 %

Impossibile eliminare il bilanciamento del carico del servizio

Attenzione

IOPS volume persistente

Le soglie di IOPS sui volumi persistenti possono essere utilizzate per avvisare un amministratore quando i volumi persistenti superano le aspettative di performance predefinite. L'attivazione di questo monitor genera avvisi appropriati per il profilo IOPS tipico dei volumi di persistenza. Il monitor copre tutti i volumi persistenti del tenant. I valori di soglia critici e di avvertenza possono essere regolati in base agli obiettivi di monitoraggio duplicando questo monitor e impostando le soglie appropriate per il carico di lavoro.

Azioni immediate se la soglia critica viene violata, pianificare azioni immediate per ridurre al minimo l'interruzione del servizio: 1. Introduciamo limiti di IOPS di qualità del servizio per il volume. 2. Verificare l'eventuale presenza di anomalie nell'applicazione che aziona il carico di lavoro sul volume. Azioni da intraprendere al più presto se la soglia di allarme viene violata, pianificare le seguenti azioni immediate: 1. Introduciamo limiti di IOPS di qualità del servizio per il volume. 2. Verificare l'eventuale presenza di anomalie nell'applicazione che aziona il carico di lavoro sul volume.

Avvertenza @ > 20.000 i/s critici @ > 25.000 i/s.

Impossibile aggiornare il bilanciamento del carico del servizio

Attenzione

MONTAGGIO POD non riuscito

Questo avviso si verifica quando un montaggio su un POD non funziona.

Attenzione

Pressione PID nodo

Gli identificatori di processo disponibili sul nodo (Linux) sono scesi al di sotto di una soglia di sfratto.

Trova e correggi i pod che generano molti processi e occupano il nodo degli ID di processo disponibili. Configura PodPidsLimit per proteggere il tuo nodo da pod o container che generano troppi processi.

Critico a > 0

Errore estrazione immagine pod

Kubernetes non è riuscito a estrarre l'immagine del contenitore di pod.

- Assicurarsi che l'immagine del pod sia scritta correttamente nella configurazione del pod. - Verificare che il tag immagine esista nel registro. - Verificare le credenziali per il registro delle immagini. - Verificare la presenza di problemi di connettività del Registro di sistema. - Verificare di non aver raggiunto i limiti di velocità imposti dai provider pubblici del Registro di sistema.

Attenzione

Processo in esecuzione troppo lungo

Processo in esecuzione troppo a lungo

Avvertenza @ > 1 ore critico @ > 5 ore

Memoria nodo alta

L'utilizzo della memoria del nodo è elevato

Aggiungere nodi. Correggere eventuali nodi non pianificati. Pod di dimensioni adeguate per liberare memoria sui nodi.

Avvertenza @ > 85 % critico a > 90 %

I limiti CPU di ResourceQuota stanno per superare

I limiti CPU per lo spazio dei nomi stanno per superare ResourceQuota

Avvertenza @ > 80 % critico a > 90 %

Backoff ciclo di arresto del pod

Pod si è bloccato e ha tentato di riavviarsi più volte.

Critico a > 3

CPU nodo alta

L'utilizzo della CPU del nodo è elevato.

Aggiungere nodi. Correggere eventuali nodi non pianificati. Pod ideali per liberare la CPU sui nodi.

Avvertenza @ > 80 % critico a > 90 %

Latenza rete carico di lavoro RTT alta

Elevata latenza RTT TCP (tempo di andata e ritorno)

Controllare la congestione di rete ▒ identificare i carichi di lavoro che consumano una grande quantità di larghezza di banda di rete. Controllare l'utilizzo elevato della CPU del pod. Controllare le prestazioni della rete hardware.

Avvertenza @ > 150 ms critico a > 300 ms.

Processo non riuscito

Il processo non è stato completato correttamente a causa di un arresto anomalo del nodo o di un riavvio, di un esaurimento delle risorse, di un timeout del processo o di un errore di pianificazione del pod.

Controllare i registri eventi di Kubernetes per verificare le cause dei guasti.

Avvertenza @ > 1

Volume persistente pieno in pochi giorni

Il volume persistente esaurirà lo spazio nell'arco di pochi giorni

-Aumentare le dimensioni del volume per assicurarsi che vi sia spazio sufficiente per i file dell'applicazione. -Ridurre la quantità di dati memorizzati nelle applicazioni.

Avvertenza @ < 8 giorno critico @ < 3 giorno

Pressione memoria nodo

Il nodo sta esaurendo la memoria. La memoria disponibile ha raggiunto la soglia di evocazione.

Aggiungere nodi. Correggere eventuali nodi non pianificati. Pod di dimensioni adeguate per liberare memoria sui nodi.

Critico a > 0

Nodo non pronto

Il nodo è stato non pronto per 5 minuti

Verificare che il nodo disponga di risorse sufficienti per CPU, memoria e disco. Controllare la connettività di rete del nodo. Controllare i registri eventi di Kubernetes per verificare le cause dei guasti.

Critico a < 1

Capacità volume persistente alta

La capacità utilizzata di backend del volume persistente è elevata.

- Aumentare le dimensioni del volume per assicurarsi che vi sia spazio sufficiente per i file dell'applicazione. Consente di ridurre la quantità di dati memorizzati nelle applicazioni.

Avvertenza @ > 80 % critico a > 90 %

Impossibile creare il bilanciamento del carico del servizio

Creazione del bilanciamento del carico del servizio non riuscita

Critico

Mancata corrispondenza della replica del carico di lavoro

Alcuni pod non sono attualmente disponibili per una distribuzione o un DaemonSet.

Avvertenza @ > 1

Le richieste CPU di ResourceQuota stanno per superare

Le richieste CPU per lo spazio dei nomi stanno per superare ResourceQuota

Avvertenza @ > 80 % critico a > 90 %

Elevata velocità di ritrasmissione

Velocità di ritrasmissione TCP elevata

Controllare la congestione di rete - identificare i carichi di lavoro che consumano una grande quantità di larghezza di banda di rete. Controllare l'utilizzo elevato della CPU del pod. Controllare le prestazioni della rete hardware.

Avvertenza @ > 10 % critico a > 25 %

Pressione del disco del nodo

Lo spazio disponibile su disco e gli inodes sul filesystem root del nodo o sul filesystem di immagine hanno soddisfatto una soglia di eviction.

- Aumentare le dimensioni dei dischi del nodo per assicurarsi che vi sia spazio sufficiente per i file dell'applicazione. - Ridurre l'utilizzo del file dell'applicazione.

Critico a > 0

Saturazione CPU cluster alta

La saturazione della CPU allocabile del cluster è elevata. La saturazione della CPU del cluster viene calcolata come la somma dell'utilizzo della CPU divisa per la somma della CPU allocabile in tutti i K8s nodi.

Aggiungere nodi. Correggere eventuali nodi non pianificati. Pod ideali per liberare la CPU sui nodi.

Avvertenza @ > 80 % critico a > 90 %

Change Log Monitor (Modifica monitor registro)

Nome monitor

Severità

Descrizione del monitor

Volume interno rilevato

Informativo

Questo messaggio viene visualizzato quando viene rilevato un volume interno.

Volume interno modificato

Informativo

Questo messaggio viene visualizzato quando viene modificato un volume interno.

Nodo di storage rilevato

Informativo

Questo messaggio viene visualizzato quando viene rilevato un nodo di storage.

Nodo di storage rimosso

Informativo

Questo messaggio viene visualizzato quando viene rimosso un nodo di storage.

Pool di storage rilevato

Informativo

Questo messaggio viene visualizzato quando viene rilevato un pool di storage.

Macchina virtuale per lo storage rilevata

Informativo

Questo messaggio viene visualizzato quando viene rilevata una Storage Virtual Machine.

Macchina virtuale di storage modificata

Informativo

Questo messaggio viene visualizzato quando viene modificata una Storage Virtual Machine.

Monitor per la raccolta dei dati

Nome monitor

Descrizione

Azione correttiva

Arresto dell'unità di acquisizione

Le unità di acquisizione di Data Infrastructure Insights vengono periodicamente riavviate durante gli aggiornamenti per introdurre nuove funzioni. Questo avviene una volta al mese o meno in un ambiente tipico. Un avviso di arresto di un'unità di acquisizione deve essere seguito subito dopo da una risoluzione, notando che l'unità di acquisizione appena riavviata ha completato una registrazione con Data Infrastructure Insights. In genere, questo ciclo di shutdown-to-registration richiede da 5 a 15 minuti.

Se l'avviso si verifica frequentemente o dura più di 15 minuti, controllare il funzionamento del sistema che ospita l'unità di acquisizione, la rete e qualsiasi proxy che connette l'AU a Internet.

Collector non riuscito

Il sondaggio di un data collector ha riscontrato una situazione di errore imprevista.

Visita la pagina di raccolta dati in Data Infrastructure Insights per saperne di più sulla situazione.

Avviso di raccolta

Questo avviso può in genere verificarsi a causa di una configurazione errata del data collector o del sistema di destinazione. Rivedere le configurazioni per evitare avvisi futuri. Può anche essere dovuto a un recupero di dati meno completi in cui il data collector ha raccolto tutti i dati possibili. Ciò può verificarsi quando le situazioni cambiano durante la raccolta dei dati (ad esempio, una macchina virtuale presente all'inizio della raccolta dei dati viene eliminata durante la raccolta dei dati e prima che i dati vengano acquisiti).

Controllare la configurazione del data collector o del sistema di destinazione. Tenere presente che il monitor per Collector Warning può inviare più avvisi rispetto ad altri tipi di monitor, pertanto si consiglia di non impostare destinatari di avvisi a meno che non si stia eseguendo la risoluzione dei problemi.

Monitor di sicurezza

Nome monitor

Soglia

Descrizione del monitor

Azione correttiva

Trasporto HTTPS AutoSupport disattivato

Avvertenza @ < 1

AutoSupport supporta HTTPS, HTTP e SMTP per i protocolli di trasporto. A causa della natura sensibile dei messaggi AutoSupport, NetApp consiglia vivamente di utilizzare HTTPS come protocollo di trasporto predefinito per l'invio di messaggi AutoSupport al supporto NetApp.

Per impostare HTTPS come protocollo di trasporto per i messaggi AutoSupport, eseguire il seguente comando ONTAP:…system node AutoSupport modify -transport https

Crittografia non sicura del cluster per SSH

Avvertenza @ < 1

Indica che SSH sta utilizzando cifrari non sicuri, ad esempio cifrari che iniziano con *cbc.

Per rimuovere le cifre CBC, eseguire il seguente comando ONTAP:…Security ssh remove -vserver <admin vserver> -cifers aes256-cbc,aes192-cbc,aes128-cbc,3des-cbc

Banner di accesso cluster disattivato

Avvertenza @ < 1

Indica che il banner di accesso è disattivato per gli utenti che accedono al sistema ONTAP. La visualizzazione di un banner di accesso è utile per stabilire le aspettative di accesso e utilizzo del sistema.

Per configurare il banner di accesso per un cluster, eseguire il seguente comando ONTAP:…Security login banner modify -vserver <admin svm> -message "accesso limitato agli utenti autorizzati"

Comunicazione peer cluster non crittografata

Avvertenza @ < 1

Durante la replica dei dati per il disaster recovery, il caching o il backup, è necessario proteggerli durante il trasporto via cavo da un cluster ONTAP a un altro. La crittografia deve essere configurata sia sul cluster di origine che su quello di destinazione.

Per abilitare la crittografia sulle relazioni peer del cluster create prima di ONTAP 9.6, è necessario aggiornare il cluster di origine e di destinazione alla versione 9.6. Quindi, utilizzare il comando "cluster peer modify" per modificare i peer del cluster di origine e di destinazione in modo da utilizzare la crittografia di peering dei cluster.…per ulteriori informazioni, consultare la Guida di protezione avanzata di NetApp per ONTAP 9.

Default Local Admin User Enabled (utente amministratore locale predefinito attivato

Avvertenza @ > 0

NetApp consiglia di bloccare (disabilitare) gli account utente amministratore predefinito non necessari (integrati) con il comando lock. Si tratta principalmente di account predefiniti per i quali le password non sono mai state aggiornate o modificate.

Per bloccare l'account "admin" integrato, eseguire il seguente comando ONTAP:…Security login lock -nomeutente admin

Modalità FIPS disattivata

Avvertenza @ < 1

Quando la conformità FIPS 140-2 è attivata, TLSv1 e SSLv3 sono disattivati e rimangono attivati solo TLSv1.1 e TLSv1.2. ONTAP impedisce di abilitare TLSv1 e SSLv3 quando la conformità FIPS 140-2 è attivata.

Per abilitare la conformità FIPS 140-2 su un cluster, eseguire il seguente comando ONTAP in Advanced Privilege mode:…Security config modify -interface SSL -is-fips-enabled true

Inoltro log non crittografato

Avvertenza @ < 1

L'offload delle informazioni syslog è necessario per limitare l'ambito o l'impatto di una violazione a un singolo sistema o soluzione. Pertanto, NetApp consiglia di trasferire in modo sicuro le informazioni syslog in una posizione di storage o conservazione sicura.

Una volta creata una destinazione di inoltro del log, il protocollo non può essere modificato. Per passare a un protocollo crittografato, eliminare e ricreare la destinazione di inoltro del log utilizzando il seguente comando ONTAP:…cluster log-forwarding create -destination <destination ip> -Protocol tcp-Encrypted

Password hash MD5

Avvertenza @ > 0

NetApp consiglia vivamente di utilizzare la funzione hash SHA-512 più sicura per le password degli account utente ONTAP. Gli account che utilizzano la funzione hash MD5 meno sicura devono migrare alla funzione hash SHA-512.

NetApp consiglia vivamente agli account utente di migrare verso la soluzione SHA-512 più sicura, facendo in modo che gli utenti modifichino le proprie password.…per bloccare gli account con password che utilizzano la funzione hash MD5, eseguire il seguente comando ONTAP:…Security login lock -vserver * -username * -hash-function md5

Nessun server NTP configurato

Avvertenza @ < 1

Indica che il cluster non dispone di server NTP configurati. Per garantire ridondanza e un servizio ottimale, NetApp consiglia di associare almeno tre server NTP al cluster.

Per associare un server NTP al cluster, eseguire il seguente comando ONTAP: Cluster Time-service ntp server create -server <ntp server host name or ip address>

Il numero di server NTP è basso

Avvertenza @ < 3

Indica che il cluster ha meno di 3 server NTP configurati. Per garantire ridondanza e un servizio ottimale, NetApp consiglia di associare almeno tre server NTP al cluster.

Per associare un server NTP al cluster, eseguire il seguente comando ONTAP:…cluster time-service ntp server create -server <ntp server host name or ip address>

Shell remota attivata

Avvertenza @ > 0

La shell remota non è un metodo sicuro per stabilire l'accesso dalla riga di comando alla soluzione ONTAP. La shell remota deve essere disattivata per un accesso remoto sicuro.

NetApp consiglia Secure Shell (SSH) per un accesso remoto sicuro.…per disattivare la shell remota su un cluster, eseguire il seguente comando ONTAP in Advanced Privilege mode:…Security Protocol modify -application rsh- enabled false

Log di audit delle VM di storage disattivato

Avvertenza @ < 1

Indica che la registrazione dell'audit è disattivata per SVM.

Per configurare il registro di controllo per un vserver, eseguire il seguente comando ONTAP:…vserver audit enable -vserver <svm>

Crittografia non sicura delle VM di storage per SSH

Avvertenza @ < 1

Indica che SSH sta utilizzando cifrari non sicuri, ad esempio cifrari che iniziano con *cbc.

Per rimuovere le cifre CBC, eseguire il seguente comando ONTAP:…Security ssh remove -vserver <vserver> -cifers aes256-cbc,aes192-cbc,aes128-cbc,3des-cbc

Banner di login Storage VM disattivato

Avvertenza @ < 1

Indica che il banner di accesso è disattivato per gli utenti che accedono alle SVM sul sistema. La visualizzazione di un banner di accesso è utile per stabilire le aspettative di accesso e utilizzo del sistema.

Per configurare il banner di accesso per un cluster, eseguire il seguente comando ONTAP:…Security login banner modify -vserver <svm> -message "accesso limitato agli utenti autorizzati"

Protocollo Telnet attivato

Avvertenza @ > 0

Telnet non è un metodo sicuro per stabilire l'accesso dalla riga di comando alla soluzione ONTAP. Telnet deve essere disattivato per un accesso remoto sicuro.

NetApp consiglia Secure Shell (SSH) per un accesso remoto sicuro. Per disattivare Telnet su un cluster, eseguire il seguente comando ONTAP in Advanced Privilege mode:…Security Protocol modify -application telnet -enabled false

Monitor per la protezione dei dati

Nome monitor

Soglie

Descrizione del monitor

Azione correttiva

Spazio insufficiente per la copia snapshot Lun

(Filter contains_lun = Yes) Avviso @ > 95 %…critico @ > 100 %

La capacità di storage di un volume è necessaria per memorizzare i dati delle applicazioni e dei clienti. Una parte di tale spazio, denominata spazio riservato di snapshot, viene utilizzata per memorizzare le snapshot che consentono la protezione dei dati localmente. Maggiore è il numero di dati nuovi e aggiornati memorizzati nel volume ONTAP, maggiore sarà la capacità di snapshot utilizzata e minore sarà la capacità di storage di snapshot disponibile per i dati nuovi o aggiornati in futuro. Se la capacità dei dati di snapshot all'interno di un volume raggiunge lo spazio totale di riserva di snapshot, il cliente potrebbe non essere in grado di memorizzare nuovi dati di snapshot e ridurre il livello di protezione dei dati nelle LUN del volume. Il monitoraggio della capacità di snapshot del volume utilizzato garantisce la continuità dei servizi dati.

Azioni immediate in caso di superamento della soglia critica, prendere in considerazione azioni immediate per ridurre al minimo l'interruzione del servizio: 1. Configurare le snapshot in modo che utilizzino lo spazio dati nel volume quando la riserva di snapshot è piena. 2. Elimina alcuni snapshot indesiderati meno recenti per liberare spazio. Azioni da intraprendere a breve in caso di superamento della soglia di avviso, pianificare le seguenti azioni immediate: 1. Aumentare lo spazio di riserva snapshot all'interno del volume per adattarlo alla crescita. 2. Configurare le snapshot in modo che utilizzino lo spazio dati nel volume quando la riserva di snapshot è piena.

Ritardo relazione SnapMirror

Avvertenza @ > 150%…critica @ > 300%

Il ritardo di relazione di SnapMirror è la differenza tra l'indicatore di data e ora dello snapshot e l'ora sul sistema di destinazione. Lag_time_percent è il rapporto tra il tempo di ritardo e l'intervallo di pianificazione di SnapMirror Policy. Se il tempo di ritardo corrisponde all'intervallo di pianificazione, lag_time_percent sarà pari al 100%. Se la policy di SnapMirror non ha una pianificazione, lag_time_percent non verrà calcolata.

Monitorare lo stato di SnapMirror utilizzando il comando "snapmirror show". Controllare la cronologia di trasferimento di SnapMirror utilizzando il comando "snapmirror show-history"

Monitoraggio del volume cloud (CVO)

Nome monitor

Severità ci

Descrizione del monitor

Azione correttiva

Disco CVO fuori servizio

INFO

Questo evento si verifica quando un disco viene rimosso dal servizio perché è stato contrassegnato come non riuscito, viene sanificato o è entrato nel Centro di manutenzione.

Nessuno

Giveback CVO del pool di storage non riuscito

CRITICO

Questo evento si verifica durante la migrazione di un aggregato come parte di un giveback di failover dello storage (SFO), quando il nodo di destinazione non riesce a raggiungere gli archivi di oggetti.

Eseguire le seguenti azioni correttive: Verificare che la LIF dell'intercluster sia in linea e funzionante utilizzando il comando "network interface show" (mostra interfaccia di rete). Verificare la connettività di rete al server di archiviazione oggetti utilizzando il comando "'ping" sul LIF del nodo di destinazione dell'intercluster. Verificare che la configurazione dell'archivio di oggetti non sia stata modificata e che le informazioni di accesso e connettività siano ancora accurate utilizzando il comando "aggregate object-store config show". In alternativa, è possibile ignorare l'errore specificando false per il parametro "prescrivere-partner-waiting" del comando giveback. Per ulteriori informazioni o assistenza, contattare il supporto tecnico NetApp.

Interconnessione CVO ha non disponibile

ATTENZIONE

L'interconnessione ad alta disponibilità (ha) non è disponibile. Rischio di interruzione del servizio quando il failover non è disponibile.

Le azioni correttive dipendono dal numero e dal tipo di collegamenti di interconnessione ha supportati dalla piattaforma, nonché dal motivo per cui l'interconnessione è inattiva. Se i collegamenti non sono attivi: Verificare che entrambi i controller della coppia ha siano operativi. Per i collegamenti esterni, assicurarsi che i cavi di interconnessione siano collegati correttamente e che i Small Form-Factor pluggable (SFP), se presenti, siano posizionati correttamente su entrambi i controller. Per i collegamenti interni, disattivare e riattivare i collegamenti, uno dopo l'altro, utilizzando i comandi "ic link Off" (collegamento ic disattivato) e "ic link on" (collegamento ic attivato). Se i collegamenti sono disattivati, abilitarlo usando il comando "ic link on". Se un peer non è connesso, disattivare e riattivare i collegamenti, uno dopo l'altro, utilizzando i comandi "ic link Off" (collegamento ic disattivato) e "ic link on" (collegamento ic attivato). Se il problema persiste, contattare il supporto tecnico NetApp.

Numero massimo di sessioni CVO per utente superato

ATTENZIONE

È stato superato il numero massimo di sessioni consentite per utente su una connessione TCP. Qualsiasi richiesta di stabilire una sessione verrà rifiutata fino al rilascio di alcune sessioni.

Eseguire le seguenti azioni correttive: Esaminare tutte le applicazioni in esecuzione sul client e terminare quelle che non funzionano correttamente. Riavviare il client. Verificare se il problema è causato da un'applicazione nuova o esistente: Se l'applicazione è nuova, impostare una soglia più alta per il client utilizzando il comando "cifs option modify -max-opes-same-file-per-tree". In alcuni casi, i client funzionano come previsto, ma richiedono una soglia più alta. È necessario disporre di privilegi avanzati per impostare una soglia più alta per il client. Se il problema è causato da un'applicazione esistente, potrebbe esserci un problema con il client. Per ulteriori informazioni o assistenza, contattare il supporto tecnico NetApp.

Conflitto nome NetBIOS CVO

CRITICO

NetBIOS Name Service ha ricevuto una risposta negativa a una richiesta di registrazione del nome da un computer remoto. Questo problema è causato in genere da un conflitto nel nome NetBIOS o in un alias. Di conseguenza, i client potrebbero non essere in grado di accedere ai dati o di connettersi al nodo di servizio dati corretto nel cluster.

Eseguire una delle seguenti azioni correttive: In caso di conflitto nel nome NetBIOS o in un alias, eseguire una delle seguenti operazioni: Eliminare l'alias NetBIOS duplicato utilizzando il comando "vserver cifs delete -alias -vserver vserver vserver". Rinominare un alias NetBIOS eliminando il nome duplicato e aggiungendo un alias con un nuovo nome utilizzando il comando "vserver cifs create -alias -vserver vserver vserver". Se non sono configurati alias e si verifica un conflitto nel nome NetBIOS, rinominare il server CIFS utilizzando i comandi "vserver cifs delete -vserver vserver vserver" e "vserver cifs create -cifs-server netbiosname". NOTA: L'eliminazione di un server CIFS può rendere i dati inaccessibili. Rimuovere il nome NetBIOS o rinominare NetBIOS sul computer remoto.

Pool di store CVO NFSv4 esaurito

CRITICO

Un pool di store NFSv4 è stato esaurito.

Se il server NFS non risponde per più di 10 minuti dopo l'evento, contattare il supporto tecnico di NetApp.

Panic nodo CVO

ATTENZIONE

Questo evento viene generato quando si verifica un panico

Contattare l'assistenza clienti NetApp.

Spazio volume radice nodo CVO basso

CRITICO

Il sistema ha rilevato che lo spazio del volume root è pericolosamente basso. Il nodo non è completamente operativo. È possibile che si sia verificato un failover dei dati LIF all'interno del cluster, a causa del quale l'accesso NFS e CIFS è limitato sul nodo. La funzionalità amministrativa è limitata alle procedure di ripristino locali per consentire al nodo di liberare spazio sul volume root.

Eseguire le seguenti azioni correttive: Liberare spazio sul volume root eliminando le vecchie copie Snapshot, eliminando i file non più necessari dalla directory /mroot o espandendo la capacità del volume root. Riavviare il controller. Per ulteriori informazioni o assistenza, contattare il supporto tecnico NetApp.

Condivisione amministratore CVO inesistente

CRITICO

Problema con Vscan: Un client ha tentato di connettersi a una condivisione ONTAP_ADMIN inesistente.

Assicurarsi che Vscan sia abilitato per l'ID SVM specificato. L'abilitazione di Vscan su una SVM determina la creazione automatica della condivisione ONTAP_ADMIN per la SVM.

Host CVO Object Store non risolvibile

CRITICO

Il nome host del server archivio oggetti non può essere risolto in un indirizzo IP. Il client dell'archivio di oggetti non può comunicare con il server dell'archivio di oggetti senza risolvere un indirizzo IP. Di conseguenza, i dati potrebbero essere inaccessibili.

Controllare la configurazione DNS per verificare che il nome host sia configurato correttamente con un indirizzo IP.

CVO Object Store Intercluster LIF inattivo

CRITICO

Il client dell'archivio di oggetti non riesce a trovare una LIF operativa per comunicare con il server dell'archivio di oggetti. Il nodo non consentirà il traffico del client dell'archivio di oggetti fino a quando la LIF dell'intercluster non sarà operativa. Di conseguenza, i dati potrebbero essere inaccessibili.

Eseguire le seguenti azioni correttive: Controllare lo stato LIF dell'intercluster utilizzando il comando "network intercluster show -role". Verificare che la LIF dell'intercluster sia configurata correttamente e che funzioni correttamente. Se un LIF di intercluster non è configurato, aggiungerlo utilizzando il comando "network intercluster create -role".

Mancata corrispondenza firma archivio oggetti CVO

CRITICO

La firma della richiesta inviata al server archivio oggetti non corrisponde alla firma calcolata dal client. Di conseguenza, i dati potrebbero essere inaccessibili.

Verificare che la chiave di accesso segreta sia configurata correttamente. Se la configurazione è corretta, contattare il supporto tecnico NetApp per assistenza.

CVO QoS Monitor Memory maximed out (memoria monitor QoS CVO massima

CRITICO

La memoria dinamica del sottosistema QoS ha raggiunto il limite per l'hardware della piattaforma corrente. Alcune funzioni QoS potrebbero funzionare in una capacità limitata.

Eliminare alcuni carichi di lavoro o flussi attivi per liberare memoria. Utilizzare il comando "statistics show -object workload -counter Ops" per determinare quali carichi di lavoro sono attivi. I carichi di lavoro attivi mostrano operazioni diverse da zero. Quindi, utilizzare più volte il comando "workload DELETE <workload_name>" per rimuovere carichi di lavoro specifici. In alternativa, utilizzare il comando "stream delete -workload <workload name> *" per eliminare i flussi associati dal carico di lavoro attivo.

Timeout READDIR CVO

CRITICO

Un'operazione del file READDIR ha superato il timeout consentito per l'esecuzione in WAFL. Questo può essere dovuto a directory molto grandi o sparse. Si consiglia di intraprendere un'azione correttiva.

Eseguire le seguenti azioni correttive: Trovare le informazioni specifiche delle directory recenti che hanno avuto la scadenza delle operazioni del file READDIR utilizzando il seguente comando 'diag' Privilege nodeshell CLI: WAFL readdir notice show. Controllare se le directory sono indicate come sparse o no: Se una directory è indicata come sparse, si consiglia di copiare il contenuto della directory in una nuova directory per rimuovere la scarsità del file di directory. Se una directory non è indicata come sparse e la directory è grande, si consiglia di ridurre la dimensione del file di directory riducendo il numero di voci di file nella directory.

Trasferimento CVO del pool di storage non riuscito

CRITICO

Questo evento si verifica durante il trasferimento di un aggregato, quando il nodo di destinazione non riesce a raggiungere gli archivi di oggetti.

Eseguire le seguenti azioni correttive: Verificare che la LIF dell'intercluster sia in linea e funzionante utilizzando il comando "network interface show" (mostra interfaccia di rete). Verificare la connettività di rete al server di archiviazione oggetti utilizzando il comando "'ping" sul LIF del nodo di destinazione dell'intercluster. Verificare che la configurazione dell'archivio di oggetti non sia stata modificata e che le informazioni di accesso e connettività siano ancora accurate utilizzando il comando "aggregate object-store config show". In alternativa, è possibile ignorare l'errore utilizzando il parametro "override-destination-checks" del comando di rilocazione. Per ulteriori informazioni o assistenza, contattare il supporto tecnico NetApp.

Copia shadow CVO non riuscita

CRITICO

Un servizio di copia shadow del volume (VSS), un'operazione del servizio di backup e ripristino di Microsoft Server, non è riuscita.

Verificare quanto segue utilizzando le informazioni fornite nel messaggio di evento: La configurazione della copia shadow è attivata? Sono installate le licenze appropriate? Su quali condivisioni viene eseguita l'operazione di copia shadow? Il nome della condivisione è corretto? Il percorso di condivisione esiste? Quali sono gli stati del set di copie shadow e delle relative copie shadow?

Interruzione VM storage CVO riuscita

INFO

Questo messaggio viene visualizzato quando un'operazione di "vserver stop" ha esito positivo.

Utilizzare il comando 'vserver start' per avviare l'accesso ai dati su una VM di storage.

CVO troppi CIFS Authentication

ATTENZIONE

Molte negoziazioni di autenticazione si sono verificate simultaneamente. Ci sono 256 richieste di nuova sessione incomplete da questo client.

Esaminare il motivo per cui il client ha creato 256 o più nuove richieste di connessione. Potrebbe essere necessario contattare il fornitore del client o dell'applicazione per determinare il motivo dell'errore.

Dischi CVO non assegnati

INFO

Il sistema dispone di dischi non assegnati: La capacità viene sprecata e il sistema potrebbe presentare modifiche di configurazione errate o parziali.

Eseguire le seguenti azioni correttive: Determinare quali dischi non sono assegnati utilizzando il comando "disk show -n". Assegnare i dischi a un sistema utilizzando il comando "disk assign".

Accesso utente non autorizzato CVO alla condivisione amministrativa

ATTENZIONE

Un client ha tentato di connettersi alla condivisione con privilegi ONTAP_ADMIN, anche se l'utente connesso non è un utente consentito.

Eseguire le seguenti azioni correttive: Assicurarsi che il nome utente e l'indirizzo IP menzionati siano configurati in uno dei pool di scanner Vscan attivi. Verificare la configurazione del pool di scanner attualmente attiva utilizzando il comando "vserver vscan scanner pool show-Active".

Virus CVO rilevato

ATTENZIONE

Un server Vscan ha segnalato un errore al sistema di storage. Questo indica in genere che è stato rilevato un virus. Tuttavia, altri errori sul server Vscan possono causare questo evento. Accesso client al file negato. Il server Vscan potrebbe, a seconda delle impostazioni e della configurazione, pulire il file, metterlo in quarantena o eliminarlo.

Controllare il log del server Vscan riportato nell'evento "syslog" per verificare se è stato in grado di pulire, mettere in quarantena o eliminare correttamente il file infetto. In caso contrario, l'amministratore di sistema potrebbe dover eliminare manualmente il file.

Volume CVO non in linea

INFO

Questo messaggio indica che un volume viene reso offline.

Riportare il volume online.

Volume CVO limitato

INFO

Questo evento indica che un volume flessibile viene limitato.

Riportare il volume online.

SnapMirror for Business Continuity (SMBC) Mediator Log Monitor

Nome monitor

Severità

Descrizione del monitor

Azione correttiva

Aggiunto mediatore ONTAP

INFO

Questo messaggio viene visualizzato quando il mediatore ONTAP viene aggiunto correttamente a un cluster.

Nessuno

Mediatore ONTAP non accessibile

CRITICO

Questo messaggio viene visualizzato quando il supporto ONTAP viene riassegnato o il pacchetto non viene più installato sul server. Di conseguenza, il failover di SnapMirror non è possibile.

Rimuovere la configurazione del supporto ONTAP corrente utilizzando il comando "rimozione del mediatore snapmirror". Riconfigurare l'accesso al supporto ONTAP utilizzando il comando "snapmirror mediator add".

ONTAP Mediator rimosso

INFO

Questo messaggio viene visualizzato quando il mediatore ONTAP viene rimosso correttamente da un cluster.

Nessuno

Mediatore ONTAP non raggiungibile

ATTENZIONE

Questo messaggio viene visualizzato quando il mediatore ONTAP non è raggiungibile su un cluster. Di conseguenza, il failover di SnapMirror non è possibile.

Verificare la connettività di rete al mediatore ONTAP utilizzando i comandi "ping di rete" e "traceroute di rete". Se il problema persiste, rimuovere la configurazione dell'attuale mediatore ONTAP utilizzando il comando "snapmirror mediator remove" (Rimuovi mediatore snapmirror). Riconfigurare l'accesso al supporto ONTAP utilizzando il comando "snapmirror mediator add".

Certificato CA SMBC scaduto

CRITICO

Questo messaggio viene visualizzato quando il certificato dell'autorità di certificazione (CA) del mediatore ONTAP è scaduto. Di conseguenza, non sarà possibile effettuare ulteriori comunicazioni con il mediatore ONTAP.

Rimuovere la configurazione del supporto ONTAP corrente utilizzando il comando "rimozione del mediatore snapmirror". Aggiornare un nuovo certificato CA sul server del mediatore ONTAP. Riconfigurare l'accesso al supporto ONTAP utilizzando il comando "snapmirror mediator add".

Certificato CA SMBC in scadenza

ATTENZIONE

Questo messaggio viene visualizzato quando il certificato dell'autorità di certificazione (CA) del mediatore ONTAP scadrà entro i prossimi 30 giorni.

Prima della scadenza del certificato, rimuovere la configurazione del mediatore ONTAP corrente utilizzando il comando "snapmirror mediator remove" (Rimuovi mediatore snapmirror). Aggiornare un nuovo certificato CA sul server del mediatore ONTAP. Riconfigurare l'accesso al supporto ONTAP utilizzando il comando "snapmirror mediator add".

Certificato client SMBC scaduto

CRITICO

Questo messaggio viene visualizzato quando il certificato del client del mediatore ONTAP è scaduto. Di conseguenza, non sarà possibile effettuare ulteriori comunicazioni con il mediatore ONTAP.

Rimuovere la configurazione del supporto ONTAP corrente utilizzando il comando "rimozione del mediatore snapmirror". Riconfigurare l'accesso al supporto ONTAP utilizzando il comando "snapmirror mediator add".

Certificato client SMBC in scadenza

ATTENZIONE

Questo messaggio viene visualizzato quando il certificato del client del mediatore ONTAP scadrà entro i prossimi 30 giorni.

Prima della scadenza del certificato, rimuovere la configurazione del mediatore ONTAP corrente utilizzando il comando "snapmirror mediator remove" (Rimuovi mediatore snapmirror). Riconfigurare l'accesso al supporto ONTAP utilizzando il comando "snapmirror mediator add".

Relazione SMBC fuori sincronia Nota: UM non dispone di questa

CRITICO

Questo messaggio viene visualizzato quando una relazione SnapMirror for Business Continuity (SMBC) cambia stato da "in-Sync" a "out-of-Sync". A causa di questo RPO=0 la protezione dei dati verrà interrotta.

Verificare la connessione di rete tra il volume di origine e quello di destinazione. Monitorare lo stato della relazione SMBC utilizzando il comando "snapmirror show" (Mostra snapmirror) sulla destinazione e il comando "snapmirror list-destinations" (elenco destinazioni snapmirror) sull'origine. La risincronizzazione automatica tenterà di riportare la relazione allo stato "in-Sync". Se la risincronizzazione non riesce, verificare che tutti i nodi del cluster siano in quorum e integri.

Certificato server SMBC scaduto

CRITICO

Questo messaggio viene visualizzato quando il certificato del server del mediatore ONTAP è scaduto. Di conseguenza, non sarà possibile effettuare ulteriori comunicazioni con il mediatore ONTAP.

Rimuovere la configurazione del supporto ONTAP corrente utilizzando il comando "rimozione del mediatore snapmirror". Aggiorna un nuovo certificato server sul server ONTAP. Riconfigurare l'accesso al supporto ONTAP utilizzando il comando "snapmirror mediator add".

Certificato server SMBC in scadenza

ATTENZIONE

Questo messaggio viene visualizzato quando il certificato del server del mediatore ONTAP scadrà entro i prossimi 30 giorni.

Prima della scadenza del certificato, rimuovere la configurazione del mediatore ONTAP corrente utilizzando il comando "snapmirror mediator remove" (Rimuovi mediatore snapmirror). Aggiorna un nuovo certificato server sul server ONTAP. Riconfigurare l'accesso al supporto ONTAP utilizzando il comando "snapmirror mediator add".

Monitor di sistema aggiuntivi per alimentazione, Heartbeat e varie

Nome monitor Severità Descrizione del monitor Azione correttiva

Rilevato alimentatore shelf di dischi

INFORMATIVO

Questo messaggio viene visualizzato quando un'unità di alimentazione viene aggiunta allo shelf di dischi.

NESSUNO

Shelf di dischi alimentatore rimosso

INFORMATIVO

Questo messaggio viene visualizzato quando un alimentatore viene rimosso dallo shelf di dischi.

NESSUNO

Switchover automatico non pianificato MetroCluster disattivato

CRITICO

Questo messaggio viene visualizzato quando la funzione di switchover automatico non pianificato è disattivata.

Eseguire il comando "MetroCluster modify -node-name <nodename> -automatic-switchover-onfailure true" per ciascun nodo del cluster per abilitare lo switchover automatico.

Bridge di storage MetroCluster non raggiungibile

CRITICO

Il bridge di storage non è raggiungibile tramite la rete di gestione

1) se il bridge è monitorato da SNMP, verificare che la LIF di gestione dei nodi sia attiva utilizzando il comando "network interface show" (mostra interfaccia di rete). Verificare che il bridge sia attivo utilizzando il comando "ping di rete". 2) se il bridge è monitorato in banda, controllare il cablaggio del fabric del bridge, quindi verificare che il bridge sia acceso.

Temperatura del ponte MetroCluster anomala - inferiore al valore critico

CRITICO

Il sensore sul bridge Fibre Channel segnala una temperatura inferiore alla soglia critica.

1) controllare lo stato operativo delle ventole sul bridge di storage. 2) verificare che il bridge funzioni alle condizioni di temperatura consigliate.

Temperatura del ponte MetroCluster anomala - superiore al valore critico

CRITICO

Il sensore del bridge Fibre Channel segnala una temperatura superiore alla soglia critica.

1) controllare lo stato operativo del sensore di temperatura del telaio sul bridge di storage utilizzando il comando "storage bridge show -cooling". 2) verificare che lo storage bridge funzioni alle condizioni di temperatura consigliate.

Aggregato MetroCluster lasciato indietro

ATTENZIONE

L'aggregato è stato lasciato indietro durante lo switchback.

1) controllare lo stato aggregato utilizzando il comando "aggr show". 2) se l'aggregato è online, restituirlo al proprietario originale utilizzando il comando "MetroCluster switchback".

Tutti i collegamenti tra i partner MetroCluster non sono disponibili

CRITICO

Gli adattatori di interconnessione RDMA e i LIF intercluster hanno interrotto le connessioni al cluster peered o il cluster peered è inattivo.

1) assicurarsi che le LIF dell'intercluster siano attive. Riparare le LIF dell'intercluster se non sono attive. 2) verificare che il cluster peered sia attivo e in esecuzione utilizzando il comando "cluster peer ping". Se il cluster peered non è attivo, consultare la Guida al disaster recovery di MetroCluster. 3) per Fabric MetroCluster, verificare che gli ISL del fabric back-end siano attivi e in esecuzione. Riparare gli ISL del fabric back-end se non sono attivi. 4) per le configurazioni MetroCluster non fabric, verificare che il cablaggio tra gli adattatori di interconnessione RDMA sia corretto. Riconfigurare il cablaggio se i collegamenti non sono attivi.

I partner MetroCluster non sono raggiungibili tramite la rete peering

CRITICO

La connettività al cluster peer è interrotta.

1) assicurarsi che la porta sia collegata alla rete o allo switch corretto. 2) assicurarsi che la LIF dell'intercluster sia connessa al cluster peered. 3) assicurarsi che il cluster peered sia attivo e in esecuzione utilizzando il comando "cluster peer ping". Se il cluster peered non è attivo, consultare la Guida al disaster recovery di MetroCluster.

Inter MetroCluster Disattiva tutti i collegamenti

CRITICO

Tutti i collegamenti Inter-Switch (ISL) sullo switch di storage non sono attivi.

1) riparare gli ISL del fabric back-end sullo switch storage. 2) assicurarsi che lo switch del partner sia attivo e che i relativi ISL siano operativi. 3) assicurarsi che le apparecchiature intermedie, come i dispositivi xWDM, siano operative.

Collegamento SAS da nodo MetroCluster a stack di storage inattivo

ATTENZIONE

L'adattatore SAS o il relativo cavo collegato potrebbero essere guasti.

1. Verificare che l'adattatore SAS sia in linea e in funzione. 2. Verificare che il collegamento fisico del cavo sia sicuro e funzionante e, se necessario, sostituire il cavo. 3. Se l'adattatore SAS è collegato agli shelf di dischi, accertarsi che gli IOM e i dischi siano inseriti correttamente.

Link di MetroClusterFC Initiator non attivi

CRITICO

L'adattatore iniziatore FC è guasto.

1. Verificare che il collegamento dell'iniziatore FC non sia stato manomesso. 2. Verificare lo stato operativo dell'adattatore FC Initiator utilizzando il comando "System node run -node local -command storage show adapter".

Collegamento interconnessione FC-VI inattivo

CRITICO

Il collegamento fisico sulla porta FC-VI è offline.

1. Assicurarsi che il collegamento FC-VI non sia stato manomesso. 2. Verificare che lo stato fisico dell'adattatore FC-VI sia "attivo" utilizzando il comando "Mostra adattatore interconnessione MetroCluster". 3. Se la configurazione include switch fabric, accertarsi che siano collegati e configurati correttamente.

Dischi di riserva MetroCluster lasciati dietro

ATTENZIONE

Il disco spare è stato lasciato indietro durante lo switchback.

Se il disco non presenta guasti, restituirlo al proprietario originale utilizzando il comando "MetroCluster switchback".

Porta bridge storage MetroCluster inattiva

CRITICO

La porta dello storage bridge non è in linea.

1) controllare lo stato operativo delle porte sul bridge di storage utilizzando il comando "storage bridge show -ports". 2) verificare la connettività logica e fisica alla porta.

Guasto alle ventole dello switch di storage MetroCluster

CRITICO

La ventola dello switch di storage si è guastata.

1) assicurarsi che le ventole dell'interruttore funzionino correttamente utilizzando il comando "storage switch show -cooling". 2) assicurarsi che le FRU delle ventole siano inserite correttamente e funzionino correttamente.

Switch storage MetroCluster non raggiungibile

CRITICO

Lo switch di storage non è raggiungibile tramite la rete di gestione.

1) assicurarsi che la LIF di gestione dei nodi sia attiva utilizzando il comando "network interface show". 2) assicurarsi che lo switch sia attivo utilizzando il comando "ping di rete". 3) assicurarsi che lo switch sia raggiungibile tramite SNMP controllando le relative impostazioni SNMP dopo aver effettuato l'accesso allo switch.

Guasto agli alimentatori dello switch MetroCluster

CRITICO

Un'unità di alimentazione dello switch di storage non è operativa.

1) controllare i dettagli dell'errore utilizzando il comando "storage switch show -error -switch-name <swtich name>". 2) identificare l'alimentatore difettoso utilizzando il comando "storage switch show -power -switch-name <switch name>". 3) assicurarsi che l'unità di alimentazione sia inserita correttamente nello chassis dello switch di storage e che sia completamente operativa.

Guasto dei sensori di temperatura dell'interruttore MetroCluster

CRITICO

Il sensore dello switch Fibre Channel si è guastato.

1) controllare lo stato di funzionamento dei sensori di temperatura sull'interruttore di memorizzazione utilizzando il comando "interruttore di memorizzazione mostra -raffreddamento". 2) verificare che l'interruttore funzioni alle condizioni di temperatura consigliate.

Temperatura interruttore MetroCluster anomala

CRITICO

Il sensore di temperatura dello switch Fibre Channel ha rilevato una temperatura anomala.

1) controllare lo stato di funzionamento dei sensori di temperatura sull'interruttore di memorizzazione utilizzando il comando "interruttore di memorizzazione mostra -raffreddamento". 2) verificare che l'interruttore funzioni alle condizioni di temperatura consigliate.

Heartbeat del Service Processor non rispettato

INFORMATIVO

Questo messaggio viene visualizzato quando ONTAP non riceve un segnale "heartbeat" previsto dal processore di servizio (SP). Insieme a questo messaggio, i file di log di SP verranno inviati per il debug. ONTAP ripristina l'SP per tentare di ripristinare la comunicazione. Durante il riavvio, l'SP non sarà disponibile per un massimo di due minuti.

Contattare il supporto tecnico di NetApp.

Heartbeat del Service Processor interrotto

ATTENZIONE

Questo messaggio viene visualizzato quando ONTAP non riceve più heartbeat dal processore di servizio (SP). A seconda della progettazione dell'hardware, il sistema può continuare a fornire dati o determinare lo spegnimento per evitare la perdita di dati o danni all'hardware. Il sistema continua a fornire dati, ma poiché il SP potrebbe non funzionare, il sistema non può inviare notifiche di appliance non funzionanti, errori di avvio o errori POST (Power-on Self-Test) di Open firmware (OFW). Se il sistema è configurato per farlo, genera e trasmette un messaggio AutoSupport (o "call home") al supporto tecnico NetApp e alle destinazioni configurate. La corretta erogazione di un messaggio AutoSupport migliora significativamente la determinazione e la risoluzione dei problemi.

Se il sistema si è spento, provare a spegnere e riaccendere il sistema: Estrarre il controller dal telaio, reinserirlo e riaccenderlo. Contattare il supporto tecnico NetApp se il problema persiste dopo il ciclo di alimentazione o per qualsiasi altra condizione che possa richiedere attenzione.