Sostituire i DIMM nei nodi di calcolo
È possibile sostituire un modulo DIMM (Dual Inline Memory Module) guasto nei nodi di calcolo NetApp HCI invece di sostituire l'intero nodo.
-
Prima di iniziare questa procedura, dovresti aver contattato il supporto NetApp e aver ricevuto una parte di ricambio. Durante l'installazione della sostituzione verrà fornito supporto. Se non è già stato fatto, contattare "Supporto".
-
Hai pianificato il downtime del sistema, perché devi spegnere o spegnere e riaccendere il nodo e avviare il nodo in NetApp Safe Mode per accedere all'interfaccia utente del terminale (TUI).
Questa procedura si applica ai seguenti modelli di nodi di calcolo:
-
Nodi H410C. Un nodo H410C viene inserito in uno chassis NetApp HCI 2U.
-
Nodo H610C. Nel telaio è integrato un nodo H610C.
-
Nodo H615C. Nel telaio è integrato un nodo H615C.
I nodi H410C e H615C includono DIMM di diversi vendor. Assicurarsi di non combinare DIMM di vendor diversi in un unico chassis. I termini "chassis" e "nodo" sono utilizzati in modo intercambiabile nel caso di H610C e H615C, perché il nodo e lo chassis non sono componenti separati.
Di seguito sono riportati i passaggi necessari per sostituire i DIMM nei nodi di calcolo:
Preparare la sostituzione del DIMM
Quando si verificano problemi con il DIMM, VMware ESXi visualizza avvisi, quali Memory Configuration Error
, Memory Uncorrectable ECC
, Memory Transition to Critical
e Memory Critical Overtemperature
. Anche se gli avvisi scompaiono dopo qualche istante, il problema hardware potrebbe persistere. Eseguire la diagnosi e risolvere il problema del DIMM guasto. È possibile ottenere informazioni sul DIMM guasto da vCenter Server. Se sono necessarie ulteriori informazioni rispetto a quelle disponibili da vCenter Server, è necessario eseguire il check dell'hardware nell'interfaccia telefonica utente (TUI).
-
Accedere al nodo accedendo a vCenter Server.
-
Fare clic con il pulsante destro del mouse sul nodo che segnala l'errore e selezionare l'opzione per impostare il nodo in modalità di manutenzione.
-
Migrare le macchine virtuali (VM) su un altro host disponibile.
Consultare la documentazione VMware per le fasi della migrazione. -
Spegnere il nodo di calcolo.
Se si dispone delle informazioni relative al modulo DIMM da sostituire e non è necessario accedere all'interfaccia telefonica utente, è possibile ignorare i passi seguenti in questa sezione. -
Collegare una tastiera, un video e un mouse (KVM) al retro del nodo che ha riportato l'errore.
-
Premere il pulsante di accensione sulla parte anteriore del nodo. L'avvio del nodo richiede circa sei minuti. Viene visualizzato un menu di avvio.
-
Identificare lo slot che ha registrato l'errore come segue:
-
Per H615C, procedere come indicato di seguito:
-
Accedere all'interfaccia utente di BMC.
-
Selezionare Log & Report > IPMI Event Log.
-
Nel registro eventi, individuare l'errore di memoria e identificare lo slot in cui viene registrato l'errore.
-
-
-
Per i nodi H410C e H615C, eseguire la procedura per identificare il codice prodotto del produttore del DIMM.
I nodi H410C e H615C includono DIMM di diversi produttori. Non utilizzare tipi di DIMM diversi nello stesso chassis. Identificare il produttore del modulo DIMM guasto e ordinare un modulo sostitutivo dello stesso tipo. -
Accedere a BMC per avviare la console sul nodo.
-
Premere F2 sulla tastiera per accedere al menu Customize System/View Logs (Personalizza sistema/Visualizza registri).
-
Inserire la password quando richiesto.
La password deve corrispondere a quella configurata nel motore di implementazione NetApp al momento della configurazione di NetApp HCI.
-
Dal menu System Customization (Personalizzazione sistema), premere la freccia verso il basso per passare a Troubleshooting Options (Opzioni di risoluzione dei problemi), quindi premere Invio.
-
Dal menu Troubleshooting Mode Options (Opzioni modalità di risoluzione dei problemi), utilizzare la freccia su o giù per attivare la shell ESXi e SSH, che sono disabilitati per impostazione predefinita.
-
Premere due volte il tasto <Esc> per uscire dalle opzioni di risoluzione dei problemi.
-
Eseguire il
smbiosDump
comando utilizzando una delle seguenti opzioni:Opzione Fasi Opzione A.
-
Connettersi all'host ESXi (nodo di calcolo) utilizzando l'indirizzo IP dell'host e le credenziali root definite.
-
Eseguire il
smbiosDump
comando. Vedere il seguente esempio di output:
`Memory Device:#30 Location: "P1-DIMMA1" Bank: "P0_Node0_Channel0_Dimm0" Manufacturer:"Samsung" Serial: "38EB8380" Asset Tag: "P1-DIMMA1_AssetTag (date:18/15)" Part Number: "M393A4K40CB2-CTD" Memory Array: #29 Form Factor: 0x09(DIMM) Type: 0x1a (DDR4) Type Detail: 0x0080 (Synchronous) Data Width: 64 bits (+8 ECC bits) Size: 32 GB`
Opzione B
-
Premere Alt + F1 per inserire la shell e accedere al nodo per eseguire il comando.
-
-
-
Contatta il supporto NetApp per ricevere assistenza sui passi successivi. Il supporto NetApp richiede le seguenti informazioni per elaborare la sostituzione di una parte:
-
Numero di serie del nodo
-
Nome del cluster
-
Registro eventi di sistema dall'interfaccia utente di BMC (registri e rapporti > Registro eventi IPMI> Scarica registri eventi)
-
Output dal
smbiosDump
comando
-
Sostituire il modulo DIMM dal telaio
Prima di rimuovere e sostituire fisicamente il modulo DIMM difettoso nello chassis, assicurarsi di aver eseguito tutte le "fasi preparatorie"operazioni di .
I DIMM devono essere sostituiti negli stessi slot da cui sono stati rimossi. |
-
Spegnere lo chassis o il nodo.
Per uno chassis H610C o H615C, spegnere lo chassis. Per i nodi H410C in uno chassis 2U a quattro nodi, spegnere solo il nodo con il DIMM guasto. -
Rimuovere i cavi di alimentazione e di rete, estrarre con cautela il nodo o lo chassis dal rack e posizionarlo su una superficie piana e antistatica.
Prendere in considerazione l'utilizzo di fascette per cavi. -
Applicare una protezione antistatica prima di aprire il coperchio dello chassis per sostituire il DIMM.
-
Eseguire i passaggi relativi al modello di nodo:
Modello di nodo Fasi H410C
-
Individuare il DIMM guasto facendo corrispondere il numero/ID dello slot annotato in precedenza con la numerazione sulla scheda madre. Di seguito sono riportate immagini di esempio che mostrano i numeri degli slot DIMM sulla scheda madre:
-
Spingere i due fermi verso l'esterno ed estrarre con cautela il modulo DIMM. Ecco un'immagine di esempio che mostra i fermi di fissaggio:
-
Installare correttamente il modulo DIMM sostitutivo. Quando si inserisce correttamente il DIMM nello slot, i due fermi si bloccano in posizione.
Assicurarsi di toccare solo le estremità posteriori del DIMM. Se si premono altre parti del DIMM, l'hardware potrebbe danneggiarsi. -
Installare il nodo nello chassis NetApp HCI, assicurandosi che il nodo scatti quando lo si inserisce in posizione.
H610C
-
Sollevare il coperchio come mostrato nell'immagine seguente:
-
Allentare le quattro viti di bloccaggio blu sul retro del nodo. Di seguito è riportato un esempio di immagine che mostra la posizione delle due viti di bloccaggio; le altre due si trovano sull'altro lato del nodo:
-
Rimuovere entrambi gli spazi vuoti della scheda PCI.
-
Rimuovere la GPU e il coperchio del flusso d'aria.
-
Individuare il DIMM guasto facendo corrispondere il numero/ID dello slot annotato in precedenza con la numerazione sulla scheda madre. Di seguito è riportato un esempio di immagine che mostra la posizione dei numeri degli slot DIMM sulla scheda madre:
-
Spingere i due fermi verso l'esterno ed estrarre con cautela il modulo DIMM.
-
Installare correttamente il modulo DIMM sostitutivo. Quando si inserisce correttamente il DIMM nello slot, i due fermi si bloccano in posizione.
Assicurarsi di toccare solo le estremità posteriori del DIMM. Se si premono altre parti del DIMM, l'hardware potrebbe danneggiarsi. -
Sostituire tutti i componenti rimossi: GPU, coperchio del flusso d'aria e protezioni PCI.
-
Serrare le viti di bloccaggio.
-
Rimettere il coperchio sul nodo.
-
Installare lo chassis H610C nel rack, assicurandosi che scatti quando lo si inserisce in posizione.
H615C
-
Sollevare il coperchio come mostrato nell'immagine seguente:
-
Rimuovere la GPU (se nel nodo H615C è installata la GPU) e il coperchio del flusso d'aria.
-
Individuare il DIMM guasto facendo corrispondere il numero/ID dello slot annotato in precedenza con la numerazione sulla scheda madre. Di seguito è riportato un esempio di immagine che mostra la posizione dei numeri degli slot DIMM sulla scheda madre:
-
Spingere i due fermi verso l'esterno ed estrarre con cautela il modulo DIMM.
-
Installare correttamente il modulo DIMM sostitutivo. Quando si inserisce correttamente il DIMM nello slot, i due fermi si bloccano in posizione.
Assicurarsi di toccare solo le estremità posteriori del DIMM. Se si premono altre parti del DIMM, l'hardware potrebbe danneggiarsi. -
Riposizionare il coperchio del flusso d'aria.
-
Rimettere il coperchio sul nodo.
-
Installare lo chassis H610C nel rack, assicurandosi che scatti quando lo si inserisce in posizione.
-
-
Inserire i cavi di alimentazione e di rete. Assicurarsi che tutti i LED delle porte si accendano.
-
Premere il pulsante di accensione nella parte anteriore del nodo se non si accende automaticamente quando viene installato.
-
Una volta visualizzato il nodo in vSphere, fare clic con il pulsante destro del mouse sul nome e uscire dalla modalità di manutenzione.
-
Verificare le informazioni sull'hardware come indicato di seguito:
-
Accedere all'interfaccia utente del BMC (Baseboard Management Controller).
-
Selezionare sistema > informazioni hardware e controllare i DIMM elencati.
-
Una volta ripristinato il normale funzionamento del nodo, in vCenter, selezionare la scheda Summary (Riepilogo) per verificare che la capacità di memoria sia quella prevista.
Se il DIMM non è installato correttamente, il nodo funziona normalmente ma con una capacità di memoria inferiore al previsto. |
Dopo la procedura di sostituzione del modulo DIMM, è possibile eliminare gli avvisi e gli errori nella scheda hardware Status (Stato hardware) di vCenter. È possibile eseguire questa operazione se si desidera cancellare la cronologia degli errori relativi all'hardware sostituito. "Scopri di più". |