Retirada de nodos de red desconectados
Es posible que deba retirar un nodo que no esté conectado actualmente a la cuadrícula (uno cuyo estado sea desconocido o administrativamente inactivo).
-
Usted entiende las consideraciones para el desmantelamiento "Nodos de administración y puerta de enlace" y las consideraciones para el desmantelamiento "Nodos de almacenamiento".
-
Ha obtenido todos los requisitos previos.
-
Se ha asegurado de que no hay ningún trabajo de reparación de datos activo. Consulte "Compruebe los trabajos de reparación de datos".
-
Ha confirmado que la recuperación del nodo de almacenamiento no está en curso en ningún lugar de la cuadrícula. Si es así, debe esperar a que se complete cualquier recompilación de Cassandra como parte de la recuperación. A continuación, podrá continuar con el desmantelamiento.
-
Se ha asegurado de que no se ejecutarán otros procedimientos de mantenimiento mientras el procedimiento de retirada del nodo se esté ejecutando, a menos que el procedimiento de retirada del nodo se detenga.
-
La columna DECOMmission possible para el nodo desconectado o los nodos que desea retirar incluye una Marca de verificación verde.
-
Tiene la clave de acceso de aprovisionamiento.
Puede identificar los nodos desconectados buscando el icono azul Desconocido
o el icono gris hacia abajo administrativamente
en la columna Estado.
Antes de retirar el servicio de un nodo desconectado, tenga en cuenta lo siguiente:
-
Este procedimiento está pensado principalmente para quitar un solo nodo desconectado. Si la cuadrícula contiene varios nodos desconectados, el software requiere que los retire todos al mismo tiempo, lo que aumenta la posibilidad de obtener resultados inesperados.
Se pueden producir pérdidas de datos si decomisiona más de un nodo de almacenamiento desconectado a la vez. Consulte "Consideraciones sobre los nodos de almacenamiento desconectados". Use precaución al decomisionar nodos de almacenamiento en un grid que contenga nodos solo de metadatos basados en software. Si retira todos los nodos configurados para almacenar both objetos y metadatos, la capacidad de almacenar objetos se elimina de la cuadrícula. Consulte "Tipos de nodos de almacenamiento" para obtener más información sobre nodos de almacenamiento solo de metadatos. -
Si no se puede quitar un nodo desconectado (por ejemplo, un nodo de almacenamiento necesario para el quórum ADC), no se puede quitar ningún otro nodo desconectado.
-
A menos que esté retirando un nodo de archivado (que debe estar desconectado), intente volver a conectar los nodos de grid desconectados o recuperarlos.
Consulte "Procedimientos de recuperación de nodos de grid" para obtener instrucciones.
-
Si no puede recuperar un nodo de grid desconectado y desea decomisionar mientras está desconectado, seleccione la casilla de verificación de ese nodo.
Si la cuadrícula contiene varios nodos desconectados, el software requiere que los retire todos al mismo tiempo, lo que aumenta la posibilidad de obtener resultados inesperados. Tenga cuidado al elegir retirar más de un nodo de grid desconectado a la vez, especialmente si selecciona varios nodos de almacenamiento desconectados. Si tiene más de un nodo de almacenamiento desconectado que no puede recuperar, póngase en contacto con el soporte técnico para determinar el mejor curso de acción. -
Introduzca la clave de acceso de aprovisionamiento.
El botón Iniciar misión está activado.
-
Haga clic en Iniciar misión.
Aparece una advertencia que indica que ha seleccionado un nodo desconectado y que los datos del objeto se perderán si el nodo tiene la única copia de un objeto.
-
Revise la lista de nodos y haga clic en Aceptar.
Se inicia el procedimiento de desmantelamiento y se muestra el progreso para cada nodo. Durante el procedimiento, se genera un nuevo paquete de recuperación que contiene el cambio de configuración de la red.
-
Tan pronto como el nuevo paquete de recuperación esté disponible, haga clic en el enlace o seleccione Mantenimiento > Sistema > Paquete de recuperación para acceder a la página del paquete de recuperación. Luego, descargue el
.ziparchivo.Vea las instrucciones para"descargando el paquete de recuperación" .
Descargue el paquete de recuperación lo antes posible para asegurarse de poder recuperar su red si algo sale mal durante el procedimiento de desmantelamiento. El archivo del paquete de recuperación debe estar protegido porque contiene claves de cifrado y contraseñas que se pueden utilizar para obtener datos del sistema StorageGRID . -
Supervise periódicamente la página de retirada para garantizar que todos los nodos seleccionados se han retirado correctamente.
La retirada de los nodos de almacenamiento puede llevar días o semanas. Una vez completadas todas las tareas, la lista de selección de nodos se volverá a mostrar con un mensaje de éxito. Si se da de baja un nodo de almacenamiento desconectado, se muestra un mensaje de información que indica que se han iniciado los trabajos de reparación.
-
Una vez que los nodos se han apagado automáticamente como parte del procedimiento de retirada, quite las máquinas virtuales restantes u otros recursos asociados al nodo retirada del servicio.
No realice este paso hasta que los nodos se hayan apagado automáticamente. -
Si va a retirar un nodo de almacenamiento, supervise el estado de los trabajos de reparación de datos replicados y datos codificados por borrado (EC) que se inician automáticamente durante el proceso de retirada del servicio.
-
Para obtener un porcentaje de finalización estimado para la reparación replicada, agregue
show-replicated-repair-statusla opción al comando repair-data.repair-data show-replicated-repair-status -
Para determinar si las reparaciones están completas:
-
Seleccione Nodos > Nodo de almacenamiento en reparación > ILM.
-
Revise los atributos en la sección Evaluación. Una vez completadas las reparaciones, el atributo esperando - todo indica 0 objetos.
-
-
Para supervisar la reparación con más detalle:
-
Seleccionar Nodos.
-
Seleccione grid name > ILM.
-
Coloque el cursor sobre el gráfico de la cola ILM para ver el valor del atributo Velocidad de escaneo (objetos/seg), que es la velocidad a la que se escanean los objetos en la cuadrícula y se ponen en cola para ILM.
-
En la sección Cola ILM, observe los siguientes atributos:
-
Período de escaneo - Estimado: El tiempo estimado para completar una exploración completa de ILM de todos los objetos.
Un escaneo completo no garantiza que ILM se haya aplicado a todos los objetos.
-
Reparaciones intentadas: la cantidad total de operaciones de reparación de objetos intentadas para datos replicados que se consideran de alto riesgo. Los objetos de alto riesgo son todos aquellos que conservan una copia, ya sea por especificación de la política de ILM o como resultado de copias perdidas. Este recuento aumenta cada vez que un nodo de almacenamiento intenta reparar un objeto de alto riesgo. Las reparaciones de ILM de alto riesgo se priorizan si la red se sobrecarga.
La misma reparación del objeto podría incrementarse nuevamente si la replicación falla después de la reparación. + Estos atributos pueden ser útiles cuando supervisa el progreso de la recuperación del volumen del nodo de almacenamiento. Si el número de reparaciones intentadas ha dejado de aumentar y se ha completado un análisis completo, es probable que la reparación se haya completado.
-
-
Alternativamente, envíe una consulta de Prometheus para
storagegrid_ilm_scan_period_estimated_minutesystoragegrid_ilm_repairs_attempted.
-
Para supervisar la reparación de datos codificados mediante borrado y vuelva a intentar cualquier solicitud que pudiera haber fallado:
-
Determine el estado de las reparaciones de datos codificadas por borrado:
-
Seleccione Soporte > Herramientas > Métricas para ver el tiempo estimado de finalización y el porcentaje de finalización del trabajo actual. Luego, seleccione Descripción general de EC en la sección Grafana. Consulte los paneles Tiempo estimado de finalización del trabajo de Grid EC y Porcentaje de trabajo de Grid EC completado.
-
Use este comando para ver el estado de una operación específica
repair-data:repair-data show-ec-repair-status --repair-id repair ID -
Utilice este comando para enumerar todas las reparaciones:
repair-data show-ec-repair-status
La salida muestra información, incluida
repair ID, para todas las reparaciones que se estaban ejecutando anteriormente y actualmente. -
-
Si el resultado muestra que la operación de reparación falló, use
--repair-idla opción para volver a intentar la reparación.Este comando vuelve a intentar una reparación de nodo con fallos mediante el ID de reparación 6949309319275667690:
repair-data start-ec-node-repair --repair-id 6949309319275667690Este comando reintenta realizar una reparación de volumen con fallos mediante el ID de reparación 6949309319275667690:
repair-data start-ec-volume-repair --repair-id 6949309319275667690
Tan pronto como se hayan retirado los nodos desconectados y se hayan completado todos los trabajos de reparación de datos, puede retirar todos los nodos de red conectados según sea necesario.
A continuación, complete estos pasos una vez completado el procedimiento de retirada:
-
Asegúrese de que las unidades del nodo de cuadrícula que se decomisionan se limpian. Utilice una herramienta o servicio de limpieza de datos disponible en el mercado para eliminar los datos de las unidades de forma permanente y segura.
-
Si decomisionó un nodo del dispositivo y los datos del dispositivo estaban protegidos mediante el cifrado de nodos, utilice el instalador del dispositivo StorageGRID para borrar la configuración del servidor de gestión de claves (Clear KMS). Debe borrar la configuración de KMS si desea agregar el dispositivo a otra cuadrícula. Para obtener instrucciones, consulte "Supervise el cifrado del nodo en modo de mantenimiento".