Verifique la integridad del objeto
El sistema StorageGRID verifica la integridad de los datos de objetos en los nodos de almacenamiento y comprueba si hay objetos dañados o ausentes.
Existen dos procesos de verificación: Verificación de fondo y verificación de la existencia de objetos (antes denominada verificación en primer plano). Trabajan conjuntamente para garantizar la integridad de los datos. La verificación en segundo plano se ejecuta automáticamente y comprueba continuamente la corrección de los datos del objeto. Un usuario puede activar la comprobación de la existencia de objetos para verificar más rápidamente la existencia (aunque no la corrección) de objetos.
¿Qué es la verificación en segundo plano?
El proceso de verificación en segundo plano comprueba de forma automática y continua si hay copias dañadas de los datos de los objetos e intenta reparar automáticamente los problemas que encuentre.
La verificación en segundo plano comprueba la integridad de los objetos replicados y los objetos codificados mediante borrado de la siguiente manera:
-
Objetos replicados: Si el proceso de verificación en segundo plano encuentra un objeto replicado que está dañado, la copia dañada se quita de su ubicación y se pone en cuarentena en otro lugar del nodo de almacenamiento. A continuación, se genera y se coloca una nueva copia no dañada para cumplir las políticas de ILM activas. Es posible que la nueva copia no se coloque en el nodo de almacenamiento que se utilizó para la copia original.
Los datos de objetos dañados se ponen en cuarentena en lugar de eliminarse del sistema, de modo que aún se puede acceder a ellos. Para obtener más información sobre el acceso a los datos de objetos en cuarentena, póngase en contacto con el soporte técnico. |
-
Objetos codificados con borrado: Si el proceso de verificación en segundo plano detecta que un fragmento de un objeto codificado con borrado está dañado, StorageGRID intenta automáticamente reconstruir el fragmento que falta en el mismo nodo de almacenamiento, utilizando los fragmentos restantes de datos y paridad. Si el fragmento dañado no se puede reconstruir, se intenta recuperar otra copia del objeto. Si la recuperación se realiza correctamente, se realiza una evaluación de ILM para crear una copia de reemplazo del objeto codificado por borrado.
El proceso de verificación en segundo plano comprueba los objetos solo en los nodos de almacenamiento. No comprueba los objetos en un pool de almacenamiento en la nube. Los objetos deben tener una antigüedad superior a cuatro días para poder optar a la verificación en segundo plano.
La verificación en segundo plano se ejecuta a una velocidad continua diseñada para no interferir con las actividades normales del sistema. La verificación en segundo plano no se puede detener. Sin embargo, puede aumentar la tasa de verificación en segundo plano para verificar más rápidamente el contenido de un nodo de almacenamiento si sospecha que existe un problema.
Alertas relacionadas con la verificación en segundo plano
Si el sistema detecta un objeto corrupto que no puede corregir automáticamente (porque la corrupción impide que el objeto sea identificado), se activa la alerta Objeto corrupto no identificado detectado.
Si la verificación de fondo no puede reemplazar un objeto dañado porque no puede localizar otra copia, se activa la alerta Objetos perdidos.
Cambie la tasa de verificación en segundo plano
Puede cambiar la velocidad a la que la verificación en segundo plano comprueba los datos de objetos replicados en un nodo de almacenamiento si tiene dudas acerca de la integridad de los datos.
-
Debe iniciar sesión en Grid Manager mediante una "navegador web compatible".
-
Tienes "permisos de acceso específicos".
Es posible cambiar la tasa de verificación para la verificación en segundo plano en un nodo de almacenamiento:
-
Adaptive: Ajuste predeterminado. La tarea está diseñada para verificar un máximo de 4 MB/s o 10 objetos/s (lo que se supere primero).
-
Alto: La verificación del almacenamiento procede rápidamente, a un ritmo que puede ralentizar las actividades normales del sistema.
Utilice la alta tasa de verificación sólo cuando sospeche que un error de hardware o software puede tener datos de objeto dañados. Una vez finalizada la verificación en segundo plano de prioridad alta, la velocidad de verificación se restablece automáticamente a adaptable.
-
Seleccione SUPPORT > Tools > Topología de cuadrícula.
-
Seleccione Storage Node > LDR > Verification.
-
Seleccione Configuración > Principal.
-
Vaya a LDR > verificación > Configuración > Principal.
-
En verificación de fondo, seleccione velocidad de verificación > Alta o velocidad de verificación > adaptable.
-
Haga clic en aplicar cambios.
-
Supervise los resultados de la verificación en segundo plano de los objetos replicados.
-
Vaya a NODES > Storage Node > Objects.
-
En la sección verificación, supervise los valores de objetos corruptos y objetos corruptos no identificados.
Si la verificación en segundo plano encuentra datos de objeto replicados dañados, se incrementa la métrica objetos corruptos y StorageGRID intenta extraer el identificador de objeto de los datos, de la siguiente manera:
-
Si se puede extraer el identificador del objeto, StorageGRID crea automáticamente una nueva copia de los datos del objeto. La nueva copia se puede realizar en cualquier parte del sistema de StorageGRID que cumpla las políticas de gestión de la vida útil de la información activas.
-
Si el identificador de objeto no se puede extraer (porque se ha dañado), la métrica Objetos corruptos no identificados aumenta y se activa la alerta Objeto corrupto no identificado detectado.
-
-
Si se encuentran datos de objeto replicado dañados, póngase en contacto con el soporte técnico para determinar la causa raíz de los daños.
-
-
Supervise los resultados de la verificación en segundo plano para objetos codificados mediante borrado.
Si la verificación en segundo plano encuentra fragmentos dañados de datos de objeto codificados con borrado, se incrementa el atributo fragmentos dañados detectados. StorageGRID se recupera al reconstruir el fragmento dañado in situ en el mismo nodo de almacenamiento.
-
Seleccione SUPPORT > Tools > Topología de cuadrícula.
-
Seleccione Storage Node > LDR > código de borrado.
-
En la tabla resultados de verificación, supervise el atributo fragmentos dañados detectados (ECCD).
-
-
Una vez que el sistema StorageGRID restaura automáticamente los objetos dañados, restablece el número de objetos dañados.
-
Seleccione SUPPORT > Tools > Topología de cuadrícula.
-
Seleccione Storage Node > LDR > Verification > Configuration.
-
Seleccione Restablecer recuento de objetos dañados.
-
Haga clic en aplicar cambios.
-
-
Si está seguro de que los objetos en cuarentena no son necesarios, puede eliminarlos.
Si se activó la alerta Objetos perdidos, es posible que el soporte técnico desee acceder a objetos en cuarentena para ayudar a depurar el problema subyacente o intentar recuperar los datos. -
Seleccione SUPPORT > Tools > Topología de cuadrícula.
-
Seleccione Storage Node > LDR > Verification > Configuration.
-
Seleccione Eliminar objetos en cuarentena.
-
Seleccione aplicar cambios.
-
¿Qué es la comprobación de la existencia de objetos?
La comprobación de existencia de objetos verifica si todas las copias replicadas esperadas de objetos y fragmentos codificados con borrado existen en un nodo de almacenamiento. La comprobación de la existencia de objetos no comprueba los datos del objeto en sí (la verificación en segundo plano lo hace); en su lugar, proporciona una forma de verificar la integridad de los dispositivos de almacenamiento, especialmente si un problema de hardware reciente podría haber afectado a la integridad de los datos.
A diferencia de la verificación en segundo plano, que se produce automáticamente, debe iniciar manualmente un trabajo de comprobación de la existencia de objetos.
La comprobación de la existencia de objetos lee los metadatos de cada objeto almacenado en StorageGRID y verifica la existencia tanto de copias de objetos replicadas como de fragmentos de objetos con código de borrado. Los datos que faltan se tratan de la siguiente manera:
-
Copias replicadas: Si falta una copia de los datos del objeto replicado, StorageGRID intenta automáticamente reemplazar la copia de una copia almacenada en otra parte del sistema. El nodo de almacenamiento ejecuta una copia existente a través de una evaluación de ILM, la cual determina que ya no se cumple la política actual de ILM para este objeto porque falta otra copia. Se genera y se coloca una nueva copia para satisfacer las políticas de ILM activas del sistema. Es posible que esta nueva copia no se coloque en la misma ubicación en la que se almacenó la copia que falta.
-
Fragmentos codificados con borrado: Si falta un fragmento de un objeto codificado con borrado, StorageGRID intenta automáticamente reconstruir el fragmento que falta en el mismo nodo de almacenamiento utilizando los fragmentos restantes. Si el fragmento que falta no se puede reconstruir (porque se han perdido demasiados fragmentos), ILM intenta encontrar otra copia del objeto que puede usar para generar un nuevo fragmento de código de borrado.
Ejecute la comprobación de existencia de objetos
Cree y ejecute un trabajo de comprobación de existencia de objetos a la vez. Cuando crea un trabajo, debe seleccionar los nodos de almacenamiento y los volúmenes que desea verificar. También selecciona la consistencia para el trabajo.
-
Ha iniciado sesión en Grid Manager mediante una "navegador web compatible".
-
Usted tiene el "Permiso de mantenimiento o acceso raíz".
-
Se aseguró de que los nodos de almacenamiento que desee comprobar estén en línea. Seleccione NODES para ver la tabla de nodos. Asegúrese de que no aparezca ningún icono de alerta junto al nombre del nodo para los nodos que desea comprobar.
-
Se ha asegurado de que los siguientes procedimientos no se ejecutan en los nodos que desea comprobar:
-
La ampliación de grid para añadir un nodo de almacenamiento
-
Retirada del nodo de almacenamiento
-
Recuperación de un volumen de almacenamiento con fallos
-
Recuperación de un nodo de almacenamiento con una unidad del sistema con errores
-
Reequilibrio de EC
-
Clon del nodo del dispositivo
-
La comprobación de la existencia de objetos no proporciona información útil mientras estos procedimientos están en curso.
Una tarea de comprobación de existencia de objetos puede tardar días o semanas en completarse, en función de la cantidad de objetos del grid, los nodos de almacenamiento y los volúmenes seleccionados y la coherencia seleccionada. Puede ejecutar solo un trabajo a la vez, pero puede seleccionar varios nodos y volúmenes de almacenamiento al mismo tiempo.
-
Seleccione MANTENIMIENTO > tareas > verificación de existencia de objeto.
-
Seleccione Crear trabajo. Aparece el asistente Crear un trabajo de comprobación de existencia de objeto.
-
Seleccione los nodos que contienen los volúmenes que desea verificar. Para seleccionar todos los nodos en línea, seleccione la casilla de verificación Nombre de nodo en el encabezado de columna.
Puede buscar por nombre de nodo o sitio.
No puede seleccionar nodos que no estén conectados a la cuadrícula.
-
Seleccione continuar.
-
Seleccione uno o varios volúmenes para cada nodo de la lista. Es posible buscar volúmenes con el número de volumen de almacenamiento o el nombre del nodo.
Para seleccionar todos los volúmenes para cada nodo seleccionado, seleccione la casilla de verificación Volumen de almacenamiento en el encabezado de columna.
-
Seleccione continuar.
-
Seleccione la consistencia del trabajo.
La consistencia determina cuántas copias de metadatos de objetos se utilizan para la comprobación de existencia del objeto.
-
* Strong-site*: Dos copias de metadatos en un solo sitio.
-
Strong-global: Dos copias de metadatos en cada sitio.
-
Todo (predeterminado): Las tres copias de metadatos en cada sitio.
Para obtener más información sobre la consistencia, consulte las descripciones en el asistente.
-
-
Seleccione continuar.
-
Revise y verifique sus selecciones. Puede seleccionar anterior para ir a un paso anterior del asistente para actualizar las selecciones.
Se genera un trabajo de comprobación de existencia de objeto y se ejecuta hasta que se produce una de las siguientes acciones:
-
El trabajo finaliza.
-
El trabajo se pone en pausa o se cancela. Puede reanudar un trabajo que haya pausado, pero no puede reanudar un trabajo que haya cancelado.
-
El trabajo se cala. Se activa la alerta comprobación de existencia de objeto ha calado. Siga las acciones correctivas especificadas para la alerta.
-
El trabajo da error. Se activa la alerta * error de comprobación de existencia de objeto*. Siga las acciones correctivas especificadas para la alerta.
-
Aparece un mensaje que indica que el servicio no está disponible o que se ha producido un error interno del servidor. Después de un minuto, actualice la página para continuar supervisando el trabajo.
Según sea necesario, puede salir de la página de comprobación existencia de objetos y volver para continuar supervisando el trabajo.
-
-
A medida que se ejecuta el trabajo, consulte la ficha trabajo activo y anote el valor de las copias de objeto que faltan detectadas.
Este valor representa el número total de copias que faltan de los objetos replicados y los objetos codificados de borrado con uno o más fragmentos que faltan.
Si el número de copias de objeto que faltan detectadas es mayor que 100, puede que haya un problema con el almacenamiento del nodo de almacenamiento.
-
Una vez completado el trabajo, realice las acciones necesarias adicionales:
-
Si las copias de objeto que faltan detectadas son cero, no se encontraron problemas. No se requiere ninguna acción.
-
Si las copias de objetos que faltan detectadas son superiores a cero y la alerta objetos perdidos no se ha activado, el sistema reparó todas las copias que faltan. Compruebe que se han corregido los problemas de hardware para evitar daños futuros en las copias de objetos.
-
Si las copias de objeto que faltan detectadas son superiores a cero y se ha activado la alerta objetos perdidos, la integridad de los datos podría verse afectada. Póngase en contacto con el soporte técnico.
-
Puede investigar las copias de objetos perdidos mediante grep para extraer los mensajes de auditoría LLST:
grep LLST audit_file_name
.Este procedimiento es similar al de "investigar objetos perdidos", aunque para las copias de objetos que busca
LLST
en lugar deOLST
.
-
-
Si seleccionó la coherencia de sitio seguro o global fuerte para la tarea, espere aproximadamente tres semanas para mantener la coherencia de metadatos y vuelva a ejecutar el trabajo en los mismos volúmenes.
Cuando StorageGRID tiene tiempo para lograr la consistencia de metadatos en los nodos y volúmenes incluidos en el trabajo, al volver a ejecutar el trabajo se podría eliminar por error las copias de objetos que faltan o hacer que se comprobaran copias de objetos adicionales si se perdía.
-
Seleccione MANTENIMIENTO > verificación de existencia de objetos > Historial de trabajos.
-
Determine qué trabajos están listos para volver a ejecutar:
-
Observe la columna tiempo final para determinar qué trabajos se ejecutaron hace más de tres semanas.
-
En el caso de estos trabajos, analice la columna de control de coherencia para obtener un sitio seguro o un entorno global sólido.
-
-
Seleccione la casilla de verificación para cada trabajo que desee volver a ejecutar y, a continuación, seleccione Volver a ejecutar.
-
En el asistente Rerun Jobs, revise los nodos y los volúmenes seleccionados y la coherencia.
-
Cuando esté listo para volver a ejecutar los trabajos, seleccione Rerun.
-
Aparece la ficha Trabajo activo. Todos los trabajos que ha seleccionado se vuelven a ejecutar como un trabajo a una consistencia de sitio fuerte. En el campo trabajos relacionados de la sección Detalles se muestran los identificadores de trabajo de los trabajos originales.
Si aún tiene dudas sobre la integridad de los datos, vaya a SUPPORT > Tools > Grid topolog > site > Storage Node > LDR > Verification > Configuration > Main y aumente la velocidad de verificación de fondo. La verificación en segundo plano comprueba la corrección de todos los datos de objeto almacenados y repara cualquier problema que encuentre. Encontrar y reparar posibles problemas lo más rápidamente posible reduce el riesgo de pérdida de datos.