Skip to main content
Hay disponible una nueva versión de este producto.
Se proporciona el idioma español mediante traducción automática para su comodidad. En caso de alguna inconsistencia, el inglés precede al español.

Solucionar problemas en un sistema StorageGRID: Descripción general

Colaboradores

Si tiene algún problema al usar un sistema StorageGRID, consulte las sugerencias y directrices de esta sección para obtener ayuda a la hora de determinar y resolver el problema.

Descripción general de la determinación de problemas

Si se encuentra con un problema cuando "Administración de un sistema StorageGRID", puede utilizar el proceso descrito en esta figura para identificar y analizar el problema. A menudo, puede resolver problemas por su cuenta; sin embargo, es posible que deba derivar algunos problemas al soporte técnico.

Diagrama de flujo que muestra los pasos principales del procedimiento de determinación de problemas

Defina el problema

El primer paso para resolver un problema es definir el problema claramente.

En esta tabla, se proporcionan ejemplos de los tipos de información que pueden recopilar para definir un problema:

Pregunta Ejemplo de respuesta

¿Qué está haciendo o no el sistema StorageGRID? ¿Cuáles son sus síntomas?

Las aplicaciones cliente informan de que los objetos no se pueden procesar en StorageGRID.

¿Cuándo comenzó el problema?

La ingesta de objetos fue denegada por primera vez a las 14:50 del 8 de enero de 2020.

¿Cómo notó el problema por primera vez?

Notificado por la aplicación cliente. También ha recibido notificaciones por correo electrónico de alerta.

¿El problema ocurre de manera consistente, o sólo a veces?

El problema está en curso.

Si el problema ocurre con regularidad, ¿qué pasos hacen que ocurra

El problema se produce cada vez que un cliente intenta procesar un objeto.

Si el problema ocurre intermitentemente, ¿cuándo ocurre? Registre las horas de cada incidente que conozca.

El problema no es intermitente.

¿Ha visto este problema con anterioridad? ¿Con qué frecuencia ha tenido este problema en el pasado?

Esta es la primera vez que veo este asunto.

Evalúe el riesgo y el impacto sobre el sistema

Una vez que haya definido el problema, evalúe su riesgo y su impacto en el sistema StorageGRID. Por ejemplo, la presencia de alertas cruciales no necesariamente significa que el sistema no esté proporcionando servicios básicos.

En esta tabla se resume el impacto que tiene el problema de ejemplo en las operaciones del sistema:

Pregunta Ejemplo de respuesta

¿El sistema StorageGRID puede procesar contenido?

No

¿Las aplicaciones cliente pueden recuperar contenido?

Algunos objetos se pueden recuperar y otros no.

¿Los datos están en riesgo?

No

¿Se ve gravemente afectada la capacidad para llevar a cabo operaciones empresariales?

Sí, porque las aplicaciones cliente no pueden almacenar objetos en el sistema StorageGRID y los datos no se pueden recuperar de manera coherente.

Recopilación de datos

Una vez definido el problema y haya evaluado su riesgo e impacto, recopile los datos para su análisis. El tipo de datos más útiles para recopilar depende de la naturaleza del problema.

Tipo de datos que se van a recoger Por qué recoger este archivo dat Instrucciones

Crear una línea de tiempo de los cambios recientes

Los cambios realizados en el sistema StorageGRID, su configuración o su entorno pueden provocar nuevos comportamientos.

Revise las alertas y alarmas

Las alertas y alarmas pueden ayudarle a determinar rápidamente la causa raíz de un problema, proporcionando pistas importantes sobre los problemas subyacentes que podrían estar causando.

Revise la lista de alertas y alarmas actuales para ver si StorageGRID ha identificado la causa raíz de un problema.

Revise las alertas y alarmas activadas en el pasado para obtener información adicional.

Supervisar eventos

Entre los eventos se incluye cualquier evento de error del sistema o fallo de un nodo, incluidos errores como errores de red. Supervisar eventos para obtener más información acerca de problemas o para ayudar en la solución de problemas.

Identificar tendencias mediante gráficos e informes de texto

Las tendencias pueden proporcionar pistas valiosas acerca de cuándo aparecieron los problemas por primera vez, y pueden ayudarle a entender la rapidez con la que las cosas están cambiando.

Establecer líneas base

Recopilar información acerca de los niveles normales de varios valores operativos. Estos valores de referencia y las desviaciones de estas líneas de base pueden proporcionar pistas valiosas.

Realice pruebas de procesamiento y recuperación

Para solucionar problemas de rendimiento con la ingesta y la recuperación, utilice una estación de trabajo para almacenar y recuperar objetos. Compare los resultados con los que se ven al usar la aplicación cliente.

Revisar los mensajes de auditoría

Revise los mensajes de auditoría para seguir las operaciones de StorageGRID con detalle. Los detalles de los mensajes de auditoría pueden ser útiles para solucionar muchos tipos de problemas, incluidos problemas de rendimiento.

Comprobar la ubicación de objetos y la integridad del almacenamiento

Si tiene problemas de almacenamiento, compruebe que los objetos se encuentren en la ubicación que espera. Compruebe la integridad de los datos de objetos en un nodo de almacenamiento.

Recopile datos para el soporte técnico

Es posible que el soporte técnico le solicite recopilar datos o revisar información específica para ayudar a resolver problemas.

cree una línea de tiempo de los cambios recientes

Cuando se produce un problema, debe considerar qué ha cambiado recientemente y cuándo se produjeron esos cambios.

  • Los cambios realizados en el sistema StorageGRID, su configuración o su entorno pueden provocar nuevos comportamientos.

  • Una línea de tiempo de los cambios puede ayudarle a identificar qué cambios podrían ser responsables de un problema y cómo cada cambio podría haber afectado su desarrollo.

Crear una tabla de cambios recientes en el sistema que incluya información acerca de cuándo se produjo cada cambio y cualquier información relevante acerca del cambio, tal información acerca de qué más estaba ocurriendo mientras el cambio estaba en curso:

Momento del cambio Tipo de cambio Detalles

Por ejemplo:

  • ¿Cuándo inició la recuperación del nodo?

  • ¿Cuándo se completó la actualización de software?

  • ¿Interrumpió el proceso?

¿Qué ha sucedido? ¿Qué has hecho?

Documente los detalles relevantes sobre el cambio. Por ejemplo:

  • Detalles de los cambios de red.

  • Qué revisión se instaló.

  • Cambio de las cargas de trabajo de los clientes.

Asegúrese de anotar si se estaba produciendo más de un cambio al mismo tiempo. Por ejemplo, ¿se ha realizado este cambio mientras se estaba realizando una actualización?

Ejemplos de cambios recientes significativos

A continuación se muestran algunos ejemplos de cambios potencialmente importantes:

  • ¿El sistema StorageGRID se ha instalado, ampliado o recuperado recientemente?

  • ¿Se ha actualizado el sistema recientemente? ¿Se ha aplicado una revisión?

  • ¿Se ha reparado o modificado recientemente algún hardware?

  • ¿Se ha actualizado la política de ILM?

  • ¿Ha cambiado la carga de trabajo del cliente?

  • ¿Ha cambiado la aplicación cliente o su comportamiento?

  • ¿Ha cambiado los equilibradores de carga, o ha agregado o eliminado un grupo de alta disponibilidad de nodos de administrador o nodos de puerta de enlace?

  • ¿Se ha iniciado alguna tarea que puede tardar mucho tiempo en completarse? Entre los ejemplos se incluyen:

    • Recuperación de un nodo de almacenamiento con fallos

    • Decomisionado del nodo de almacenamiento

  • ¿Se han realizado cambios en la autenticación de usuario, por ejemplo, añadir un inquilino o cambiar la configuración de LDAP?

  • ¿Se está realizando la migración de datos?

  • ¿Se han activado o cambiado los servicios de la plataforma recientemente?

  • ¿Se ha activado el cumplimiento de normativas recientemente?

  • ¿Se han añadido o eliminado pools de almacenamiento en cloud?

  • ¿Se han realizado cambios en la compresión o el cifrado del almacenamiento?

  • ¿Se han producido cambios en la infraestructura de red? Por ejemplo, VLAN, enrutadores o DNS.

  • ¿Se han realizado cambios en los orígenes de NTP?

  • ¿Se han realizado cambios en las interfaces de red de cliente, administrador o grid?

  • ¿Se ha realizado algún cambio de configuración en el nodo de archivado?

  • ¿Se han realizado otros cambios en el sistema StorageGRID o en su entorno?

Establecer líneas base

Puede establecer líneas base para el sistema registrando los niveles normales de varios valores operativos. En el futuro, puede comparar los valores actuales con estas líneas de base para ayudar a detectar y resolver valores anómalos.

Propiedad Valor Cómo obtener

Consumo medio de almacenamiento

GB consumidos/día

Porcentaje consumido/día

Vaya a Grid Manager. En la página Nodes, seleccione la cuadrícula completa o un sitio y vaya a la pestaña Storage.

En el gráfico almacenamiento usado - datos de objeto, busque un punto en el que la línea sea bastante estable. Coloque el cursor sobre el gráfico para estimar cuánto almacenamiento se consume cada día

Puede recopilar esta información para todo el sistema o para un centro de datos específico.

Consumo medio de metadatos

GB consumidos/día

Porcentaje consumido/día

Vaya a Grid Manager. En la página Nodes, seleccione la cuadrícula completa o un sitio y vaya a la pestaña Storage.

En el gráfico almacenamiento usado - metadatos de objeto, busque un punto en el que la línea sea bastante estable. Sitúe el cursor sobre el gráfico para estimar la cantidad de almacenamiento de metadatos que se consume cada día

Puede recopilar esta información para todo el sistema o para un centro de datos específico.

Tasa de operaciones de S3/Swift

Operaciones por segundo

En el panel de Grid Manager, seleccione Rendimiento > S3 operaciones o Rendimiento > Operaciones Swift.

Para ver las tasas y recuentos de procesamiento y recuperación de un sitio o nodo específico, seleccione NODES > site o Storage Node > objetos. Coloque el cursor sobre el gráfico de ingesta y recuperación para S3 o Swift.

Han fallado las operaciones de S3/Swift

Operaciones

Seleccione SUPPORT > Tools > Topología de cuadrícula. En la pestaña Overview de la sección API Operations, vea el valor de las operaciones de S3 - Failed o Swift - Failed.

Tasa de evaluación de ILM

Objetos por segundo

En la página Nodes, seleccione grid > ILM.

En el gráfico de la cola de ILM, busque un período donde la línea sea bastante estable. Coloque el cursor sobre el gráfico para estimar un valor de línea base para Tasa de evaluación para su sistema.

Tasa de análisis de ILM

Objetos por segundo

Seleccione NODES > grid > ILM.

En el gráfico de la cola de ILM, busque un período donde la línea sea bastante estable. Coloque el cursor sobre el gráfico para estimar un valor de línea base para Tasa de exploración para su sistema.

Objetos en cola de operaciones del cliente

Objetos por segundo

Seleccione NODES > grid > ILM.

En el gráfico de la cola de ILM, busque un período donde la línea sea bastante estable. Coloque el cursor sobre el gráfico para estimar un valor de línea base para Objetos en cola (de operaciones del cliente) para su sistema.

Latencia media de consultas

Milisegundos

Seleccione NODES > Storage Node > Objects. En la tabla consultas, vea el valor de latencia media.

Análisis de datos

Utilice la información que recopila para determinar la causa del problema y las soluciones potenciales.

El análisis depende‐problema, pero en general:

  • Localizar puntos de fallo y cuellos de botella mediante las alarmas.

  • Reconstruya el historial de problemas con el historial de alarmas y los gráficos.

  • Utilice gráficos para buscar anomalías y comparar la situación del problema con el funcionamiento normal.

Lista de comprobación de información de escalado

Si no puede resolver el problema por su cuenta, póngase en contacto con el soporte técnico. Antes de ponerse en contacto con el soporte técnico, recopile la información incluida en la siguiente tabla para facilitar la resolución del problema.

marca de verificación Elemento Notas

Declaración de problema

¿Cuáles son los síntomas del problema? ¿Cuándo comenzó el problema? ¿Ocurre de manera sistemática o intermitente? Si es intermitente, ¿qué veces ha ocurrido?

Evaluación del impacto

¿Cuál es la gravedad del problema? ¿Cómo afecta a la aplicación cliente?

  • ¿Se ha conectado el cliente correctamente anteriormente?

  • ¿El cliente puede procesar, recuperar y eliminar datos?

ID del sistema StorageGRID

Seleccione MANTENIMIENTO > sistema > Licencia. El ID del sistema de StorageGRID se muestra como parte de la licencia actual.

Versión de software

En la parte superior de Grid Manager, seleccione el icono de ayuda y seleccione Acerca de para ver la versión de StorageGRID.

Personalización

Resuma cómo se configura el sistema StorageGRID. Por ejemplo, enumere lo siguiente:

  • ¿El grid utiliza compresión de almacenamiento, cifrado de almacenamiento o cumplimiento de normativas?

  • ¿Hace ILM objetos replicados o codificados de borrado? ¿Garantiza ILM la redundancia de sitios? ¿Las reglas de ILM usan los comportamientos de ingesta de registro equilibrado, estricto o doble?

Registrar archivos y datos del sistema

Recopile archivos de registro y datos del sistema para su sistema. Seleccione SUPPORT > Tools > Logs.

Es posible recopilar registros de toda la cuadrícula o de los nodos seleccionados.

Si va a recopilar registros solo para los nodos seleccionados, asegúrese de incluir al menos un nodo de almacenamiento que tenga el servicio ADC. (Los tres primeros nodos de almacenamiento de un sitio incluyen el servicio ADC).

Información de línea de base

Recopile información de la línea de base sobre las operaciones de ingesta, las operaciones de recuperación y el consumo de almacenamiento.

Cronología de los cambios recientes

Crear una línea de tiempo que resume los cambios recientes realizados en el sistema o en su entorno.

Historia de los esfuerzos para diagnosticar el problema

Si ha tomado medidas para diagnosticar o solucionar el problema por su cuenta, asegúrese de registrar los pasos que ha realizado y el resultado.