Solucionar los problemas de un sistema StorageGRID
Si tiene algún problema al usar un sistema StorageGRID, consulte las sugerencias y directrices de esta sección para obtener ayuda a la hora de determinar y resolver el problema.
Descripción general de la determinación de problemas
Si se produce un problema al administrar un sistema StorageGRID, puede usar el proceso descrito en esta figura para identificar y analizar el problema. En muchos casos, es posible que pueda resolver problemas por su cuenta; sin embargo, es posible que deba derivar algunos problemas al soporte técnico.
Definición del problema
El primer paso para resolver un problema es definir el problema claramente.
En esta tabla, se proporcionan ejemplos de los tipos de información que pueden recopilar para definir un problema:
Pregunta | Ejemplo de respuesta |
---|---|
¿Qué está haciendo o no el sistema StorageGRID? ¿Cuáles son sus síntomas? |
Las aplicaciones cliente informan de que los objetos no se pueden procesar en StorageGRID. |
¿Cuándo comenzó el problema? |
La ingesta de objetos fue denegada por primera vez a las 14:50 del 8 de enero de 2020. |
¿Cómo notó el problema por primera vez? |
Notificado por la aplicación cliente. También ha recibido notificaciones por correo electrónico de alerta. |
¿El problema ocurre de manera consistente, o sólo a veces? |
El problema está en curso. |
Si el problema ocurre con regularidad, ¿qué pasos hacen que ocurra |
El problema se produce cada vez que un cliente intenta procesar un objeto. |
Si el problema ocurre intermitentemente, ¿cuándo ocurre? Registre las horas de cada incidente que conozca. |
El problema no es intermitente. |
¿Ha visto este problema con anterioridad? ¿Con qué frecuencia ha tenido este problema en el pasado? |
Esta es la primera vez que veo este asunto. |
Evaluación del riesgo y del impacto en el sistema
Una vez que haya definido el problema, evalúe su riesgo y su impacto en el sistema StorageGRID. Por ejemplo, la presencia de alertas cruciales no necesariamente significa que el sistema no esté proporcionando servicios básicos.
En esta tabla se resume el impacto que tiene el problema de ejemplo en las operaciones del sistema:
Pregunta | Ejemplo de respuesta |
---|---|
¿El sistema StorageGRID puede procesar contenido? |
No |
¿Las aplicaciones cliente pueden recuperar contenido? |
Algunos objetos se pueden recuperar y otros no. |
¿Los datos están en riesgo? |
No |
¿Se ve gravemente afectada la capacidad para llevar a cabo operaciones empresariales? |
Sí, porque las aplicaciones cliente no pueden almacenar objetos en el sistema StorageGRID y los datos no pueden recuperarse de forma coherente. |
Recogida de datos
Una vez definido el problema y haya evaluado su riesgo e impacto, recopile los datos para su análisis. El tipo de datos más útiles para recopilar depende de la naturaleza del problema.
Tipo de datos que se van a recoger | Por qué recoger estos datos | Instrucciones |
---|---|---|
Crear una línea de tiempo de los cambios recientes |
Los cambios realizados en el sistema StorageGRID, su configuración o su entorno pueden provocar nuevos comportamientos. |
|
Revise las alertas y alarmas |
Las alertas y alarmas pueden ayudarle a determinar rápidamente la causa raíz de un problema, proporcionando pistas importantes sobre los problemas subyacentes que podrían estar causando. Revise la lista de alertas y alarmas actuales para ver si StorageGRID ha identificado la causa raíz de un problema. Revise las alertas y alarmas activadas en el pasado para obtener información adicional. |
|
Supervisar eventos |
Entre los eventos se incluye cualquier evento de error del sistema o fallo de un nodo, incluidos errores como errores de red. Supervisar eventos para obtener más información acerca de problemas o para ayudar en la solución de problemas. |
|
Identificar tendencias mediante informes de texto y gráficos |
Las tendencias pueden proporcionar pistas valiosas acerca de cuándo aparecieron los problemas por primera vez, y pueden ayudarle a entender la rapidez con la que las cosas están cambiando. |
|
Establecer líneas base |
Recopilar información acerca de los niveles normales de varios valores operativos. Estos valores de referencia y las desviaciones de estas líneas de base pueden proporcionar pistas valiosas. |
|
Realice pruebas de procesamiento y recuperación |
Para solucionar problemas de rendimiento con la ingesta y la recuperación, utilice una estación de trabajo para almacenar y recuperar objetos. Compare los resultados con los que se ven al usar la aplicación cliente. |
|
Revisar los mensajes de auditoría |
Revise los mensajes de auditoría para seguir las operaciones de StorageGRID con detalle. Los detalles de los mensajes de auditoría pueden ser útiles para solucionar muchos tipos de problemas, incluidos problemas de rendimiento. |
|
Comprobar la ubicación de objetos y la integridad del almacenamiento |
Si tiene problemas de almacenamiento, compruebe que los objetos se encuentren en la ubicación que espera. Compruebe la integridad de los datos de objetos en un nodo de almacenamiento. |
|
Recopile datos para el soporte técnico |
Es posible que el soporte técnico le solicite recopilar datos o revisar información específica para ayudar a resolver problemas. |
Crear una línea de tiempo de cambios recientes
Cuando se produce un problema, debe considerar qué ha cambiado recientemente y cuándo se produjeron esos cambios.
-
Los cambios realizados en el sistema StorageGRID, su configuración o su entorno pueden provocar nuevos comportamientos.
-
Una línea de tiempo de los cambios puede ayudarle a identificar qué cambios podrían ser responsables de un problema y cómo cada cambio podría haber afectado su desarrollo.
Crear una tabla de cambios recientes en el sistema que incluya información acerca de cuándo se produjo cada cambio y cualquier información relevante acerca del cambio, tal información acerca de qué más estaba ocurriendo mientras el cambio estaba en curso:
Momento del cambio | Tipo de cambio | Detalles |
---|---|---|
Por ejemplo:
|
¿Qué ha sucedido? ¿Qué has hecho? |
Documente los detalles relevantes sobre el cambio. Por ejemplo:
Asegúrese de anotar si se estaba produciendo más de un cambio al mismo tiempo. Por ejemplo, ¿se ha realizado este cambio mientras se estaba realizando una actualización? |
Ejemplos de cambios recientes significativos
A continuación se muestran algunos ejemplos de cambios potencialmente importantes:
-
¿El sistema StorageGRID se ha instalado, ampliado o recuperado recientemente?
-
¿Se ha actualizado el sistema recientemente? ¿Se ha aplicado una revisión?
-
¿Se ha reparado o modificado recientemente algún hardware?
-
¿Se ha actualizado la política de ILM?
-
¿Ha cambiado la carga de trabajo del cliente?
-
¿Ha cambiado la aplicación cliente o su comportamiento?
-
¿Ha cambiado los equilibradores de carga, o ha agregado o eliminado un grupo de alta disponibilidad de nodos de administrador o nodos de puerta de enlace?
-
¿Se ha iniciado alguna tarea que puede tardar mucho tiempo en completarse? Entre los ejemplos se incluyen:
-
Recuperación de un nodo de almacenamiento con fallos
-
Decomisionado del nodo de almacenamiento
-
-
¿Se han realizado cambios en la autenticación de usuario, por ejemplo, añadir un inquilino o cambiar la configuración de LDAP?
-
¿Se está realizando la migración de datos?
-
¿Se han activado o cambiado los servicios de la plataforma recientemente?
-
¿Se ha activado el cumplimiento de normativas recientemente?
-
¿Se han añadido o eliminado pools de almacenamiento en cloud?
-
¿Se han realizado cambios en la compresión o el cifrado del almacenamiento?
-
¿Se han producido cambios en la infraestructura de red? Por ejemplo, VLAN, enrutadores o DNS.
-
¿Se han realizado cambios en los orígenes de NTP?
-
¿Se han realizado cambios en las interfaces de red de cliente, administrador o grid?
-
¿Se ha realizado algún cambio de configuración en el nodo de archivado?
-
¿Se han realizado otros cambios en el sistema StorageGRID o en su entorno?
Establecimiento de líneas base
Puede establecer líneas base para el sistema registrando los niveles normales de varios valores operativos. En el futuro, puede comparar los valores actuales con estas líneas de base para ayudar a detectar y resolver valores anómalos.
Propiedad | Valor | Cómo obtener |
---|---|---|
Consumo medio de almacenamiento |
GB consumidos/día Porcentaje consumido/día |
Vaya a Grid Manager. En la página Nodes, seleccione la cuadrícula completa o un sitio y vaya a la pestaña Storage. En el gráfico almacenamiento usado - datos de objeto, busque un punto en el que la línea sea bastante estable. Pase el cursor sobre el gráfico para calcular cuánto almacenamiento consume cada día Puede recopilar esta información para todo el sistema o para un centro de datos específico. |
Consumo medio de metadatos |
GB consumidos/día Porcentaje consumido/día |
Vaya a Grid Manager. En la página Nodes, seleccione la cuadrícula completa o un sitio y vaya a la pestaña Storage. En el gráfico almacenamiento usado - metadatos de objeto, busque un punto en el que la línea sea bastante estable. Pase el cursor sobre el gráfico para calcular cuánto almacenamiento de metadatos se consume cada día Puede recopilar esta información para todo el sistema o para un centro de datos específico. |
Tasa de operaciones de S3/Swift |
Operaciones por segundo |
Vaya a Panel en Grid Manager. En la sección Protocol Operations, consulte los valores para la tasa de S3 y la tasa de Swift. Para ver las tasas y recuentos de procesamiento y recuperación de un sitio o nodo específico, seleccione Nodes > site o Storage Node > objetos. Pase el cursor sobre el gráfico ingesta y recuperación de S3 o Swift. |
Han fallado las operaciones de S3/Swift |
Operaciones |
Seleccione Soporte > Herramientas > Topología de cuadrícula. En la pestaña Overview de la sección API Operations, vea el valor de las operaciones de S3 - Failed o Swift - Failed. |
Tasa de evaluación de ILM |
Objetos por segundo |
En la página Nodes, seleccione grid > ILM. En el gráfico de la cola de ILM, busque un período donde la línea sea bastante estable. Pase el cursor sobre el gráfico para calcular un valor de línea de base para tasa de evaluación para su sistema. |
Tasa de análisis de ILM |
Objetos por segundo |
Seleccione Nodes > grid > ILM. En el gráfico de la cola de ILM, busque un período donde la línea sea bastante estable. Pase el cursor sobre el gráfico para calcular un valor de línea de base para tasa de exploración para su sistema. |
Objetos en cola de operaciones del cliente |
Objetos por segundo |
Seleccione Nodes > grid > ILM. En el gráfico de la cola de ILM, busque un período donde la línea sea bastante estable. Pase el cursor por encima del gráfico para calcular un valor de línea de base para objetos en cola (desde operaciones de cliente) para su sistema. |
Latencia media de consultas |
Milisegundos |
Seleccione Nodes > Storage Node > Objects. En la tabla consultas, vea el valor de latencia media. |
Analizando datos
Utilice la información que recopila para determinar la causa del problema y las soluciones potenciales.
El análisis depende‐problema, pero en general:
-
Localizar puntos de fallo y cuellos de botella mediante las alarmas.
-
Reconstruya el historial de problemas con el historial de alarmas y los gráficos.
-
Utilice gráficos para buscar anomalías y comparar la situación del problema con el funcionamiento normal.
Lista de comprobación de información de escalado
Si no puede resolver el problema por su cuenta, póngase en contacto con el soporte técnico. Antes de ponerse en contacto con el soporte técnico, recopile la información incluida en la siguiente tabla para facilitar la resolución del problema.
Elemento | Notas | |
---|---|---|
Declaración de problema |
¿Cuáles son los síntomas del problema? ¿Cuándo comenzó el problema? ¿Ocurre de manera sistemática o intermitente? Si es intermitente, ¿qué veces ha ocurrido? |
|
Evaluación del impacto |
¿Cuál es la gravedad del problema? ¿Cómo afecta a la aplicación cliente?
|
|
ID del sistema StorageGRID |
Seleccione Mantenimiento > sistema > Licencia. El ID del sistema de StorageGRID se muestra como parte de la licencia actual. |
|
Versión de software |
Haga clic en Ayuda > Acerca de para ver la versión de StorageGRID. |
|
Personalización |
Resuma cómo se configura el sistema StorageGRID. Por ejemplo, enumere lo siguiente:
|
|
Registrar archivos y datos del sistema |
Recopile archivos de registro y datos del sistema para su sistema. Seleccione Soporte > Herramientas > registros. Es posible recopilar registros de toda la cuadrícula o de los nodos seleccionados. Si va a recopilar registros solo para los nodos seleccionados, asegúrese de incluir al menos un nodo de almacenamiento que tenga el servicio ADC. (Los tres primeros nodos de almacenamiento de un sitio incluyen el servicio ADC). |
|
Información de línea de base |
Recopile información de la línea de base sobre las operaciones de ingesta, las operaciones de recuperación y el consumo de almacenamiento. |
|
Cronología de los cambios recientes |
Crear una línea de tiempo que resume los cambios recientes realizados en el sistema o en su entorno. |
|
Historia de los esfuerzos para diagnosticar el problema |
Si ha tomado medidas para diagnosticar o solucionar el problema por su cuenta, asegúrese de registrar los pasos que ha realizado y el resultado. |