StorageGRID 시스템 문제 해결: 개요
StorageGRID 시스템을 사용할 때 문제가 발생하는 경우 이 섹션의 팁과 지침을 참조하여 문제를 확인하고 해결하십시오.
문제 확인 개요
에 문제가 있는 경우 "StorageGRID 시스템 관리", 이 그림에 설명된 프로세스를 사용하여 문제를 식별하고 분석할 수 있습니다. 문제를 직접 해결할 수 있는 경우가 많지만, 기술 지원 부서에 일부 문제를 에스컬레이션해야 할 수도 있습니다.
문제를 정의합니다
문제를 해결하기 위한 첫 번째 단계는 문제를 명확하게 정의하는 것입니다.
이 표에서는 문제를 정의하기 위해 수집할 수 있는 정보 유형의 예를 제공합니다.
질문 | 샘플 응답 |
---|---|
StorageGRID 시스템의 기능은 무엇입니까? 또는 작동하지 않습니다. 증상은 무엇입니까? |
클라이언트 애플리케이션이 객체를 StorageGRID로 인제스트할 수 없다고 보고합니다. |
문제가 언제 시작되었습니까? |
오브젝트 수집은 2020년 1월 8일 약 14:50에 처음 거부되었습니다. |
문제를 처음 알게 된 방법은 무엇입니까? |
클라이언트 응용 프로그램에 의해 통지됩니다. 알림 e-메일 알림도 받았습니다. |
문제가 지속적으로 발생합니까, 아니면 가끔만 발생합니까? |
문제가 지속되고 있습니다. |
문제가 정기적으로 발생하면 어떤 단계를 통해 문제가 발생하는지 확인합니다 |
클라이언트에서 오브젝트를 수집하려고 할 때마다 문제가 발생합니다. |
문제가 간헐적으로 발생하는 경우 언제 발생합니까? 알고 있는 각 사고의 시간을 기록합니다. |
문제가 간헐적으로 발생하지 않습니다. |
이전에 이 문제를 본 적이 있습니까? 과거에 이 문제가 얼마나 자주 있었습니까? |
이 문제를 처음 본 것입니다. |
시스템에 미치는 위험과 영향을 평가합니다
문제를 정의한 후 StorageGRID 시스템에 미치는 위험과 영향을 평가합니다. 예를 들어, 중요한 경고가 있다고 해서 시스템에서 핵심 서비스를 제공하지 않는 것은 아닙니다.
이 표에는 시스템 운영에 대한 예제 문제의 영향이 요약되어 있습니다.
질문 | 샘플 응답 |
---|---|
StorageGRID 시스템에서 콘텐츠를 수집할 수 있습니까? |
아니요 |
클라이언트 응용 프로그램이 콘텐츠를 검색할 수 있습니까? |
일부 개체는 검색할 수 있고 다른 개체는 검색할 수 없습니다. |
데이터가 위험에 노출되어 있습니까? |
아니요 |
비즈니스를 수행하는 능력이 심각하게 영향을 받습니까? |
예. 클라이언트 애플리케이션은 StorageGRID 시스템에 객체를 저장할 수 없고 데이터를 일관되게 검색할 수 없기 때문입니다. |
데이터 수집
문제를 정의하고 위험 및 영향을 평가한 후 분석을 위해 데이터를 수집합니다. 수집하는 데 가장 유용한 데이터 유형은 문제의 특성에 따라 다릅니다.
수집할 데이터의 유형입니다 | 이 데이터를 수집하는 이유 | 지침 |
---|---|---|
최근 변경 사항의 시간 표시 막대를 만듭니다 |
StorageGRID 시스템, 구성 또는 환경을 변경하면 새로운 동작이 발생할 수 있습니다. |
|
경고 및 알람을 검토합니다 |
경고와 알람은 문제의 근본 원인에 대한 중요한 단서를 제공하여 문제의 근본 원인을 신속하게 파악하는 데 도움이 됩니다. 현재 경고 및 알람 목록을 검토하여 StorageGRID가 문제의 근본 원인을 식별하는지 확인합니다. 이전에 트리거된 알림 및 알람을 검토하여 추가적인 통찰력을 얻을 수 있습니다. |
|
이벤트를 모니터링합니다 |
이벤트에는 네트워크 오류와 같은 오류를 포함하여 노드에 대한 시스템 오류 또는 장애 이벤트가 포함됩니다. 이벤트를 모니터링하여 문제에 대해 자세히 알아보거나 문제 해결에 도움을 받으십시오. |
|
차트 및 텍스트 보고서를 사용하여 추세를 식별합니다 |
동향은 문제가 처음 나타난 시기에 대한 중요한 단서가 될 수 있으며, 상황이 얼마나 빠르게 변화하는지 이해하는 데 도움이 될 수 있습니다. |
|
기준 설정 |
다양한 운영 값의 일반 수준에 대한 정보를 수집합니다. 이러한 기준 값과 이러한 기준선에서 벗어난 값들은 유용한 단서를 제공할 수 있습니다. |
|
수집 및 검색 테스트 수행 |
수집 및 검색과 관련된 성능 문제를 해결하려면 워크스테이션을 사용하여 오브젝트를 저장하고 검색합니다. 클라이언트 응용 프로그램을 사용할 때 표시되는 결과와 결과를 비교합니다. |
|
감사 메시지를 검토합니다 |
감사 메시지를 검토하여 StorageGRID 작업에 대해 자세히 설명합니다. 감사 메시지의 세부 정보는 성능 문제를 비롯한 다양한 유형의 문제를 해결하는 데 유용할 수 있습니다. |
|
오브젝트 위치 및 스토리지 무결성을 점검하십시오 |
스토리지에 문제가 있는 경우 오브젝트가 원하는 위치에 배치되었는지 확인합니다. 스토리지 노드에서 객체 데이터의 무결성을 점검하십시오. |
|
기술 지원을 위한 데이터 수집 |
기술 지원 부서에서 문제 해결을 위해 데이터를 수집하거나 특정 정보를 검토하도록 요청할 수 있습니다. |
최근 변경 내용의 타임라인을 만듭니다
문제가 발생하면 최근에 변경된 내용과 변경된 시기를 고려해야 합니다.
-
StorageGRID 시스템, 구성 또는 환경을 변경하면 새로운 동작이 발생할 수 있습니다.
-
변경 일정을 사용하면 어떤 변경 사항이 문제에 대해 어떤 영향을 미칠 수 있는지, 그리고 각 변경이 개발에 어떤 영향을 미쳤는지 파악할 수 있습니다.
각 변경이 발생한 시기 및 변경에 대한 관련 세부 정보, 변경이 진행 중인 동안 발생한 다른 작업에 대한 정보가 포함된 시스템의 최근 변경 사항 테이블을 만듭니다.
변경 시간 | 변경 유형 | 세부 정보 |
---|---|---|
예를 들면 다음과 같습니다.
|
무슨 일이 있었죠? 무엇을 했습니까? |
변경에 관한 모든 관련 세부 사항을 문서화합니다. 예를 들면 다음과 같습니다.
동시에 두 개 이상의 변경이 발생했는지 확인하십시오. 예를 들어, 업그레이드가 진행되는 동안 변경된 사항은 무엇입니까? |
최근 주요 변경 사항의 예
다음은 잠재적으로 중요한 변경 사항의 몇 가지 예입니다.
-
StorageGRID 시스템이 최근에 설치, 확장 또는 복구되었습니까?
-
최근에 시스템을 업그레이드했습니까? 핫픽스가 적용되었습니까?
-
최근에 수리 또는 변경된 하드웨어가 있습니까?
-
ILM 정책이 업데이트되었습니까?
-
클라이언트 워크로드가 변경되었습니까?
-
클라이언트 응용 프로그램 또는 해당 동작이 변경되었습니까?
-
로드 밸런서를 변경했거나 관리 노드 또는 게이트웨이 노드의 고가용성 그룹을 추가 또는 제거했습니까?
-
완료하는 데 시간이 오래 걸릴 수 있는 작업이 시작되었습니까? 예를 들면 다음과 같습니다.
-
장애가 발생한 스토리지 노드 복구
-
스토리지 노드 사용 중지
-
-
테넌트 추가 또는 LDAP 구성 변경과 같은 사용자 인증이 변경되었습니까?
-
데이터 마이그레이션이 진행됩니까?
-
플랫폼 서비스가 최근에 활성화 또는 변경되었습니까?
-
최근에 규정 준수를 활성화했습니까?
-
Cloud Storage Pool이 추가 또는 제거되었습니까?
-
스토리지 압축 또는 암호화에 대한 변경 사항이 있습니까?
-
네트워크 인프라에 변화가 있었습니까? 예를 들어 VLAN, 라우터 또는 DNS가 있습니다.
-
NTP 소스를 변경했습니까?
-
그리드, 관리자 또는 클라이언트 네트워크 인터페이스가 변경되었습니까?
-
아카이브 노드에 대한 구성 변경 사항이 있습니까?
-
StorageGRID 시스템 또는 환경에 다른 변경 사항이 있습니까?
기준 설정
다양한 운영 값의 일반 레벨을 기록하여 시스템의 기준을 설정할 수 있습니다. 향후 현재 값을 이러한 기준선과 비교하여 비정상 값을 감지하고 해결할 수 있습니다.
속성 | 값 | 얻는 방법 |
---|---|---|
평균 스토리지 소비량 |
GB 사용량/일 소비 비율/일 |
그리드 관리자로 이동합니다. 노드 페이지에서 전체 그리드 또는 사이트를 선택하고 스토리지 탭으로 이동합니다. Storage Used - Object Data 차트에서 라인이 상당히 안정적인 기간을 찾습니다. 차트 위에 커서를 올려 놓으면 매일 얼마나 많은 스토리지가 사용되는지를 추정할 수 있습니다 전체 시스템 또는 특정 데이터 센터에 대해 이 정보를 수집할 수 있습니다. |
평균 메타데이터 사용 |
GB 사용량/일 소비 비율/일 |
그리드 관리자로 이동합니다. 노드 페이지에서 전체 그리드 또는 사이트를 선택하고 스토리지 탭으로 이동합니다. 사용된 스토리지 - 객체 메타데이터 차트에서 라인이 상당히 안정적인 기간을 찾습니다. 커서를 차트 위에 올려 놓으면 매일 사용되는 메타데이터 스토리지가 얼마나 되는지 추정할 수 있습니다 전체 시스템 또는 특정 데이터 센터에 대해 이 정보를 수집할 수 있습니다. |
S3/Swift 작업의 속도입니다 |
작업/초 |
Grid Manager 대시보드에서 * Performance * > * S3 operations * 또는 * Performance * > * Swift operations * 를 선택합니다. 특정 사이트 또는 노드에 대한 수집 및 검색 속도 및 카운트를 보려면 * 노드 * > * _ 사이트 또는 스토리지 노드 _ * > * 개체 * 를 선택합니다. S3 또는 Swift에 대한 Ingest 및 Retrieve 차트 위에 커서를 놓습니다. |
S3/Swift 작업에 실패했습니다 |
운영 |
지원 * > * 도구 * > * 그리드 토폴로지 * 를 선택합니다. API Operations 섹션의 Overview 탭에서 S3 Operations - Failed 또는 Swift Operations - Failed 값을 확인합니다. |
ILM 평가 비율 |
개체/초 |
노드 페이지에서 *GRID * > * ILM * 을 선택합니다. ILM 대기열 차트에서 라인이 상당히 안정적인 기간을 찾습니다. 차트 위에 커서를 올려 * 평가 비율 * 의 기준값을 추정합니다. |
ILM 스캔 속도 |
개체/초 |
nodes * > *grid * > * ILM * 을 선택합니다. ILM 대기열 차트에서 라인이 상당히 안정적인 기간을 찾습니다. 차트 위에 커서를 올려 놓으면 * 시스템의 * 스캔 속도 * 에 대한 기준값이 추정됩니다. |
클라이언트 작업에서 대기 중인 객체입니다 |
개체/초 |
nodes * > *grid * > * ILM * 을 선택합니다. ILM 대기열 차트에서 라인이 상당히 안정적인 기간을 찾습니다. 커서를 차트 위에 올려 놓으면 * 클라이언트 작업에서 대기열에 있는 개체 * 에 대한 기준 값이 표시됩니다. |
평균 쿼리 지연 시간입니다 |
밀리초 |
노드 * > *스토리지 노드 * > * 오브젝트 * 를 선택합니다. 쿼리 테이블에서 평균 지연 시간 값을 확인합니다. |
데이터 분석
수집한 정보를 사용하여 문제의 원인과 잠재적인 해결책을 파악합니다.
분석은 문제에 따라 다르지만 일반적으로 다음과 같습니다.
-
알람을 사용하여 장애 지점 및 병목 지점을 찾습니다.
-
알람 기록 및 차트를 사용하여 문제 기록을 재구성합니다.
-
차트를 사용하여 이상 징후를 찾고 문제 상황을 정상 작동과 비교합니다.
에스컬레이션 정보 체크리스트
직접 문제를 해결할 수 없는 경우 기술 지원 부서에 문의하십시오. 기술 지원에 문의하기 전에 문제 해결을 위해 다음 표에 나열된 정보를 수집하십시오.
항목 | 참고 | |
---|---|---|
문제 설명 |
문제 증상은 무엇입니까? 문제가 언제 시작되었습니까? 일관성 또는 간헐적으로 발생합니까? 간헐적으로 발생하는 경우 몇 번 발생했습니까? |
|
영향 평가 |
문제의 심각성은 무엇입니까? 클라이언트 애플리케이션에 미치는 영향은 무엇입니까?
|
|
StorageGRID 시스템 ID입니다 |
유지 관리 * > * 시스템 * > * 라이센스 * 를 선택합니다. StorageGRID 시스템 ID는 현재 라이센스의 일부로 표시됩니다. |
|
소프트웨어 버전 |
그리드 관리자 상단에서 도움말 아이콘을 선택하고 * 정보 * 를 선택하여 StorageGRID 버전을 확인합니다. |
|
맞춤화 |
StorageGRID 시스템의 구성 방법을 요약합니다. 예를 들어 다음을 나열합니다.
|
|
로그 파일 및 시스템 데이터 |
시스템에 대한 로그 파일 및 시스템 데이터를 수집합니다. 지원 * > * 도구 * > * 로그 * 를 선택합니다. 전체 그리드 또는 선택한 노드에 대한 로그를 수집할 수 있습니다. 선택한 노드에 대해서만 로그를 수집하는 경우 ADC 서비스가 있는 스토리지 노드를 하나 이상 포함해야 합니다. (사이트의 처음 세 개의 스토리지 노드에는 ADC 서비스가 포함됩니다.) |
|
기준선 정보 |
수집 작업, 검색 작업 및 스토리지 사용에 대한 기본 정보를 수집합니다. |
|
최근 변경 시간 표시 막대 |
시스템 또는 해당 환경의 최근 변경 사항을 요약하는 일정을 만듭니다. |
|
문제를 진단하기 위한 노력 이력 |
문제를 직접 진단하거나 해결하기 위한 단계를 수행한 경우 수행한 단계와 결과를 기록해야 합니다. |