Skip to main content
본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

볼륨 지연 시간 모니터링

기여자 netapp-sineadd

지연 시간 분석을 사용하면 FSx for ONTAP 파일 시스템 전체의 읽기 및 쓰기 지연 시간 지표를 추적하여 볼륨 성능을 사전에 모니터링할 수 있습니다. 경고 및 중요 이벤트에 대한 사용자 지정 임계값을 구성하여 EDA 워크로드에 영향을 미치기 전에 잠재적인 성능 병목 현상을 식별할 수 있습니다.

개요

지연 시간 분석은 볼륨 읽기 및 쓰기 작업에 대한 CloudWatch 메트릭을 수집하고 모니터링합니다. 지정된 시간 범위 내의 모든 데이터 포인트에서 지연 시간 및 IOPS 임계값이 모두 초과되면 시스템은 지연 시간 이벤트 테이블에 표시되는 경고를 생성합니다. 이를 통해 다음을 수행할 수 있습니다.

  • 성능 저하가 발생하는 볼륨을 식별합니다.

  • 경고 수준과 심각 수준 성능 문제를 구분하십시오.

  • 스토리지 구성을 최적화하기 위해 시간 경과에 따른 지연 시간 추세를 추적하십시오.

  • 지연 시간이 워크로드 성능에 영향을 미치기 전에 사전 조치를 취하십시오.

시작하기 전에

지연 시간 분석을 사용하려면 Workload Factory에 AWS 자격 증명이 구성되어 있어야 합니다. 이 기능을 사용하려면 AWS 자격 증명과 연결된 모든 FSx for ONTAP 볼륨에 대한 CloudWatch 메트릭에 액세스할 수 있어야 합니다.

AWS 자격 증명을 구성하지 않은 경우 "AWS 자격 증명 추가"을 참조하십시오.

지연 시간 임계값 구성

경고 및 심각 이벤트에 대한 임계값을 구성할 수 있습니다. 각 이벤트 유형에는 읽기 및 쓰기 작업에 대한 별도의 임계값이 포함됩니다. 시스템은 이러한 임계값을 지속적으로 평가하고 조건이 충족되면 알림을 생성합니다.

참고 경고가 적절하게 전달되도록 하려면 중요 이벤트 임계값을 경고 이벤트 임계값보다 높게 설정해야 합니다. 그렇지 않으면 구성을 저장할 수 없습니다.
이 작업 정보

경고가 발생하려면 지정된 시간 범위 내의 모든 데이터 포인트에서 지연 시간 임계값과 IOPS 임계값이 모두 초과되어야 합니다. 이러한 이중 조건 논리는 높은 부하 상태에서도 높은 지연 시간이 유지되도록 함으로써 오탐을 줄이는 데 도움이 됩니다.

단계
  1. 다음 중 하나를 사용하여 로그인하세요. "콘솔 경험".

  2. 메뉴 햄버거 메뉴 아이콘를 선택한 다음 *EDA*를 선택하십시오.

  3. EDA 메뉴에서 *지연 시간*을 선택합니다.

  4. EDA 지연 시간 구성 페이지에서 다음 임계값을 구성하십시오.

    • 경고 이벤트

      • 읽기 지연 시간 임계값: 지연 시간 임계값을 밀리초 단위로 입력합니다. 기본값: 6ms입니다.

      • 읽기 IOPS 임계값: 초당 작업 수로 IOPS 임계값을 입력합니다. 기본값: 100ops/sec.

      • 읽기 시간 범위: 시간 범위를 분 단위(5-20)로 입력하세요. 기본값: 10분.

      • 쓰기 지연 시간 임계값: 지연 시간 임계값을 밀리초 단위로 입력하십시오. 기본값: 8ms.

      • 쓰기 IOPS 임계값: 초당 작업 수로 IOPS 임계값을 입력합니다. 기본값: 100 ops/sec.

      • 쓰기 시간 범위: 시간 범위를 분 단위로 입력합니다(5-20). 기본값: 10분.

    • 중요 이벤트

      • 읽기 지연 시간 임계값: 지연 시간 임계값을 밀리초 단위로 입력합니다. 기본값: 12ms.

      • 읽기 IOPS 임계값: 초당 작업 수로 IOPS 임계값을 입력합니다. 기본값: 100ops/sec.

      • 읽기 시간 범위: 시간 범위를 분 단위(5-20)로 입력하세요. 기본값: 10분.

      • 쓰기 지연 시간 임계값: 지연 시간 임계값을 밀리초 단위로 입력합니다. 기본값: 15ms.

      • 쓰기 IOPS 임계값: 초당 작업 수로 IOPS 임계값을 입력합니다. 기본값: 100 ops/sec.

      • 쓰기 시간 범위: 시간 범위를 분 단위로 입력합니다(5-20). 기본값: 10분.

  5. *적용*을 선택하세요.

결과

Workload Factory는 AWS 자격 증명과 연결된 모든 FSx for ONTAP 볼륨에 대한 지연 시간 메트릭 수집을 시작합니다. 메트릭은 최소 20분마다 수집됩니다. 지연 시간 이벤트 테이블에는 구성된 임계값을 초과하는 볼륨이 표시됩니다.

알림 이해

지연 시간 분석 기능은 CloudWatch 알람을 사용하여 볼륨 성능을 모니터링합니다. 알림이 트리거되는 방식을 이해하면 적절한 임계값을 구성하고 결과를 해석하는 데 도움이 됩니다.

수집된 메트릭

이 시스템은 각 볼륨에 대해 다음과 같은 CloudWatch 지표를 수집합니다.

  • 읽기 지연 임계값: 1000 * m2/(m1+0.000001)로 계산되며, 여기서 m1 = DataReadOperations이고 m2 = DataReadOperationTime

  • 쓰기 지연 임계값: 1000 * m2/(m1+0.000001)로 계산됩니다. 여기서 m1 = DataWriteOperations이고 m2 = DataWriteOperationTime입니다

알림 트리거 조건

다음 조건이 모두 충족될 경우 알림이 트리거됩니다.

  • 해당 작업 유형(읽기 또는 쓰기)에 대한 지연 시간 임계값이 초과되었습니다.

  • 작업 유형에 대한 IOPS 임계값이 초과되었습니다.

  • 구성된 시간 범위 내의 모든 데이터 포인트에 대해 두 가지 조건 모두 지속됩니다.

예를 들어, 기본 경고 임계값을 사용하면 10분 동안 모든 데이터 포인트에 대해 읽기 지연 시간이 6ms를 초과하고 읽기 IOPS가 100ops/sec를 초과하는 경우에만 읽기 알림이 트리거됩니다.

이벤트 심각도

  • 경고 이벤트: 주의가 필요할 수 있는 지연 시간 증가를 나타냅니다.

  • 중요 이벤트: 즉각적인 조사가 필요한 심각한 지연 시간을 나타냅니다.

지연 이벤트 보기

지연 이벤트 테이블에는 지난 72시간 동안 감지된 모든 경고 및 심각 이벤트가 표시됩니다. 이 테이블을 사용하여 볼륨 성능 모니터링하고 최적화가 필요한 볼륨을 식별하십시오.

추가 정보
  • 각 볼륨에 대한 최신 위반만 표에 표시됩니다. 볼륨에 여러 번의 위반이 발생한 경우 가장 최근 이벤트만 표시됩니다.

  • 이벤트는 72시간 후 자동으로 제거됩니다.

  • 이 표에는 최대 200개의 이벤트가 표시됩니다. 새 이벤트가 추가되면 오래된 이벤트는 삭제됩니다.

단계
  1. 지연 시간 탭에서 지연 시간 이벤트 테이블을 확인합니다.

  2. 다음을 포함한 각 이벤트에 대한 정보를 검토하십시오.

    • 심각도: 이벤트가 Critical인지 Warning인지 여부를 나타냅니다.

    • 볼륨 이름: 영향을 받는 볼륨의 이름입니다.

    • 볼륨 ID: 영향을 받는 볼륨의 ID입니다.

    • 파일 시스템: 볼륨이 포함된 FSx for ONTAP 파일 시스템입니다.

    • 탐지 시간: 침해가 탐지된 시간

    • 중앙값 지연 시간: 위반 기간 동안의 중앙값 지연 시간 값입니다.

  3. 테이블을 정렬하려면 열 머리글을 선택합니다. 기본적으로 중요 이벤트가 시간별로 정렬되어 먼저 표시되고 그 다음 경고 이벤트가 시간별로 정렬되어 표시됩니다.

  4. 하나 이상의 이벤트를 해제하려면 각 이벤트 옆에 있는 *Dismiss*를 선택하십시오.

  5. 표에 열을 추가하려면 열 아이콘을 선택하고 열을 선택한 다음 *적용*을 선택합니다.

지연 시간 구성 관리

초기 구성 후 임계값을 편집할 수 있습니다.

단계
  1. 지연 시간 페이지에서 *편집*을 선택합니다.

  2. 필요에 따라 임계값을 수정하십시오.

    참고 중요 임계값은 경고 임계값보다 높게 유지해야 합니다. 중요 임계값을 경고 임계값보다 낮게 구성하면 시스템에서 오류가 표시됩니다.
  3. 변경 사항을 저장하려면 *적용*을 선택합니다.

모범 사례

지연 시간 분석을 구성하고 사용할 때 다음 권장 사항을 고려하십시오:

  • 현실적인 임계값 설정: 워크로드 요구 사항에 따라 임계값을 구성하십시오. 기본값은 시작점을 제공하지만 특정 환경에 맞게 조정이 필요할 수 있습니다.

  • 경고 임계값부터 시작하세요: 경고 이벤트를 사용하여 중요 임계값을 미세 조정하기 전에 기준 성능 기대치를 설정하십시오.

  • 시간 범위를 신중하게 고려하십시오: 짧은 시간 범위(5~10분)는 문제를 더 빨리 감지하지만 알림 수가 더 많이 발생할 수 있습니다. 긴 시간 범위(15~20분)는 오탐을 줄이지만 감지가 지연될 수 있습니다.

  • 추세 모니터링: 지연 시간 이벤트 테이블을 정기적으로 검토하여 근본적인 구성 문제를 나타낼 수 있는 패턴이나 반복되는 문제를 식별하십시오.

  • IOPS 및 지연 시간 임계값 조정: 이중 조건 논리는 두 가지 모두 초과해야 함을 의미합니다. IOPS 임계값을 너무 높게 설정하면 지연 시간이 문제가 되더라도 알림이 발생하지 않을 수 있습니다.

  • 기각된 이벤트 검토: 이벤트가 기각된 이유를 주기적으로 검토하여 임계값 조정 또는 인프라 개선 기회를 파악합니다.