Skip to main content
본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

EDA 워크로드에서 볼륨 지연 시간 모니터링

기여자 netapp-sineadd

EDA 워크로드를 관리하는 IT 관리자 또는 DevOps 엔지니어는 지연 시간 분석을 사용하여 FSx for ONTAP 파일 시스템 전반의 읽기 및 쓰기 지연 시간 지표를 추적함으로써 볼륨 성능을 사전에 모니터링할 수 있습니다. 경고 및 중요 이벤트에 대한 사용자 지정 임계값을 구성하여 시뮬레이션 실행 시간 및 출시 기간에 영향을 미치기 전에 잠재적인 성능 병목 현상을 식별할 수 있습니다. 지연 시간 이벤트가 감지되면 자동화된 기본 분석을 통해 근본 원인을 파악할 수 있습니다.

개요

지연 시간이 길면 시뮬레이션 실행 시간과 EDA 프로젝트의 출시 기간에 직접적인 영향을 미칩니다. 비정상적인 스토리지 볼륨은 심각한 성능 저하를 유발하여 비용이 많이 드는 생산 지연으로 이어질 수 있습니다. 지연 시간 분석을 통해 워크로드에 영향을 미치기 전에 전체 스토리지 환경에서 운영 문제를 사전에 파악하고 해결하며 개선할 수 있습니다.

지연 시간 분석은 볼륨 읽기 및 쓰기 작업에 대한 CloudWatch 메트릭을 수집하고 모니터링합니다. 지정된 시간 범위 내의 모든 데이터 포인트에서 지연 시간 및 IOPS 임계값이 모두 초과되면 시스템은 지연 시간 이벤트 테이블에 표시되는 경고를 생성합니다.

지연 이벤트가 감지되면 시스템은 ONTAP QoS 지연 센터 메트릭을 사용하여 기본 분석을 자동으로 수행하여 지연 소스를 식별합니다.

이를 통해 다음을 수행할 수 있습니다.

  • 성능 저하가 발생하는 볼륨을 식별합니다.

  • 경고 수준과 심각 수준 성능 문제를 구분하십시오.

  • 지연 문제의 근본 원인을 자동으로 분석합니다.

  • 스토리지 구성을 최적화하기 위해 시간 경과에 따른 지연 시간 추세를 추적하십시오.

  • 지연 시간이 워크로드 성능에 영향을 미치기 전에 사전 조치를 취하십시오.

요구 사항

지연 시간 모니터링 및 분석 기능을 사용하려면 다음 요구 사항을 충족해야 합니다.

AWS 자격 증명 및 권한

Workload Factory에 읽기/쓰기 권한이 있는 AWS 자격 증명을 추가해야 합니다. 지연 시간 모니터링 기능을 사용하려면 AWS 자격 증명과 연결된 모든 FSx for ONTAP 볼륨에 대한 CloudWatch 메트릭에 액세스해야 합니다.

기본 모드 및 읽기 전용 모드 권한은 지연 시간 모니터링에 지원되지 않습니다.

AWS 자격 증명을 구성하지 않은 경우 "AWS 자격 증명 추가"을 참조하십시오.

ONTAP 파일 시스템용 FSx

AWS 환경에 볼륨이 배포된 FSx for ONTAP 파일 시스템이 하나 이상 필요합니다. 지연 시간 모니터링 기능은 구성된 AWS 자격 증명과 연결된 모든 볼륨에 대한 메트릭을 자동으로 수집합니다.

FSx for ONTAP에 연결

기본 분석에서 유용한 정보를 얻으려면 FSx for ONTAP 파일 시스템과 링크를 연결해야 합니다. 링크가 연결되어 있지 않은 경우 EDA에서 *링크 연결*을 선택하고 새 링크를 생성할지 또는 기존 링크를 연결할지 선택한 다음 *계속*을 선택하여 Storage workloads의 링크 생성 페이지로 자동 이동합니다.

링크를 생성하고 연결하는 방법에 대한 지침은 "링크 생성"을 참조하십시오.

알림 이해

지연 시간 분석 기능은 CloudWatch 알람을 사용하여 볼륨 성능을 모니터링합니다. 알림이 트리거되는 방식을 이해하면 적절한 임계값을 구성하고 결과를 해석하는 데 도움이 됩니다.

수집된 메트릭

이 시스템은 각 볼륨에 대해 다음과 같은 CloudWatch 지표를 수집합니다.

  • 읽기 지연 임계값: 1000 * m2/(m1+0.000001)로 계산되며, 여기서 m1 = DataReadOperations이고 m2 = DataReadOperationTime

  • 쓰기 지연 임계값: 1000 * m2/(m1+0.000001)로 계산됩니다. 여기서 m1 = DataWriteOperations이고 m2 = DataWriteOperationTime입니다

알림 트리거 조건

다음 조건이 모두 충족될 경우 알림이 트리거됩니다.

  • 해당 작업 유형(읽기 또는 쓰기)에 대한 지연 시간 임계값이 초과되었습니다.

  • 작업 유형에 대한 IOPS 임계값이 초과되었습니다.

  • 구성된 시간 범위 내의 모든 데이터 포인트에 대해 두 가지 조건 모두 지속됩니다.

예를 들어, 기본 경고 임계값을 사용하면 10분 동안 모든 데이터 포인트에 대해 읽기 지연 시간이 6ms를 초과하고 읽기 IOPS가 100ops/sec를 초과하는 경우에만 읽기 알림이 트리거됩니다.

이벤트 심각도

  • 경고 이벤트: 주의가 필요할 수 있는 지연 시간 증가를 나타냅니다.

  • 중요 이벤트: 즉각적인 조사가 필요한 심각한 지연 시간을 나타냅니다.

지연 시간 임계값 구성

적절한 지연 시간 임계값을 구성하면 볼륨에서 성능 문제가 발생할 때 시기적절한 알림을 받을 수 있습니다. 경고 및 심각 임계값을 설정하여 주의가 필요한 문제와 즉각적인 조치가 필요한 문제를 구분할 수 있으므로 스토리지 환경을 더욱 효과적으로 관리하고 성능 문제가 프로덕션 워크로드에 영향을 미치는 것을 방지할 수 있습니다.

경고 및 심각 이벤트에 대한 임계값을 구성할 수 있습니다. 각 이벤트 유형에는 읽기 및 쓰기 작업에 대한 별도의 임계값이 포함됩니다. 시스템은 이러한 임계값을 지속적으로 평가하고 조건이 충족되면 알림을 생성합니다.

참고 경고가 적절하게 전달되도록 하려면 중요 이벤트 임계값을 경고 이벤트 임계값보다 높게 설정해야 합니다. 그렇지 않으면 구성을 저장할 수 없습니다.
이 작업 정보

경고가 발생하려면 지정된 시간 범위 내의 모든 데이터 포인트에서 지연 시간 임계값과 IOPS 임계값이 모두 초과되어야 합니다. 이러한 이중 조건 논리는 높은 부하 상태에서도 높은 지연 시간이 유지되도록 함으로써 오탐을 줄이는 데 도움이 됩니다.

단계
  1. 다음 중 하나를 사용하여 로그인하세요. "콘솔 경험".

  2. 메뉴 햄버거 메뉴 아이콘를 선택한 다음 *EDA*를 선택하십시오.

  3. EDA 메뉴에서 *지연 시간*을 선택합니다.

  4. EDA 지연 시간 구성 페이지에서 다음 임계값을 구성하십시오.

    • 경고 이벤트

      • 읽기 지연 시간 임계값: 지연 시간 임계값을 밀리초 단위로 입력합니다. 기본값: 6ms입니다.

      • 읽기 IOPS 임계값: 초당 작업 수로 IOPS 임계값을 입력합니다. 기본값: 100ops/sec.

      • 읽기 시간 범위: 시간 범위를 분 단위(5-20)로 입력하세요. 기본값: 10분.

      • 쓰기 지연 시간 임계값: 지연 시간 임계값을 밀리초 단위로 입력하십시오. 기본값: 8ms.

      • 쓰기 IOPS 임계값: 초당 작업 수로 IOPS 임계값을 입력합니다. 기본값: 100 ops/sec.

      • 쓰기 시간 범위: 시간 범위를 분 단위로 입력합니다(5-20). 기본값: 10분.

    • 중요 이벤트

      • 읽기 지연 시간 임계값: 지연 시간 임계값을 밀리초 단위로 입력합니다. 기본값: 12ms.

      • 읽기 IOPS 임계값: 초당 작업 수로 IOPS 임계값을 입력합니다. 기본값: 100ops/sec.

      • 읽기 시간 범위: 시간 범위를 분 단위(5-20)로 입력하세요. 기본값: 10분.

      • 쓰기 지연 시간 임계값: 지연 시간 임계값을 밀리초 단위로 입력합니다. 기본값: 15ms.

      • 쓰기 IOPS 임계값: 초당 작업 수로 IOPS 임계값을 입력합니다. 기본값: 100 ops/sec.

      • 쓰기 시간 범위: 시간 범위를 분 단위로 입력합니다(5-20). 기본값: 10분.

  5. *적용*을 선택하세요.

결과

Workload Factory는 AWS 자격 증명과 연결된 모든 FSx for ONTAP 볼륨에 대한 지연 시간 메트릭 수집을 시작합니다. 메트릭은 최소 20분마다 수집됩니다. 지연 시간 이벤트 테이블에는 구성된 임계값을 초과하는 볼륨이 표시됩니다.

지연 이벤트 보기

여러 파일 시스템과 볼륨을 관리하는 관리자에게 지연 이벤트 테이블은 주의가 필요한 모든 성능 문제를 중앙에서 파악할 수 있는 기능을 제공합니다. 이 테이블에는 지난 72시간 동안 감지된 모든 경고 및 심각 이벤트가 표시됩니다. 각 이벤트의 세부 정보 열에는 자동화된 기본 분석 결과가 포함되어 있어 지연 문제의 근본 원인을 신속하게 파악하고 시스템 전체에 걸쳐 해결 노력을 우선순위화하는 데 도움이 됩니다.

  • 각 볼륨에 대한 최신 위반만 표에 표시됩니다. 볼륨에 여러 번의 위반이 발생한 경우 가장 최근 이벤트만 표시됩니다.

  • 이벤트는 72시간 후 자동으로 제거됩니다.

  • 이 표에는 최대 200개의 이벤트가 표시됩니다. 새 이벤트가 추가되면 오래된 이벤트는 삭제됩니다.

단계
  1. 지연 시간 탭에서 지연 시간 이벤트 테이블을 확인합니다.

  2. 다음을 포함한 각 이벤트에 대한 정보를 검토하십시오.

    • 심각도: 이벤트가 Critical인지 Warning인지 여부를 나타냅니다.

    • 볼륨 이름: 영향을 받는 볼륨의 이름입니다.

    • 볼륨 ID: 영향을 받는 볼륨의 ID입니다.

    • 파일 시스템: 볼륨이 포함된 FSx for ONTAP 파일 시스템입니다.

    • 탐지 시간: 침해가 탐지된 시간

    • 중앙값 지연 시간: 위반 기간 동안의 중앙값 지연 시간 값입니다.

    • 세부 정보: 지연 시간 소스를 식별하고 권장 조치를 제공하는 자동화된 기본 분석 결과입니다.

  3. 테이블을 정렬하려면 열 머리글을 선택합니다. 기본적으로 중요 이벤트가 시간별로 정렬되어 먼저 표시되고 그 다음 경고 이벤트가 시간별로 정렬되어 표시됩니다.

  4. 하나 이상의 이벤트를 해제하려면 각 이벤트 옆에 있는 *Dismiss*를 선택하십시오.

  5. 표에 열을 추가하려면 열 아이콘을 선택하고 열을 선택한 다음 *적용*을 선택합니다.

기본 분석 이해

기본 분석을 통해 수동 조사 없이 지연 문제의 근본 원인을 신속하게 파악할 수 있습니다. 지연 이벤트가 감지되면 Workload Factory는 ONTAP QoS 지연 센터 메트릭을 사용하여 기본 분석을 자동으로 수행합니다. 이 분석은 지연을 유발하는 구성 요소를 식별하고 지연 이벤트 테이블의 세부 정보 열에 실행 가능한 지침을 제공하여 근본 원인을 이해할 수 있도록 지원합니다.

참고 ONTAP QoS 분석과 CloudWatch 데이터의 지연 시간 값은 데이터 수집 방식의 차이로 인해 약간의 차이가 있을 수 있습니다. 기본 분석에서는 근본 원인 파악을 위해 ONTAP 데이터를 사용합니다.

분석 시나리오

기본 분석은 여러 지연 시간 구성 요소를 평가하고 각 시나리오에 대한 결과를 바탕으로 구체적인 지침을 제공합니다.

  • Flexcache: FlexCache 작업의 I/O 작업당 지연 시간

  • 용량 풀: 용량 풀 작업에 대한 I/O 작업당 지연 시간

  • QoS min: QoS Policy Group Floor에 대한 I/O 작업당 지연 시간

  • QoS max: QoS 정책 그룹 상한에 대한 I/O 작업당 지연 시간

  • 디스크: 스토리지 하위 시스템의 I/O 작업당 지연 시간

  • 데이터: WAFL 하위 시스템 파일 시스템의 I/O 작업당 지연 시간(CPU 처리, 메타데이터 업데이트 및 캐시 관리와 같은 작업 포함)

  • 클러스터: 클러스터 내 내부적으로 연결된 노드 간 I/O 작업당 지연 시간

  • 기타: FSx for ONTAP 하위 시스템의 I/O 작업당 지연 시간

지연 시간 구성 관리

초기 구성 후 임계값을 편집할 수 있습니다.

단계
  1. 지연 시간 페이지에서 *편집*을 선택합니다.

  2. 필요에 따라 임계값을 수정하십시오.

    참고 중요 임계값은 경고 임계값보다 높게 유지해야 합니다. 중요 임계값을 경고 임계값보다 낮게 구성하면 시스템에서 오류가 표시됩니다.
  3. 변경 사항을 저장하려면 *적용*을 선택합니다.

모범 사례

지연 시간 분석을 구성하고 사용할 때 다음 권장 사항을 고려하십시오:

  • 현실적인 임계값 설정: 워크로드 요구 사항에 따라 임계값을 구성하십시오. 기본값은 시작점을 제공하지만 특정 환경에 맞게 조정이 필요할 수 있습니다.

  • 경고 임계값부터 시작하세요: 경고 이벤트를 사용하여 중요 임계값을 미세 조정하기 전에 기준 성능 기대치를 설정하십시오.

  • 시간 범위를 신중하게 고려하십시오: 짧은 시간 범위(5~10분)는 문제를 더 빨리 감지하지만 알림 수가 더 많이 발생할 수 있습니다. 긴 시간 범위(15~20분)는 오탐을 줄이지만 감지가 지연될 수 있습니다.

  • 추세 모니터링: 지연 시간 이벤트 테이블을 정기적으로 검토하여 근본적인 구성 문제를 나타낼 수 있는 패턴이나 반복되는 문제를 식별하십시오.

  • IOPS 및 지연 시간 임계값 조정: 이중 조건 논리는 두 가지 모두 초과해야 함을 의미합니다. IOPS 임계값을 너무 높게 설정하면 지연 시간이 문제가 되더라도 알림이 발생하지 않을 수 있습니다.

  • 기각된 이벤트 검토: 이벤트가 기각된 이유를 주기적으로 검토하여 임계값 조정 또는 인프라 개선 기회를 파악합니다.