본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

EDA용 Workload Factory의 지연 시간 모니터링에 대해 알아보십시오

07/16/2026 기여자

Workload Factory for EDA의 지연 시간 모니터링 기능을 사용하면 FSx for ONTAP 볼륨의 성능 저하 원인을 찾아 해결할 수 있습니다. CloudWatch 메트릭을 사용하여 읽기 및 쓰기 지연 시간을 추적하고 데이터를 자동으로 분석하여 성능 문제의 원인을 파악하는 데 도움을 줍니다.

지연 시간 모니터링 작동 방식

지연 시간 분석은 AWS 계정에 연결된 모든 FSx for ONTAP 볼륨의 읽기 및 쓰기 활동에 대한 CloudWatch 메트릭을 수집합니다. 정의된 제한값과 이러한 메트릭을 지속적으로 비교하여 성능 문제를 조기에 감지합니다.

지연 시간이 증가하면 Workload Factory는 ONTAP QoS 지연 메트릭을 자동으로 검토하여 속도 저하의 주요 원인을 파악합니다. 데이터 또는 클러스터 구성 요소와 관련된 더 복잡한 문제의 경우, 선택적 AI 분석을 실행하여 근본 원인을 파악하고 영향을 받는 클라이언트를 식별하며 문제 해결 단계를 제안할 수 있습니다.

경고 생성

경고는 선택한 전체 시간 범위 동안 다음 두 조건이 모두 충족될 때만 발생합니다. 즉, 지연 시간이 임계값 이상으로 유지되고 IOPS가 임계값 이상으로 유지되는 경우입니다. 두 조건을 모두 충족하도록 요구함으로써 시스템이 실제 작업 부하를 처리하는 동안 높은 지연 시간이 발생하도록 하여 오경보를 줄입니다.

다음에 대해 별도의 임계값을 구성할 수 있습니다.

읽기 작업
쓰기 작업
경고 심각도
심각도

감지된 모든 이벤트는 지연 이벤트 테이블에 표시됩니다. 알림이 설정된 경우, 영향을 받는 볼륨에 대한 세부 정보가 포함된 이메일 또는 Amazon SNS 메시지도 수신하게 됩니다. 알림 수신 빈도는 파일 시스템별로 매일 또는 20분마다 설정할 수 있습니다.

알림 이해

알림이 트리거되는 방식을 이해하면 적절한 임계값을 구성하고 결과를 해석하는 데 도움이 됩니다.

수집된 메트릭

이 시스템은 각 볼륨에 대해 다음과 같은 CloudWatch 지표를 수집합니다.

읽기 지연 임계값: 1000 * m2/(m1+0.000001)로 계산되며, 여기서 m1 = DataReadOperations이고 m2 = DataReadOperationTime
쓰기 지연 임계값: 1000 * m2/(m1+0.000001)로 계산됩니다. 여기서 m1 = DataWriteOperations이고 m2 = DataWriteOperationTime입니다

알림 트리거 조건

다음 조건이 모두 충족될 경우 알림이 트리거됩니다.

해당 작업 유형(읽기 또는 쓰기)에 대한 지연 시간 임계값이 초과되었습니다.
작업 유형에 대한 IOPS 임계값이 초과되었습니다.
구성된 시간 범위 내의 모든 데이터 포인트에 대해 두 가지 조건 모두 지속됩니다.

예를 들어, 기본 경고 임계값을 사용하면 10분 동안 모든 데이터 포인트에 대해 읽기 지연 시간이 6ms를 초과하고 읽기 IOPS가 100ops/sec를 초과하는 경우에만 읽기 알림이 트리거됩니다.

이벤트 심각도

경고 이벤트: 주의가 필요할 수 있는 지연 시간 증가를 나타냅니다
중요 이벤트: 즉각적인 조사가 필요한 심각한 지연 현상을 나타냅니다.

지연 시간 분석

Workload Factory는 지연 시간 문제를 해결하는 데 도움이 되는 두 가지 수준의 분석을 제공합니다.

기본 분석

지연 이벤트가 발생하면 Workload Factory는 자동으로 기본 분석을 실행하여 원인을 파악합니다. ONTAP QoS 지연 센터 메트릭을 사용하여 FlexCache, 용량 풀, QoS 제한, 디스크, 데이터, 클러스터 또는 기타 하위 시스템과 같은 구성 요소 중 어떤 것이 속도 저하의 원인인지 확인합니다. 이를 통해 수동 조사 없이 지연의 원인을 신속하게 식별할 수 있습니다.

FSx for ONTAP 파일 시스템에 링크가 연결된 경우에만 구성 요소 분석을 볼 수 있습니다. 링크가 없는 경우에도 지연 시간, IOPS 및 처리량 그래프는 볼 수 있습니다.

ONTAP QoS 분석과 CloudWatch의 지연 시간 값은 데이터 수집 방식이 다르기 때문에 약간의 차이가 있을 수 있습니다. 기본 분석에서는 ONTAP 데이터를 사용하여 근본 원인을 파악합니다.

AI 분석

기본 분석을 통해 지연의 원인을 파악할 수 있지만, 데이터나 클러스터 구성 요소와 관련된 더 복잡한 상황에서는 심층적인 조사가 필요한 경우가 많습니다. AI 분석은 과부하된 볼륨, 잘못된 구성, 또는 용량 추가 필요성 등 기본 분석에서는 놓칠 수 있는 문제를 찾아내어 이러한 심층적인 문제 해결을 지원합니다.

AI 분석을 실행하면 시스템에서 다음과 같은 정보를 제공합니다.

잠재적 근본 원인: 지연 문제의 원인에 대한 자세한 설명
영향을 받는 클라이언트: 지연 현상의 영향을 받는 EC2 인스턴스 이름 목록
잠재적 해결 단계: 문제를 해결하기 위한 두 가지 이상의 구체적인 조치

AI 분석을 위해서는 Workload Factory 설정에 Amazon Bedrock 모델 ARN이 필요합니다. Bedrock이 설정되어 있지 않더라도 지연 시간 모니터링 및 기본 자동 분석은 사용할 수 있습니다.