EDA용 Workload Factory의 지연 시간 모니터링에 대해 알아보십시오
Workload Factory for EDA의 지연 시간 모니터링 기능을 사용하면 FSx for ONTAP 볼륨의 성능 병목 현상을 사전에 파악하고 해결할 수 있습니다. 이 시스템은 CloudWatch 메트릭을 사용하여 읽기 및 쓰기 지연 시간을 모니터링하고 자동화된 분석을 제공하여 성능 문제의 근본 원인을 파악할 수 있도록 지원합니다.
지연 시간 모니터링 작동 방식
지연 시간 분석은 AWS 자격 증명과 연결된 모든 FSx for ONTAP 볼륨에 대한 읽기 및 쓰기 작업에 대한 CloudWatch 지표를 수집합니다. 시스템은 구성 가능한 임계값을 기준으로 이러한 지표를 지속적으로 평가하여 성능 문제를 조기에 감지합니다.
지연 이벤트가 감지되면 Workload Factory는 ONTAP QoS 지연 센터 메트릭을 사용하여 기본 분석을 자동으로 수행하여 주요 지연 원인을 식별합니다. 데이터 또는 클러스터 구성 요소와 관련된 더 복잡한 시나리오의 경우, 선택적으로 AI 에이전트 분석을 실행하여 자세한 근본 원인 설명, 영향을 받는 클라이언트 목록 및 구체적인 해결 단계를 확인할 수 있습니다.
경고 생성
설정된 시간 범위 내의 모든 데이터 포인트에 대해 지연 시간 임계값과 IOPS 임계값이 모두 초과될 경우 경고가 생성됩니다. 이러한 이중 조건 접근 방식은 실제 부하 상태에서도 높은 지연 시간이 유지되도록 함으로써 오탐을 줄입니다.
다음에 대해 별도의 임계값을 구성할 수 있습니다.
-
읽기 작업
-
쓰기 작업
-
경고 심각도
-
심각도
감지된 모든 이벤트는 지연 이벤트 테이블에 표시되며, 알림을 구성한 경우 영향을 받는 볼륨에 대한 세부 정보가 포함된 이메일 또는 Amazon SNS 알림을 받게 됩니다.
알림 이해
알림이 트리거되는 방식을 이해하면 적절한 임계값을 구성하고 결과를 해석하는 데 도움이 됩니다.
수집된 메트릭
이 시스템은 각 볼륨에 대해 다음과 같은 CloudWatch 지표를 수집합니다.
-
읽기 지연 임계값: 1000 * m2/(m1+0.000001)로 계산되며, 여기서 m1 = DataReadOperations이고 m2 = DataReadOperationTime
-
쓰기 지연 임계값: 1000 * m2/(m1+0.000001)로 계산됩니다. 여기서 m1 = DataWriteOperations이고 m2 = DataWriteOperationTime입니다
알림 트리거 조건
다음 조건이 모두 충족될 경우 알림이 트리거됩니다.
-
해당 작업 유형(읽기 또는 쓰기)에 대한 지연 시간 임계값이 초과되었습니다.
-
작업 유형에 대한 IOPS 임계값이 초과되었습니다.
-
구성된 시간 범위 내의 모든 데이터 포인트에 대해 두 가지 조건 모두 지속됩니다.
예를 들어, 기본 경고 임계값을 사용하면 10분 동안 모든 데이터 포인트에 대해 읽기 지연 시간이 6ms를 초과하고 읽기 IOPS가 100ops/sec를 초과하는 경우에만 읽기 알림이 트리거됩니다.
이벤트 심각도
-
경고 이벤트: 주의가 필요할 수 있는 지연 시간 증가를 나타냅니다
-
중요 이벤트: 즉각적인 조사가 필요한 심각한 지연 현상을 나타냅니다.
지연 시간 분석
Workload Factory는 지연 시간 문제를 해결하는 데 도움이 되는 두 가지 수준의 분석을 제공합니다.
기본 분석
지연 이벤트가 감지되면 Workload Factory는 ONTAP QoS 지연 센터 메트릭을 사용하여 기본 분석을 자동으로 실행하고 지연을 유발하는 구성 요소(예: FlexCache, 용량 풀, QoS 제한, 디스크, 데이터, 클러스터 또는 기타 하위 시스템)를 식별합니다. 이 분석을 통해 수동 조사 없이 지연 원인을 신속하게 파악할 수 있습니다.
FSx for ONTAP 파일 시스템과 링크를 연결한 경우 모든 지연 이벤트에 대한 기본 분석을 사용할 수 있습니다. 링크가 없는 경우에도 이벤트는 감지되지만 분석에서 제공하는 정보는 제한적입니다.
|
|
ONTAP QoS 분석과 CloudWatch 데이터의 지연 시간 값은 데이터 수집 방식의 차이로 인해 약간의 차이가 있을 수 있습니다. 기본 분석에서는 근본 원인 파악을 위해 ONTAP 데이터를 사용합니다. |
AI 에이전트 분석
기본 분석을 통해 지연 원인을 파악할 수 있지만, 데이터나 클러스터 구성 요소와 관련된 복잡한 시나리오에서는 심층적인 조사가 필요한 경우가 많습니다. AI 에이전트 분석은 기본 분석으로는 감지할 수 없는 bully 볼륨, 최적화되지 않은 구성 또는 스케일 아웃 요구 사항과 같은 문제를 식별하여 이러한 심층적인 문제 해결 수준을 제공합니다.
AI 에이전트 분석을 실행하면 시스템에서 다음과 같은 정보를 제공합니다.
-
잠재적 근본 원인: 지연 문제의 원인에 대한 자세한 설명
-
영향을 받는 클라이언트: 지연 현상의 영향을 받는 EC2 인스턴스 이름 목록
-
잠재적 해결 단계: 문제를 해결하기 위한 두 가지 이상의 구체적인 조치
AI 에이전트 분석을 위해서는 Workload Factory 설정에 Amazon Bedrock 모델 ARN이 구성되어 있어야 합니다. Bedrock이 구성되어 있지 않더라도 지연 시간 모니터링 및 자동화된 기본 분석은 사용할 수 있습니다.