Skip to main content
본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

EDA 워크로드에서 볼륨 지연 시간 모니터링

기여자 netapp-sineadd

EDA 워크로드를 관리하는 IT 관리자 또는 DevOps 엔지니어는 지연 시간 분석을 사용하여 FSx for ONTAP 볼륨 읽기 및 쓰기 지연 시간을 모니터링할 수 있습니다. 경고 및 심각 임계값을 구성하여 성능 문제를 조기에 감지할 수 있습니다. 이벤트가 발생하면 Workload Factory에서 자동화된 기본 분석을 제공하며, 선택적으로 AI 에이전트 분석을 실행하여 근본 원인 세부 정보, 영향을 받는 클라이언트 및 권장 해결 단계를 확인할 수 있습니다.

개요

지연 시간 분석은 AWS 자격 증명과 연결된 모든 FSx for ONTAP 볼륨의 읽기 및 쓰기 작업에 대한 CloudWatch 메트릭을 수집합니다. 구성된 시간 범위 내의 모든 데이터 포인트에 대해 지연 시간 임계값과 IOPS 임계값이 모두 초과되면 경고가 생성됩니다. 이러한 이중 조건 논리는 실제 부하 상태에서도 높은 지연 시간이 유지되도록 함으로써 오탐을 줄입니다.

이벤트가 감지되면 Workload Factory는 ONTAP QoS 지연 센터 메트릭을 사용하여 기본 분석을 실행하고 주요 지연 원인(예: FlexCache, 용량 풀, QoS 제한, 디스크, 데이터, 클러스터 또는 기타 서브시스템)을 식별합니다.

데이터 및 클러스터 시나리오의 경우, 지연 시간 분석 패널에서 AI 에이전트 분석을 선택적으로 호출하여 자세한 근본 원인 설명, 영향을 받는 EC2 클라이언트 목록 및 권장 해결 단계를 확인할 수 있습니다.

요구 사항

지연 시간 모니터링 및 분석 기능을 사용하려면 다음 요구 사항을 충족해야 합니다.

AWS 자격 증명 및 권한

Workload Factory에 읽기/쓰기 권한이 있는 AWS 자격 증명을 추가해야 합니다. 지연 시간 모니터링 기능을 사용하려면 AWS 자격 증명과 연결된 모든 FSx for ONTAP 볼륨에 대한 CloudWatch 메트릭에 액세스해야 합니다.

Basic 모드 및 Read-only 모드 권한은 지연 시간 모니터링에 지원되지 않습니다.

AWS 자격 증명을 구성하지 않은 경우 "AWS 자격 증명 추가"을 참조하십시오.

ONTAP 파일 시스템용 FSx

AWS 환경에 볼륨이 배포된 FSx for ONTAP 파일 시스템이 하나 이상 필요합니다. 지연 시간 모니터링 기능은 구성된 AWS 자격 증명과 연결된 모든 볼륨에 대한 메트릭을 자동으로 수집합니다.

FSx for ONTAP에 연결

지연 시간 이벤트 테이블 및 분석 패널에서 기본 분석 정보를 확인하려면 FSx for ONTAP 파일 시스템과 링크를 연결해야 합니다. 링크가 없으면 이벤트는 감지되지만 분석에서 제공하는 정보는 제한적입니다. 링크가 연결되어 있지 않은 경우 EDA에서 *링크 연결*을 선택하고 새 링크를 생성할지 또는 기존 링크를 연결할지 선택한 다음 *계속*을 선택하여 스토리지 워크로드의 링크 생성 페이지로 자동 이동하십시오.

링크를 생성하고 연결하는 방법에 대한 지침은 "링크 생성"을 참조하십시오.

Amazon Bedrock 모델 ARN(선택 사항)

선택적 AI 에이전트 분석 기능을 사용하려면 Workload Factory 설정에서 Amazon Bedrock 모델 ARN을 제공해야 합니다.

자세한 내용은 "기본 GenAI 요구 사항"을 참조하십시오.

Bedrock 모델 ARN을 구성하지 않더라도 지연 시간 모니터링 및 자동화된 기본 분석은 계속 사용할 수 있습니다. AI 에이전트 분석은 사용할 수 없습니다.

알림 이해

지연 시간 분석 기능은 CloudWatch 알람을 사용하여 볼륨 성능을 모니터링합니다. 알림이 트리거되는 방식을 이해하면 적절한 임계값을 구성하고 결과를 해석하는 데 도움이 됩니다.

수집된 메트릭

이 시스템은 각 볼륨에 대해 다음과 같은 CloudWatch 지표를 수집합니다.

  • 읽기 지연 임계값: 1000 * m2/(m1+0.000001)로 계산되며, 여기서 m1 = DataReadOperations이고 m2 = DataReadOperationTime

  • 쓰기 지연 임계값: 1000 * m2/(m1+0.000001)로 계산됩니다. 여기서 m1 = DataWriteOperations이고 m2 = DataWriteOperationTime입니다

알림 트리거 조건

다음 조건이 모두 충족될 경우 알림이 트리거됩니다.

  • 해당 작업 유형(읽기 또는 쓰기)에 대한 지연 시간 임계값이 초과되었습니다.

  • 작업 유형에 대한 IOPS 임계값이 초과되었습니다.

  • 구성된 시간 범위 내의 모든 데이터 포인트에 대해 두 가지 조건 모두 지속됩니다.

예를 들어, 기본 경고 임계값을 사용하면 10분 동안 모든 데이터 포인트에 대해 읽기 지연 시간이 6ms를 초과하고 읽기 IOPS가 100ops/sec를 초과하는 경우에만 읽기 알림이 트리거됩니다.

이벤트 심각도

  • 경고 이벤트: 주의가 필요할 수 있는 지연 시간 증가를 나타냅니다

  • 중요 이벤트: 즉각적인 조사가 필요한 심각한 지연 현상을 나타냅니다.

지연 시간 임계값 구성

읽기 및 쓰기 작업에 대한 경고 및 위험 임계값을 구성하십시오. 시스템은 임계값을 지속적으로 평가하고 조건이 충족되면 알림을 생성합니다.

참고 경고가 적절하게 전달되도록 하려면 중요 이벤트 임계값을 경고 이벤트 임계값보다 높게 설정해야 합니다. 그렇지 않으면 구성을 저장할 수 없습니다.
단계
  1. 다음 중 하나를 사용하여 로그인하세요. "콘솔 경험".

  2. 메뉴 햄버거 메뉴 아이콘를 선택한 다음 *EDA*를 선택하십시오.

  3. 지연 시간 탭을 선택합니다.

  4. EDA 지연 시간 구성 페이지에서 다음 임계값을 구성하십시오.

    • 경고 이벤트

      • 읽기 지연 시간 임계값: 지연 시간 임계값을 밀리초 단위로 입력합니다. 기본값: 6ms입니다.

      • 읽기 IOPS 임계값: 초당 작업 수로 IOPS 임계값을 입력합니다. 기본값: 100ops/sec.

      • 읽기 시간 범위: 시간 범위를 분 단위(5-20)로 입력하세요. 기본값: 10분.

      • 쓰기 지연 시간 임계값: 지연 시간 임계값을 밀리초 단위로 입력하십시오. 기본값: 8ms.

      • 쓰기 IOPS 임계값: 초당 작업 수로 IOPS 임계값을 입력합니다. 기본값: 100 ops/sec.

      • 쓰기 시간 범위: 시간 범위를 분 단위로 입력합니다(5-20). 기본값: 10분.

    • 중요 이벤트

      • 읽기 지연 시간 임계값: 지연 시간 임계값을 밀리초 단위로 입력합니다. 기본값: 12ms.

      • 읽기 IOPS 임계값: 초당 작업 수로 IOPS 임계값을 입력합니다. 기본값: 100ops/sec.

      • 읽기 시간 범위: 시간 범위를 분 단위(5-20)로 입력하세요. 기본값: 10분.

      • 쓰기 지연 시간 임계값: 지연 시간 임계값을 밀리초 단위로 입력합니다. 기본값: 15ms.

      • 쓰기 IOPS 임계값: 초당 작업 수로 IOPS 임계값을 입력합니다. 기본값: 100 ops/sec.

      • 쓰기 시간 범위: 시간 범위를 분 단위로 입력합니다(5-20). 기본값: 10분.

  5. *적용*을 선택하세요.

결과

Workload Factory는 AWS 자격 증명과 연결된 모든 FSx for ONTAP 볼륨에 대한 지연 시간 메트릭 수집을 시작합니다. 메트릭은 최소 20분마다 수집됩니다. 지연 시간 이벤트 테이블에는 구성된 임계값을 초과하는 볼륨이 표시됩니다.

지연 이벤트 보기

지연 이벤트 테이블은 지난 72시간 동안 감지된 모든 경고 및 위험 이벤트에 대한 중앙 집중식 보기를 제공합니다.

  • 각 볼륨에 대한 최신 위반만 표에 표시됩니다. 볼륨에 여러 번의 위반이 발생한 경우 가장 최근 이벤트만 표시됩니다.

  • 이벤트는 72시간 후 자동으로 제거됩니다.

  • 이 표에는 최대 200개의 이벤트가 표시됩니다. 새 이벤트가 추가되면 오래된 이벤트는 삭제됩니다.

  • 파일 시스템과 연결된 링크가 없더라도 이벤트가 표에 표시됩니다. 기본 분석 세부 정보를 보고 AI 에이전트 분석을 실행하려면 링크가 필요합니다.

단계
  1. 지연 시간 탭에서 지연 시간 이벤트 테이블을 확인합니다.

  2. 다음을 포함한 각 이벤트에 대한 정보를 검토하십시오.

    • 심각도: 이벤트가 Critical인지 Warning인지 여부를 나타냅니다

    • 볼륨 이름: 영향을 받는 볼륨의 이름

    • 볼륨 ID: 영향을 받는 볼륨의 ID

    • 파일 시스템: 볼륨을 포함하는 FSx for ONTAP 파일 시스템

    • 중앙값 지연 시간(ms): 침해 기간 동안의 중앙값 지연 시간 값

    • 임계값 초과 비율: 지연 시간이 구성된 임계값을 초과한 비율(%)

    • 탐지 시간: 침해가 탐지된 시간

  3. 지연 이벤트에 대한 세부 정보를 보려면 지연 이벤트 테이블의 심각도 열에서 해당 이벤트를 선택하십시오. 그러면 해당 이벤트에 대한 지연 분석 패널이 열립니다.

  4. 테이블을 정렬하려면 열 머리글을 선택합니다. 기본적으로 중요 이벤트가 시간별로 정렬되어 먼저 표시되고 그 다음 경고 이벤트가 시간별로 정렬되어 표시됩니다.

  5. 하나 이상의 이벤트를 해제하려면 각 이벤트 옆에 있는 작업 메뉴 아이콘 *해제*를 선택합니다.

  6. 표에 열을 추가하려면 열 아이콘을(를) 선택하고 열을 선택한 다음 * 적용 * 을 선택합니다.

기본 분석 이해

기본 분석을 통해 수동 조사 없이 지연 문제의 근본 원인을 신속하게 파악할 수 있습니다. 지연 이벤트가 감지되면 Workload Factory는 ONTAP QoS 지연 센터 메트릭을 사용하여 자동으로 기본 분석을 수행합니다. 이 분석은 지연을 유발하는 구성 요소를 식별하고 지연 분석 패널에 간략한 설명을 제공합니다.

참고 ONTAP QoS 분석과 CloudWatch 데이터의 지연 시간 값은 데이터 수집 방식의 차이로 인해 약간의 차이가 있을 수 있습니다. 기본 분석에서는 근본 원인 파악을 위해 ONTAP 데이터를 사용합니다.

지연 시간 분석 패널

지연 이벤트 표의 심각도 열에서 지연 이벤트를 선택하면 해당 이벤트에 대한 지연 분석 패널이 열립니다.

  • FlexCache: FlexCache 작업으로 인한 지연 시간

  • 용량 풀: 용량 풀 작업의 지연 시간

  • QoS min: QoS 정책 그룹 하한값에 따른 지연 시간

  • QoS max: QoS 정책 그룹 상한 제한으로 인한 지연 시간

  • 디스크: 스토리지 서브시스템의 지연 시간

  • 데이터: CPU 처리, 메타데이터 업데이트 및 캐시 관리를 포함한 WAFL 서브시스템의 지연 시간

  • Cluster: 내부적으로 연결된 노드 간의 지연 시간

  • 기타: NVRAM 및 네트워크와 같은 다른 스토리지 서브시스템으로 인한 지연 시간

Amazon Bedrock 모델 ARN이 구성된 경우 패널에는 데이터 및 클러스터 시나리오에 대한 AI 에이전트 분석을 실행하는 옵션도 포함됩니다. Bedrock이 구성되지 않은 경우 패널에는 특정 파일 시스템에 대한 스토리지 워크로드 구성 페이지 링크가 표시되며, 여기에서 Bedrock 액세스를 구성할 수 있습니다.

AI 에이전트 분석 실행

기본 분석을 통해 지연 원인을 파악할 수 있지만, 데이터 또는 클러스터 구성 요소와 관련된 복잡한 시나리오에서는 구체적인 근본 원인과 해결 방안을 파악하기 위해 심층적인 조사가 필요한 경우가 많습니다. AI 에이전트 분석은 기본 분석으로는 감지할 수 없는 bully 볼륨, 최적화되지 않은 구성 또는 스케일 아웃 요구 사항과 같은 문제를 식별하여 이러한 심층적인 문제 해결을 지원합니다.

시작하기 전에

Workload Factory 설정에서 Amazon Bedrock 모델 ARN을 구성해야 합니다.

이 작업 정보

AI 에이전트 분석을 실행하면 시스템이 기본 분석 데이터를 자동으로 갱신하고 이를 AI 에이전트의 입력으로 사용합니다. AI 에이전트는 지연 시나리오를 평가하고 다음과 같은 결과를 제공합니다:

  • 잠재적 근본 원인: 지연 문제의 원인에 대한 자세한 설명

  • 영향을 받는 클라이언트: 지연 현상의 영향을 받는 EC2 인스턴스 이름 목록

  • 잠재적 해결 단계: 문제를 해결하기 위한 두 가지 이상의 구체적인 조치

AI 에이전트는 다음과 같은 시나리오를 식별하기 위해 기본 분석 지침을 따릅니다.

  • 과도한 리소스를 소비하는 Bully 볼륨(데이터 지연의 경우)

  • 최적화되지 않은 마운트 포인트 구성(클러스터 지연의 경우)

  • FlexGroup 리밸런싱 요구 사항(클러스터 지연 관련)

  • 확장 요구 사항(클러스터 지연의 경우)

단계
  1. 지연 시간 탭에서 분석하려는 이벤트를 찾습니다.

  2. 지연 이벤트 테이블의 심각도 열에서 지연 이벤트를 선택하여 해당 이벤트에 대한 분석 패널을 엽니다.

    파일 시스템에 연결된 링크가 없는 경우, 해당 파일 시스템에 링크를 연결하라는 메시지가 표시됩니다. 메시지를 선택하면 해당 파일 시스템의 링크 설정 페이지로 이동합니다. 툴팁에는 리디렉션에 대한 설명과 함께 링크를 연결하고 Bedrock 액세스를 구성(권장)하면 전체 이벤트 분석이 가능하다는 내용이 표시됩니다.

  3. 분석 패널에서 기본 분석 결과를 검토하여 지연 원인을 파악하십시오.

  4. 지연 시간 소스가 데이터 또는 클러스터로 식별되면 *분석*을 선택합니다.

  5. AI 에이전트 분석 결과를 검토하십시오. 분석 결과에는 다음 내용이 포함됩니다.

    • 근본 원인 설명

    • 영향을 받는 EC2 클라이언트 목록

    • 잠재적 개선 조치

  6. 지연 문제를 해결하기 위해 권장되는 개선 조치를 실행하십시오.

  7. 문제 해결 후 지연 시간 이벤트 테이블을 모니터링하여 문제가 해결되었는지 확인하십시오.

지연 시간 구성 관리

초기 구성 후 임계값을 편집할 수 있습니다.

단계
  1. 지연 시간 페이지에서 *편집*을 선택합니다.

  2. 필요에 따라 임계값을 수정하십시오.

    참고 중요 임계값은 경고 임계값보다 높게 유지해야 합니다. 중요 임계값을 경고 임계값보다 낮게 구성하면 시스템에서 오류가 표시됩니다.
  3. 변경 사항을 저장하려면 *적용*을 선택합니다.

모범 사례

지연 시간 분석을 구성하고 사용할 때 다음 권장 사항을 고려하십시오:

  • 현실적인 임계값 설정: 워크로드 요구 사항에 따라 임계값을 구성하십시오. 기본값은 시작점을 제공하지만 특정 환경에 맞게 조정이 필요할 수 있습니다.

  • 경고 임계값부터 시작하세요: 경고 이벤트를 사용하여 중요 임계값을 미세 조정하기 전에 기준 성능 기대치를 설정하십시오.

  • 시간 범위를 신중하게 고려하십시오: 짧은 시간 범위(5~10분)는 문제를 더 빨리 감지하지만 알림 수가 더 많이 발생할 수 있습니다. 긴 시간 범위(15~20분)는 오탐을 줄이지만 감지가 지연될 수 있습니다.

  • 추세 모니터링: 지연 시간 이벤트 테이블을 정기적으로 검토하여 근본적인 구성 문제를 나타낼 수 있는 패턴이나 반복되는 문제를 식별하십시오.

  • IOPS 및 지연 시간 임계값 조정: 이중 조건 논리는 두 가지 모두 초과해야 함을 의미합니다. IOPS 임계값을 너무 높게 설정하면 지연 시간이 문제가 되더라도 알림이 발생하지 않을 수 있습니다.

  • 기각된 이벤트 검토: 이벤트가 기각된 이유를 주기적으로 검토하여 임계값 조정 또는 인프라 개선 기회를 파악합니다.

  • AI 에이전트 분석을 전략적으로 활용하세요: 기본 분석에서 AI 에이전트 분석이 필요하다고 판단되는 데이터 및 클러스터 시나리오에 대해 분석을 실행하세요. AI 에이전트 분석은 상세한 문제 해결이 필요한 복잡한 성능 문제에 대한 심층적인 통찰력을 제공합니다.