EDA용 Workload Factory에서 지연 시간 문제 분석
감지된 지연 이벤트를 확인하고 자동화된 분석 도구를 사용하여 FSx for ONTAP 볼륨의 성능 병목 현상의 근본 원인을 파악하고 해결하십시오.
시작하기 전에
지연 시간 이벤트를 보고 분석하려면 먼저 "구성된 지연 시간 모니터링"이(가) 있어야 합니다.
지연 이벤트 보기
지연 이벤트 테이블은 지난 72시간 동안 감지된 모든 경고 및 위험 이벤트에 대한 중앙 집중식 보기를 제공합니다.
-
각 볼륨에 대해 가장 최근에 발생한 침해 사고만 표시됩니다. 한 볼륨에서 여러 번 침해 사고가 발생한 경우에도 가장 최근의 사고만 표시됩니다.
-
이벤트는 72시간 후 자동으로 제거됩니다.
-
최대 200개의 이벤트가 표시됩니다. 새로운 이벤트가 추가되면 오래된 이벤트는 삭제됩니다.
-
파일 시스템에 연결된 링크가 없더라도 이벤트가 표시됩니다. 기본 분석 세부 정보를 보고 AI 에이전트 분석을 실행하려면 링크가 필요합니다.
-
다음 중 하나를 사용하여 로그인하세요. "콘솔 경험".
-
메뉴
를 선택한 다음 *EDA*를 선택하십시오. -
지연 시간 탭을 선택합니다.
-
지연 이벤트 표에서 각 이벤트에 대한 정보를 검토하십시오.
-
지연 이벤트에 대한 세부 정보를 보려면 심각도 열에서 해당 이벤트를 선택하십시오. 그러면 해당 이벤트에 대한 지연 분석 패널이 열립니다.
-
표를 정렬하려면 열 머리글을 선택합니다. 기본적으로 중요 이벤트가 시간별로 먼저 표시되고 그 다음 경고 이벤트가 시간별로 표시됩니다.
-
하나 이상의 이벤트를 해제하려면 각 이벤트 옆에 있는
*해제*를 선택합니다. -
표에 열을 추가하려면
을(를) 선택하고 열을 선택한 다음 * 적용 * 을 선택합니다. -
시간 경과에 따른 지연 시간 추세를 분석하려면 이벤트를 선택하여 지연 시간 분석 패널을 여세요. 시간 경과에 따른 변화 탭을 사용하여 대화형 지연 시간 그래프를 볼 수 있습니다. 자세한 내용은 "지연 시간 추세 분석"을 참조하세요.
지연 이벤트 분석
기본 분석을 통해 수동 조사 없이 지연 문제의 근본 원인을 신속하게 파악할 수 있습니다.
지연 시간 분석 패널
심각도 열에서 지연 이벤트를 선택하면 해당 이벤트에 대한 지연 분석 패널이 열립니다. 패널에는 지연 이벤트에 대한 다양한 보기를 제공하는 탭이 포함되어 있습니다.
-
개요: 지연 시간을 유발하는 구성 요소를 보여주는 기본 분석 결과를 표시합니다.
-
시간 경과에 따른 변화: 기간별 데이터가 포함된 대화형 지연 시간 그래프를 표시합니다
개요 탭
개요 탭에는 자동화된 기본 분석 결과가 표시되어 지연을 유발하는 구성 요소를 확인할 수 있습니다.
Amazon Bedrock 모델 ARN이 구성된 경우 개요 탭에는 데이터 및 클러스터 시나리오에 대한 AI 에이전트 분석을 실행하는 옵션도 포함됩니다. Bedrock이 구성되지 않은 경우 해당 탭에는 특정 파일 시스템에 대한 스토리지 워크로드 구성 페이지 링크가 표시되며, 여기에서 Bedrock 액세스를 구성할 수 있습니다.
시간 경과 탭
시간 경과 탭에는 영향을 받는 볼륨에 대한 CloudWatch 지연 시간 메트릭을 시간 경과에 따라 보여주는 대화형 지연 시간 그래프가 표시됩니다. 그래프는 이벤트를 트리거한 알람 유형에 따라 읽기 또는 쓰기 지연 시간을 표시합니다. 다양한 시간 프레임(1H, 3H, 12H, 24H, 72H)을 선택하여 여러 기간 동안의 지연 시간 동작을 확인할 수 있습니다.
그래프 사용에 대한 자세한 지침은 "지연 시간 추세 분석"을 참조하십시오.
단계
-
지연 시간 탭에서 분석하려는 이벤트를 찾습니다.
-
심각도 열에서 지연 이벤트를 선택하여 해당 이벤트에 대한 분석 패널을 엽니다.
파일 시스템에 연결된 링크가 없는 경우, 해당 파일 시스템에 링크를 연결하라는 메시지가 표시됩니다. 메시지를 선택하면 해당 파일 시스템의 링크 설정 페이지로 이동합니다.
-
개요 탭을 검토하여 기본 분석 결과를 이해하고 지연 원인을 파악하십시오.
-
선택적으로 Over time 탭을 선택하여 영향을 받는 볼륨의 지연 시간 추세를 확인할 수 있습니다.
-
지연 원인에 대한 심층 조사(데이터 또는 클러스터 시나리오)가 필요한 경우 AI 에이전트 분석을 실행하십시오.
AI 에이전트 분석 실행
AI 에이전트 분석은 보다 심층적인 조사를 통해 구체적인 근본 원인과 잠재적인 해결 방안을 파악합니다.
Workload Factory 설정에서 Amazon Bedrock 모델 ARN을 구성하려면 "기본 GenAI 요구 사항"을(를) 참조하십시오.
AI 에이전트 분석을 실행하면 시스템이 기본 분석 데이터를 자동으로 갱신하고 이를 AI 에이전트의 입력으로 사용합니다.
-
지연 시간 탭에서 분석하려는 이벤트를 찾습니다.
-
심각도 열에서 지연 이벤트를 선택하여 해당 이벤트에 대한 분석 패널을 엽니다.
파일 시스템에 연결된 링크가 없는 경우, 해당 파일 시스템에 링크를 연결하라는 메시지가 표시됩니다. 메시지를 선택하면 해당 파일 시스템의 링크 설정 페이지로 이동합니다.
-
개요 탭을 검토하여 기본 분석 결과를 이해하고 지연 원인을 파악하십시오.
-
지연 원인이 데이터 또는 클러스터로 식별되면 *분석*을 선택하여 AI 에이전트 분석을 실행하십시오.
-
다음을 포함한 AI 에이전트 분석 결과를 검토하십시오.
-
잠재적 근본 원인 설명
-
영향을 받는 EC2 클라이언트 목록
-
권장 해결 단계
-
-
지연 문제를 해결하기 위해 권장되는 개선 조치를 실행하십시오.
-
문제 해결 후 지연 시간 이벤트 테이블을 모니터링하여 문제가 해결되었는지 확인하십시오.
모범 사례
지연 시간 문제를 분석할 때 다음 권장 사항을 고려하십시오.
-
추세 모니터링: 지연 시간 이벤트 테이블을 정기적으로 검토하여 근본적인 구성 문제를 나타낼 수 있는 패턴이나 반복되는 문제를 식별하십시오.
-
AI 에이전트 분석을 전략적으로 활용하세요: 기본 분석에서 AI 에이전트 분석이 필요하다고 판단되는 데이터 및 클러스터 시나리오에 대해 분석을 실행하세요. AI 에이전트 분석은 상세한 문제 해결이 필요한 복잡한 성능 문제에 대한 심층적인 통찰력을 제공합니다.
-
기각된 이벤트 검토: 이벤트가 기각된 이유를 주기적으로 검토하여 임계값 조정 또는 인프라 개선 기회를 파악합니다.
지연 시간 추세 분석에 대한 모범 사례는 "그래프 해석"을 참조하십시오.