시스템 모니터
Data Infrastructure Insights 에는 메트릭과 로그 모두에 대한 여러 시스템 정의 모니터가 포함되어 있습니다. 사용 가능한 시스템 모니터는 테넌트에 있는 데이터 수집기에 따라 달라집니다. 따라서 데이터 수집기가 추가되거나 구성이 변경됨에 따라 Data Infrastructure Insights 에서 사용할 수 있는 모니터가 변경될 수 있습니다.
|
|
많은 시스템 모니터는 기본적으로 일시 중지 상태에 있습니다. 모니터에 대해 Resume 옵션을 선택하여 시스템 모니터를 활성화할 수 있습니다. 데이터 수집기에서 고급 카운터 데이터 수집 및 ONTAP EMS 로그 수집 활성화_가 활성화되어 있는지 확인하세요. 이러한 옵션은 ONTAP 데이터 수집기의 _고급 구성_에서 찾을 수 있습니다.
|
목차:[]
모니터 설명
시스템 정의 모니터는 사전 정의된 측정항목과 조건, 기본 설명 및 시정 조치로 구성되며, 이는 수정할 수 없습니다. 시스템 정의 모니터에 대한 알림 수신자 목록을 수정할 수 있습니다. 지표, 조건, 설명 및 시정 조치를 보거나 수신자 목록을 수정하려면 시스템 정의 모니터 그룹을 열고 목록에서 모니터 이름을 클릭하세요.
시스템 정의 모니터 그룹은 수정하거나 제거할 수 없습니다.
다음 시스템 정의 모니터는 표시된 그룹에서 사용할 수 있습니다.
-
* ONTAP 인프라*에는 ONTAP 클러스터의 인프라 관련 문제에 대한 모니터가 포함되어 있습니다.
-
* ONTAP 워크로드 예시*에는 워크로드 관련 문제에 대한 모니터가 포함되어 있습니다.
-
두 그룹의 모니터는 기본적으로 일시 중지 상태로 설정됩니다.
현재 Data Infrastructure Insights 에 포함된 시스템 모니터는 다음과 같습니다.
메트릭 모니터
모니터 이름 |
심각성 |
모니터 설명 |
시정 조치 |
파이버 채널 포트 활용도 높음 |
비판적인 |
파이버 채널 프로토콜 포트는 고객 호스트 시스템과 ONTAP LUN 간의 SAN 트래픽을 수신하고 전송하는 데 사용됩니다. 포트 사용률이 높으면 병목 현상이 발생하고 궁극적으로는 민감한 파이버 채널 프로토콜 작업 부하의 성능에 영향을 미칩니다. 경고 알림은 네트워크 트래픽의 균형을 맞추기 위해 계획된 조치를 취해야 함을 나타냅니다. 위험 알림은 서비스 중단이 임박했으며 서비스 연속성을 보장하기 위해 네트워크 트래픽의 균형을 맞추기 위한 긴급 조치를 취해야 함을 나타냅니다. |
중요한 임계값이 위반된 경우 서비스 중단을 최소화하기 위한 즉각적인 조치를 고려하세요. 1. 작업 부하를 활용도가 낮은 다른 FCP 포트로 이동합니다. 2. ONTAP 의 QoS 정책이나 호스트 측 구성을 통해 특정 LUN의 트래픽을 필수 작업에만 제한하여 FCP 포트 활용도를 높입니다. 경고 임계값을 초과한 경우 다음 조치를 취할 계획을 세우세요. 1. 더 많은 FCP 포트를 구성하여 데이터 트래픽을 처리하면 포트 활용도가 더 많은 포트에 분산됩니다. 2. 작업 부하를 활용도가 낮은 다른 FCP 포트로 이동합니다. 3. ONTAP 의 QoS 정책이나 호스트 측 구성을 통해 특정 LUN의 트래픽을 필수 작업에만 제한하여 FCP 포트 활용도를 높입니다. |
LUN 대기 시간 높음 |
비판적인 |
LUN은 데이터베이스와 같이 성능에 민감한 애플리케이션에서 발생하는 I/O 트래픽을 처리하는 객체입니다. LUN 지연 시간이 길면 애플리케이션 자체가 손상되어 작업을 완료하지 못할 수 있습니다. 경고 알림은 LUN을 적절한 노드나 집계로 이동하기 위한 계획된 작업이 수행되어야 함을 나타냅니다. 위험 알림은 서비스 중단이 임박했으며 서비스 연속성을 보장하기 위해 비상 조치를 취해야 함을 나타냅니다. 다음은 미디어 유형에 따라 예상되는 대기 시간입니다. SSD는 최대 1~2밀리초, SAS는 최대 8~10밀리초, SATA HDD는 17~20밀리초입니다. |
중요 임계값이 초과된 경우 서비스 중단을 최소화하기 위해 다음 작업을 고려하세요. LUN이나 볼륨에 QoS 정책이 연결되어 있는 경우 임계값 한도를 평가하고 이로 인해 LUN 작업 부하가 조절되는지 확인하세요. 경고 임계값을 초과한 경우 다음 조치를 취할 계획을 세우세요. 1. 집계에서도 높은 활용도가 발생하는 경우 LUN을 다른 집계로 이동합니다. 2. 노드의 사용률이 높은 경우 볼륨을 다른 노드로 이동하거나 노드의 전체 작업 부하를 줄이세요. 3. LUN 또는 볼륨에 QoS 정책이 연결되어 있는 경우 임계값 한도를 평가하고 이로 인해 LUN 작업 부하가 조절되는지 확인합니다. |
네트워크 포트 활용도 높음 |
비판적인 |
네트워크 포트는 고객 호스트 시스템과 ONTAP 볼륨 간의 NFS, CIFS 및 iSCSI 프로토콜 트래픽을 수신하고 전송하는 데 사용됩니다. 포트 사용률이 높으면 병목 현상이 발생하고 궁극적으로 NFS, CIFS 및 iSCSI 작업 부하의 성능에 영향을 미칩니다. 경고 알림은 네트워크 트래픽의 균형을 맞추기 위해 계획된 조치를 취해야 함을 나타냅니다. 위험 알림은 서비스 중단이 임박했으며 서비스 연속성을 보장하기 위해 네트워크 트래픽의 균형을 맞추기 위한 긴급 조치를 취해야 함을 나타냅니다. |
중요한 임계값이 초과된 경우 서비스 중단을 최소화하기 위해 다음과 같은 즉각적인 조치를 고려하세요. 1. ONTAP 의 QoS 정책이나 호스트 측 분석을 통해 특정 볼륨의 트래픽을 필수적인 작업에만 제한하여 네트워크 포트 사용률을 줄입니다. 2. 하나 이상의 볼륨을 다른 사용률이 낮은 네트워크 포트를 사용하도록 구성합니다. 경고 임계값을 초과한 경우 다음과 같은 즉각적인 조치를 고려하세요. 1. 더 많은 네트워크 포트를 구성하여 데이터 트래픽을 처리하면 포트 활용도가 더 많은 포트에 분산됩니다. 2. 하나 이상의 볼륨을 구성하여 활용도가 낮은 다른 네트워크 포트를 사용합니다. |
NVMe 네임스페이스 지연 시간 높음 |
비판적인 |
NVMe 네임스페이스는 데이터베이스와 같은 성능에 민감한 애플리케이션에서 발생하는 I/O 트래픽을 처리하는 객체입니다. 높은 NVMe 네임스페이스 지연은 애플리케이션 자체가 문제를 겪고 작업을 완료하지 못할 수 있음을 의미합니다. 경고 알림은 LUN을 적절한 노드 또는 집계로 이동하기 위한 계획된 조치를 취해야 함을 나타냅니다. 위험 알림은 서비스 중단이 임박했으며 서비스 연속성을 보장하기 위해 긴급 조치를 취해야 함을 나타냅니다. |
중요 임계값이 초과된 경우 서비스 중단을 최소화하기 위한 즉각적인 조치를 고려하세요. NVMe 네임스페이스 또는 볼륨에 QoS 정책이 할당된 경우 NVMe 네임스페이스 워크로드가 제한되는 경우를 대비해 해당 제한 임계값을 평가하세요. 경고 임계값을 초과한 경우 다음 조치를 취하는 것이 좋습니다. 1. 집계에서도 높은 활용도가 발생하는 경우 LUN을 다른 집계로 이동합니다. 2. 노드의 사용률이 높은 경우 볼륨을 다른 노드로 이동하거나 노드의 전체 작업 부하를 줄이세요. 3. NVMe 네임스페이스 또는 볼륨에 QoS 정책이 할당된 경우 NVMe 네임스페이스 워크로드가 제한되는 원인이 되는지 확인하기 위해 해당 제한 임계값을 평가합니다. |
QTree 용량 가득 참 |
비판적인 |
qtree는 볼륨 내 루트 디렉토리의 특수 하위 디렉토리로 존재할 수 있는 논리적으로 정의된 파일 시스템입니다. 각 qtree에는 기본 공간 할당량 또는 볼륨 용량 내에서 트리에 저장되는 데이터 양을 제한하기 위한 할당량 정책에 의해 정의된 할당량이 있습니다. 경고 알림은 공간을 늘리기 위해 계획된 작업을 수행해야 함을 나타냅니다. 위험 알림은 서비스 중단이 임박했으며 서비스 연속성을 보장하기 위해 공간을 확보하기 위한 비상 조치를 취해야 함을 나타냅니다. |
중요한 임계값이 위반된 경우 서비스 중단을 최소화하기 위한 즉각적인 조치를 고려하세요. 1. 성장에 맞춰 qtree의 공간을 늘립니다. 2. 원치 않는 데이터를 삭제하여 공간을 확보하세요. 경고 임계값을 초과한 경우 다음과 같은 즉각적인 조치를 취할 계획을 세우세요. 1. 성장에 맞춰 qtree의 공간을 늘립니다. 2. 원치 않는 데이터를 삭제하여 공간을 확보하세요. |
QTree 용량 하드 리밋 |
비판적인 |
qtree는 볼륨 내 루트 디렉토리의 특수 하위 디렉토리로 존재할 수 있는 논리적으로 정의된 파일 시스템입니다. 각 qtree에는 사용자 데이터의 볼륨 증가를 제어하고 총 용량을 초과하지 않도록 데이터를 저장하는 데 사용되는 KByte 단위의 공간 할당량이 있습니다. qtree는 qtree의 총 용량 할당량 한도에 도달하고 더 이상 데이터를 저장할 수 없게 되기 전에 사용자에게 사전에 경고를 제공하는 소프트 저장 용량 할당량을 유지합니다. qtree에 저장된 데이터 양을 모니터링하면 사용자가 중단 없는 데이터 서비스를 받을 수 있습니다. |
중요한 임계값이 위반된 경우 서비스 중단을 최소화하기 위해 다음과 같은 즉각적인 조치를 고려하세요. 1. 2. 성장에 맞춰 나무 공간 할당량을 늘립니다. 사용자에게 트리에서 원치 않는 데이터를 삭제하여 공간을 확보하도록 지시합니다. |
QTree 용량 소프트 제한 |
경고 |
qtree는 볼륨 내 루트 디렉토리의 특수 하위 디렉토리로 존재할 수 있는 논리적으로 정의된 파일 시스템입니다. 각 qtree에는 사용자 데이터의 볼륨 증가를 제어하고 총 용량을 초과하지 않도록 데이터를 저장하는 데 사용할 수 있는 KByte로 측정된 공간 할당량이 있습니다. qtree는 qtree의 총 용량 할당량 한도에 도달하고 더 이상 데이터를 저장할 수 없게 되기 전에 사용자에게 사전에 경고를 제공하는 소프트 저장 용량 할당량을 유지합니다. qtree에 저장된 데이터 양을 모니터링하면 사용자가 중단 없는 데이터 서비스를 받을 수 있습니다. |
경고 임계값을 초과한 경우 다음과 같은 즉각적인 조치를 고려하세요. 1. 성장에 맞춰 나무 공간 할당량을 늘리세요. 2. 사용자에게 트리에서 원치 않는 데이터를 삭제하여 공간을 확보하도록 지시합니다. |
QTree 파일 하드 리미트 |
비판적인 |
qtree는 볼륨 내 루트 디렉토리의 특수 하위 디렉토리로 존재할 수 있는 논리적으로 정의된 파일 시스템입니다. 각 qtree에는 볼륨 내에서 관리 가능한 파일 시스템 크기를 유지하기 위해 포함할 수 있는 파일 수에 대한 할당량이 있습니다. qtree는 트리의 새 파일이 거부되는 것을 초과하는 고정 파일 번호 할당량을 유지합니다. Qtree 내의 파일 수를 모니터링하면 사용자가 중단 없는 데이터 서비스를 받을 수 있습니다. |
중요한 임계값이 위반된 경우 서비스 중단을 최소화하기 위한 즉각적인 조치를 고려하세요. 1. qtree의 파일 개수 할당량을 늘립니다. 2. qtree 파일 시스템에서 원치 않는 파일을 삭제합니다. |
QTree 파일 소프트 리미트 |
경고 |
qtree는 볼륨 내 루트 디렉토리의 특수 하위 디렉토리로 존재할 수 있는 논리적으로 정의된 파일 시스템입니다. 각 qtree에는 볼륨 내에서 관리 가능한 파일 시스템 크기를 유지하기 위해 포함할 수 있는 파일 수에 대한 할당량이 있습니다. qtree는 qtree의 파일 제한에 도달하고 추가 파일을 저장할 수 없게 되기 전에 사용자에게 사전에 경고를 제공하기 위해 소프트 파일 번호 할당량을 유지합니다. Qtree 내의 파일 수를 모니터링하면 사용자가 중단 없는 데이터 서비스를 받을 수 있습니다. |
경고 임계값을 초과한 경우 다음과 같은 즉각적인 조치를 취할 계획을 세우세요. 1. qtree의 파일 개수 할당량을 늘립니다. 2. qtree 파일 시스템에서 원치 않는 파일을 삭제합니다. |
스냅샷 예약 공간 가득 참 |
비판적인 |
볼륨의 저장 용량은 애플리케이션과 고객 데이터를 저장하는 데 필요합니다. 스냅샷 예약 공간이라고 불리는 해당 공간의 일부는 스냅샷을 저장하는 데 사용되며, 이를 통해 데이터를 로컬로 보호할 수 있습니다. ONTAP 볼륨에 저장되는 새롭고 업데이트된 데이터가 많을수록 사용되는 스냅샷 용량이 늘어나고, 향후 새 데이터나 업데이트된 데이터에 사용할 수 있는 스냅샷 저장 용량이 줄어듭니다. 볼륨 내 스냅샷 데이터 용량이 총 스냅샷 예약 공간에 도달하면 고객이 새로운 스냅샷 데이터를 저장할 수 없게 되고 볼륨 내 데이터의 보호 수준이 낮아질 수 있습니다. 볼륨 사용 스냅샷 용량을 모니터링하면 데이터 서비스의 연속성이 보장됩니다. |
중요한 임계값이 위반된 경우 서비스 중단을 최소화하기 위한 즉각적인 조치를 고려하세요. 1. 스냅샷 예약이 가득 찼을 때 볼륨의 데이터 공간을 사용하도록 스냅샷을 구성합니다. 2. 공간을 확보하려면 원하지 않는 오래된 스냅샷을 삭제하세요. 경고 임계값을 초과한 경우 다음과 같은 즉각적인 조치를 취할 계획을 세우세요. 1. 볼륨 내 스냅샷 예약 공간을 늘려 성장에 대응합니다. 2. 스냅샷 예약이 가득 찼을 때 볼륨의 데이터 공간을 사용하도록 스냅샷을 구성합니다. |
저장 용량 제한 |
비판적인 |
스토리지 풀(집계)이 가득 차면 I/O 작업이 느려지고 결국 중단되어 스토리지 중단 사고가 발생합니다. 경고 알림은 최소한의 여유 공간을 복구하기 위해 계획된 조치를 곧 취해야 함을 나타냅니다. 중요 경보는 서비스 중단이 임박했으며 서비스 연속성을 보장하기 위해 공간을 확보하기 위한 긴급 조치를 취해야 함을 나타냅니다. |
중요 임계값이 초과되면 서비스 중단을 최소화하기 위해 다음 조치를 즉시 고려하세요. 1. 중요하지 않은 볼륨의 스냅샷을 삭제합니다. 2. 필수적이지 않은 작업 부하이며 스토리지 외부 복사본에서 복원될 수 있는 볼륨이나 LUN을 삭제합니다. 경고 임계값을 초과한 경우 다음과 같은 즉각적인 조치를 계획합니다. 1. 하나 이상의 볼륨을 다른 저장 위치로 이동합니다. 2. 저장 용량을 더 추가하세요. 3. 저장소 효율성 설정을 변경하거나 비활성 데이터를 클라우드 저장소로 계층화합니다. |
스토리지 성능 제한 |
비판적인 |
저장 시스템이 성능 한계에 도달하면 작업 속도가 느려지고 대기 시간이 늘어나며 작업 부하와 애플리케이션이 실패할 수 있습니다. ONTAP 작업 부하에 대한 스토리지 풀 사용률을 평가하고 성능 소모 비율을 추정합니다. 경고 알림은 작업 부하 피크에 대처할 수 있을 만큼 충분한 스토리지 풀 성능을 확보하기 위해 스토리지 풀 부하를 줄이기 위한 계획된 조치를 취해야 함을 나타냅니다. 위험 알림은 성능 저하가 임박했으며 서비스 연속성을 보장하기 위해 스토리지 풀 부하를 줄이기 위한 긴급 조치를 취해야 함을 나타냅니다. |
중요한 임계값이 초과된 경우 서비스 중단을 최소화하기 위해 다음과 같은 즉각적인 조치를 고려하세요. 1. 스냅샷이나 SnapMirror 복제와 같은 예약된 작업을 일시 중단합니다. 2. 불필요한 불필요한 업무… 경고 임계값을 초과한 경우 즉시 다음 조치를 취하세요. 1. 하나 이상의 작업 부하를 다른 저장 위치로 이동합니다. 2. 더 많은 스토리지 노드(AFF) 또는 디스크 셸프(FAS)를 추가하고 작업 부하를 재분산합니다. 작업 부하 특성(블록 크기, 애플리케이션 캐싱)을 변경합니다. |
사용자 할당량 용량 하드 제한 |
비판적인 |
ONTAP 볼륨 내의 볼륨, 파일 또는 디렉토리에 액세스할 권한이 있는 Unix 또는 Windows 시스템 사용자를 인식합니다. 결과적으로 ONTAP 사용하면 고객은 Linux 또는 Windows 시스템의 사용자 또는 사용자 그룹에 대한 저장 용량을 구성할 수 있습니다. 사용자 또는 그룹 정책 할당량은 사용자가 자신의 데이터에 사용할 수 있는 공간의 양을 제한합니다. 이 할당량의 하드 리밋을 사용하면 볼륨 내에서 사용된 용량이 총 용량 할당량에 도달하기 직전에 사용자에게 알림을 보낼 수 있습니다. 사용자 또는 그룹 할당량 내에 저장된 데이터 양을 모니터링하면 사용자가 중단 없는 데이터 서비스를 받을 수 있습니다. |
중요한 임계값이 위반된 경우 서비스 중단을 최소화하기 위해 다음과 같은 즉각적인 조치를 고려하세요. 1. 성장에 맞춰 사용자 또는 그룹 할당량을 늘립니다. 2. 사용자 또는 그룹에 원치 않는 데이터를 삭제하여 공간을 확보하도록 지시합니다. |
사용자 할당량 용량 소프트 제한 |
경고 |
ONTAP 볼륨 내의 볼륨, 파일 또는 디렉토리에 액세스할 권한이 있는 Unix 또는 Windows 시스템 사용자를 인식합니다. 결과적으로 ONTAP 사용하면 고객은 Linux 또는 Windows 시스템의 사용자 또는 사용자 그룹에 대한 저장 용량을 구성할 수 있습니다. 사용자 또는 그룹 정책 할당량은 사용자가 자신의 데이터에 사용할 수 있는 공간의 양을 제한합니다. 이 할당량의 소프트 한도를 통해 볼륨 내에서 사용된 용량이 총 용량 할당량에 도달하면 사용자에게 사전에 알릴 수 있습니다. 사용자 또는 그룹 할당량 내에 저장된 데이터 양을 모니터링하면 사용자가 중단 없는 데이터 서비스를 받을 수 있습니다. |
경고 임계값을 초과한 경우 다음과 같은 즉각적인 조치를 취할 계획을 세우세요. 1. 성장에 맞춰 사용자 또는 그룹 할당량을 늘립니다. 2. 원치 않는 데이터를 삭제하여 공간을 확보하세요. |
볼륨 용량 전체 |
비판적인 |
볼륨의 저장 용량은 애플리케이션과 고객 데이터를 저장하는 데 필요합니다. ONTAP 볼륨에 저장된 데이터가 많을수록 향후 데이터를 저장할 수 있는 저장 공간이 줄어듭니다. 볼륨 내의 데이터 저장 용량이 전체 저장 용량에 도달하면, 저장 용량이 부족하여 고객이 데이터를 저장하지 못하게 될 수 있습니다. 사용된 볼륨 저장 용량을 모니터링하면 데이터 서비스의 연속성이 보장됩니다. |
중요한 임계값이 위반된 경우 서비스 중단을 최소화하기 위해 다음과 같은 즉각적인 조치를 고려하세요. 1. 성장에 맞춰 볼륨 공간을 늘리세요. 2. 원치 않는 데이터를 삭제하여 공간을 확보하세요. 3. 스냅샷 복사본이 스냅샷 예약 공간보다 많은 공간을 차지하는 경우, 오래된 스냅샷을 삭제하거나 볼륨 스냅샷 자동 삭제를 활성화하세요. 경고 임계값을 초과한 경우, 다음과 같은 즉각적인 조치를 취하세요. 1. 2. 성장에 맞춰 볼륨 공간을 늘립니다. 스냅샷 복사본이 스냅샷 예약보다 많은 공간을 차지하는 경우, 오래된 스냅샷을 삭제하거나 볼륨 스냅샷 자동 삭제를 활성화하세요.…… |
볼륨 Inode 제한 |
비판적인 |
파일을 저장하는 볼륨은 인덱스 노드(inode)를 사용하여 파일 메타데이터를 저장합니다. 볼륨이 inode 할당을 모두 소진하면 더 이상 파일을 추가할 수 없습니다. 경고 알림은 사용 가능한 inode 수를 늘리기 위해 계획된 작업을 수행해야 함을 나타냅니다. 위험 알림은 파일 제한 소진이 임박했으며 서비스 연속성을 보장하기 위해 inode를 확보하기 위한 긴급 조치를 취해야 함을 나타냅니다. |
중요한 임계값이 초과된 경우 서비스 중단을 최소화하기 위해 다음과 같은 즉각적인 조치를 고려하세요. 1. 볼륨의 inode 값을 늘립니다. inode 값이 이미 최대값에 도달한 경우 파일 시스템이 최대 크기를 초과했으므로 볼륨을 두 개 이상의 볼륨으로 분할합니다. 2. FlexGroup 사용하면 대용량 파일 시스템을 수용하는 데 도움이 됩니다. 경고 임계값을 초과한 경우 다음과 같은 즉각적인 조치를 취할 계획을 세우세요. 1. 볼륨의 inode 값을 늘립니다. inode 값이 이미 최대값에 도달한 경우 파일 시스템이 최대 크기를 초과했으므로 볼륨을 두 개 이상의 볼륨으로 분할합니다. 2. FlexGroup 사용하면 대용량 파일 시스템을 수용하는 데 도움이 됩니다. |
볼륨 지연 시간 높음 |
비판적인 |
볼륨은 DevOps 애플리케이션, 홈 디렉토리, 데이터베이스 등 성능에 민감한 애플리케이션에서 발생하는 I/O 트래픽을 처리하는 객체입니다. 볼륨 지연 시간이 길면 애플리케이션 자체가 손상되어 작업을 완료하지 못할 수 있습니다. 애플리케이션의 일관된 성능을 유지하려면 볼륨 지연 시간을 모니터링하는 것이 중요합니다. 다음은 미디어 유형에 따른 예상 대기 시간입니다. SSD는 최대 1~2밀리초, SAS는 최대 8~10밀리초, SATA HDD는 17~20밀리초입니다. |
중요 임계값이 초과된 경우 서비스 중단을 최소화하기 위해 다음과 같은 즉각적인 조치를 고려하세요. 볼륨에 QoS 정책이 할당된 경우 볼륨 작업 부하가 조절되는 원인이 될 수 있으므로 해당 제한 임계값을 평가하세요. 경고 임계값을 초과한 경우 다음과 같은 즉각적인 조치를 고려하세요. 1. 집계된 볼륨도 높은 활용도를 보이는 경우 해당 볼륨을 다른 집계로 이동합니다. 2. 볼륨에 QoS 정책이 할당된 경우 볼륨 작업 부하가 조절되는 원인이 되는지 확인하기 위해 해당 제한 임계값을 평가합니다. 3. 노드의 사용률이 높은 경우 볼륨을 다른 노드로 이동하거나 노드의 전체 작업 부하를 줄이세요. |
모니터 이름 |
심각성 |
모니터 설명 |
시정 조치 |
노드 고지연 |
경고/중요 |
노드 지연 시간이 노드의 애플리케이션 성능에 영향을 줄 수 있는 수준에 도달했습니다. 노드 지연 시간이 짧을수록 애플리케이션의 성능이 일관되게 보장됩니다. 미디어 유형에 따라 예상되는 대기 시간은 다음과 같습니다. SSD는 최대 1~2밀리초, SAS는 최대 8~10밀리초, SATA HDD는 17~20밀리초입니다. |
중요 임계값이 위반된 경우 서비스 중단을 최소화하기 위해 즉각적인 조치를 취해야 합니다. 1. 2. 예약된 작업, 스냅샷 또는 SnapMirror 복제를 일시 중단합니다. 3. QoS 제한을 통해 우선순위가 낮은 작업 부하에 대한 수요를 낮춥니다. 필수적이지 않은 업무 비활성화 경고 임계값이 초과되면 즉각적인 조치를 고려하세요. 1. 1. 하나 이상의 작업 부하를 다른 저장 위치로 이동합니다. 3. QoS 제한을 통해 우선순위가 낮은 작업 부하에 대한 수요를 낮춥니다. 더 많은 스토리지 노드(AFF) 또는 디스크 셸프(FAS)를 추가하고 작업 부하를 재분산합니다. 작업 부하 특성(블록 크기, 애플리케이션 캐싱 등) 변경 |
노드 성능 제한 |
경고/중요 |
노드 성능 활용도가 노드에서 지원하는 IO 및 애플리케이션의 성능에 영향을 줄 수 있는 수준에 도달했습니다. 낮은 노드 성능 활용도를 통해 애플리케이션의 일관된 성능이 보장됩니다. |
중요 임계값이 위반된 경우 서비스 중단을 최소화하기 위해 즉각적인 조치를 취해야 합니다. 1. 2. 예약된 작업, 스냅샷 또는 SnapMirror 복제를 일시 중단합니다. 3. QoS 제한을 통해 우선순위가 낮은 작업 부하에 대한 수요를 낮춥니다. 필수적이지 않은 작업 비활성화 경고 임계값이 초과된 경우 다음 작업을 고려하세요. 1. 1. 하나 이상의 작업 부하를 다른 저장 위치로 이동합니다. 3. QoS 제한을 통해 우선순위가 낮은 작업 부하에 대한 수요를 낮춥니다. 더 많은 스토리지 노드(AFF) 또는 디스크 셸프(FAS)를 추가하고 작업 부하를 재분산합니다. 작업 부하 특성(블록 크기, 애플리케이션 캐싱 등) 변경 |
스토리지 VM 고지연 |
경고/중요 |
스토리지 VM(SVM) 지연 시간이 스토리지 VM의 애플리케이션 성능에 영향을 줄 수 있는 수준에 도달했습니다. 낮은 스토리지 VM 지연 시간은 애플리케이션의 일관된 성능을 보장합니다. 미디어 유형에 따라 예상되는 대기 시간은 다음과 같습니다. SSD는 최대 1~2밀리초, SAS는 최대 8~10밀리초, SATA HDD는 17~20밀리초입니다. |
중요 임계값이 초과된 경우 QoS 정책이 할당된 스토리지 VM의 볼륨에 대한 임계값 한도를 즉시 평가하여 볼륨 작업 부하가 조절되는지 확인하세요. 경고 임계값이 초과된 경우 다음과 같은 즉각적인 조치를 고려하세요. 1. 집계에서도 높은 활용도가 발생하는 경우 스토리지 VM의 일부 볼륨을 다른 집계로 이동합니다. 2. QoS 정책이 할당된 스토리지 VM의 볼륨에 대해 볼륨 작업 부하가 조절되는 원인이 되는 임계값 한도를 평가합니다. 노드가 높은 활용도를 경험하고 있는 경우 스토리지 VM의 일부 볼륨을 다른 노드로 이동하거나 노드의 총 작업 부하를 줄이십시오. |
사용자 할당량 파일 하드 제한 |
비판적인 |
볼륨 내에서 생성된 파일 수가 임계 한도에 도달했으며 추가 파일을 생성할 수 없습니다. 저장된 파일의 수를 모니터링하면 사용자가 중단 없는 데이터 서비스를 받을 수 있습니다. |
중요 임계값이 위반된 경우 서비스 중단을 최소화하기 위해 즉각적인 조치가 필요합니다. 다음 조치를 취하는 것을 고려하세요. 1. 2. 특정 사용자에 대한 파일 개수 할당량을 늘립니다. 특정 사용자의 파일 할당량에 대한 압력을 줄이기 위해 원치 않는 파일을 삭제합니다. |
사용자 할당량 파일 소프트 제한 |
경고 |
볼륨 내에서 생성된 파일 수가 할당량의 임계값에 도달했으며 위험 한계에 가까워졌습니다. 할당량이 임계 한도에 도달하면 추가 파일을 생성할 수 없습니다. 사용자가 저장한 파일 수를 모니터링하면 사용자가 중단 없는 데이터 서비스를 받을 수 있습니다. |
경고 임계값이 위반된 경우 즉각적인 조치를 고려하세요. 1. 특정 사용자 할당량 2에 대한 파일 개수 할당량을 늘립니다. 특정 사용자의 파일 할당량에 대한 압력을 줄이기 위해 원치 않는 파일을 삭제합니다. |
볼륨 캐시 미스 비율 |
경고/중요 |
볼륨 캐시 미스 비율은 캐시에서 반환되는 대신 디스크에서 반환되는 클라이언트 애플리케이션의 읽기 요청의 백분율입니다. 이는 볼륨이 설정된 임계값에 도달했음을 의미합니다. |
중요 임계값이 위반된 경우 서비스 중단을 최소화하기 위해 즉각적인 조치를 취해야 합니다. 1. 2. IO 부하를 줄이기 위해 일부 작업 부하를 볼륨 노드 밖으로 이동합니다. 볼륨 노드에 아직 없다면 Flash Cache 3을 구매하여 추가하여 WAFL 캐시를 늘리세요. QoS 제한을 통해 동일한 노드에서 우선순위가 낮은 작업 부하에 대한 수요를 낮춥니다. 경고 임계값이 초과되면 즉각적인 조치를 고려합니다. 1. 2. IO 부하를 줄이기 위해 일부 작업 부하를 볼륨 노드 밖으로 이동합니다. 볼륨 노드에 아직 없다면 Flash Cache 3을 구매하여 추가하여 WAFL 캐시를 늘리세요. 4. QoS 제한을 통해 동일한 노드에서 우선순위가 낮은 작업 부하에 대한 수요를 낮춥니다. 작업 부하 특성(블록 크기, 애플리케이션 캐싱 등) 변경 |
볼륨 Qtree 할당량 초과 커밋 |
경고/중요 |
볼륨 Qtree 할당량 초과 커밋은 볼륨이 Qtree 할당량에 의해 초과 커밋된 것으로 간주되는 백분율을 지정합니다. 볼륨의 qtree 할당량에 대한 설정된 임계값에 도달했습니다. 볼륨 Qtree 할당량 초과 커밋을 모니터링하면 사용자가 중단 없는 데이터 서비스를 받을 수 있습니다. |
중요 임계값이 위반된 경우 서비스 중단을 최소화하기 위해 즉각적인 조치를 취해야 합니다. 1. 2번 볼륨의 공간을 늘리세요. 원치 않는 데이터 삭제 경고 임계값이 초과되면 볼륨 공간을 늘리는 것을 고려하세요. |
로그 모니터
모니터 이름 |
심각성 |
설명 |
시정 조치 |
AWS 자격 증명이 초기화되지 않았습니다 |
정보 |
이 이벤트는 모듈이 초기화되기 전에 클라우드 자격 증명 스레드에서 Amazon Web Services(AWS) Identity and Access Management(IAM) 역할 기반 자격 증명에 액세스하려고 시도할 때 발생합니다. |
클라우드 자격 증명 스레드와 시스템 초기화가 완료될 때까지 기다리세요. |
클라우드 계층에 도달할 수 없음 |
비판적인 |
스토리지 노드가 Cloud Tier 객체 저장소 API에 연결할 수 없습니다. 일부 데이터에 접근할 수 없습니다. |
온프레미스 제품을 사용하는 경우 다음 시정 조치를 수행하십시오. … "network interface show" 명령을 사용하여 클러스터 간 LIF가 온라인 상태이고 작동하는지 확인합니다. … 대상 노드 클러스터 간 LIF에서 "ping" 명령을 사용하여 개체 저장소 서버에 대한 네트워크 연결을 확인합니다. … 다음 사항을 확인합니다. … 개체 저장소 구성이 변경되지 않았는지 확인합니다. … 로그인 및 연결 정보가 여전히 유효한지 확인합니다. … 문제가 지속되면 NetApp 기술 지원팀에 문의하십시오. Cloud Volumes ONTAP 사용하는 경우 다음 시정 조치를 수행하세요. …객체 저장소 구성이 변경되지 않았는지 확인하세요…. 로그인 및 연결 정보가 여전히 유효한지 확인하세요. 문제가 지속되면 NetApp 기술 지원팀에 문의하세요. |
디스크가 서비스되지 않음 |
정보 |
이 이벤트는 디스크가 오류로 표시되거나 정리 중이거나 유지 관리 센터에 들어갔기 때문에 서비스에서 제거될 때 발생합니다. |
없음. |
FlexGroup 구성 요소 전체 |
비판적인 |
FlexGroup 볼륨 내의 구성 요소가 가득 차서 서비스가 중단될 가능성이 있습니다. FlexGroup 볼륨에서도 파일을 만들거나 확장할 수 있습니다. 하지만 구성 요소에 저장된 파일은 수정할 수 없습니다. 결과적으로 FlexGroup 볼륨에서 쓰기 작업을 수행하려고 하면 무작위로 공간 부족 오류가 발생할 수 있습니다. |
"volume modify -files +X" 명령을 사용하여 FlexGroup 볼륨에 용량을 추가하는 것이 좋습니다. 또는 FlexGroup 볼륨에서 파일을 삭제하세요. 하지만 어떤 파일이 해당 구성원에게 전달되었는지 확인하는 것은 어렵습니다. |
플렉스그룹 구성원 거의 가득 참 |
경고 |
FlexGroup 볼륨 내의 구성 요소에 공간이 거의 없어 서비스가 중단될 가능성이 있습니다. 파일을 생성하고 확장할 수 있습니다. 그러나 구성 요소의 공간이 부족하면 구성 요소의 파일을 추가하거나 수정할 수 없을 수 있습니다. |
"volume modify -files +X" 명령을 사용하여 FlexGroup 볼륨에 용량을 추가하는 것이 좋습니다. 또는 FlexGroup 볼륨에서 파일을 삭제하세요. 하지만 어떤 파일이 해당 구성원에게 전달되었는지 확인하는 것은 어렵습니다. |
FlexGroup 구성 요소가 Inode를 거의 다 소진했습니다. |
경고 |
FlexGroup 볼륨 내의 구성 요소에 inode가 거의 없어서 서비스가 중단될 가능성이 있습니다. 구성원은 평균보다 적은 생성 요청을 받습니다. 이는 요청이 더 많은 inode를 가진 구성 요소로 라우팅되기 때문에 FlexGroup 볼륨의 전반적인 성능에 영향을 미칠 수 있습니다. |
"volume modify -files +X" 명령을 사용하여 FlexGroup 볼륨에 용량을 추가하는 것이 좋습니다. 또는 FlexGroup 볼륨에서 파일을 삭제하세요. 하지만 어떤 파일이 해당 구성원에게 전달되었는지 확인하는 것은 어렵습니다. |
FlexGroup 구성 요소가 Inode를 벗어났습니다. |
비판적인 |
FlexGroup 볼륨의 구성 요소에 inode가 부족하여 서비스가 중단될 가능성이 있습니다. 이 구성 요소에는 새로운 파일을 생성할 수 없습니다. 이로 인해 FlexGroup 볼륨 전체에 걸쳐 콘텐츠가 불균형적으로 분포될 수 있습니다. |
"volume modify -files +X" 명령을 사용하여 FlexGroup 볼륨에 용량을 추가하는 것이 좋습니다. 또는 FlexGroup 볼륨에서 파일을 삭제하세요. 하지만 어떤 파일이 해당 구성원에게 전달되었는지 확인하는 것은 어렵습니다. |
LUN 오프라인 |
정보 |
이 이벤트는 LUN이 수동으로 오프라인으로 전환될 때 발생합니다. |
LUN을 다시 온라인으로 전환합니다. |
메인 유닛 팬 고장 |
경고 |
하나 이상의 메인 유닛 팬이 고장났습니다. 시스템은 계속 작동합니다. 그러나 이 상태가 너무 오랫동안 지속되면 과열로 인해 자동으로 종료될 수 있습니다. |
고장난 팬을 다시 장착하세요. 오류가 지속되면 교체하세요. |
메인 유닛 팬 경고 상태 |
정보 |
이 이벤트는 하나 이상의 메인 유닛 팬이 경고 상태일 때 발생합니다. |
과열을 방지하려면 표시된 팬을 교체하세요. |
NVRAM 배터리 부족 |
경고 |
NVRAM 배터리 용량이 매우 낮습니다. 배터리 전원이 소진되면 잠재적인 데이터 손실이 발생할 수 있습니다. 시스템은 AutoSupport 또는 "콜 홈" 메시지를 생성하여 NetApp 기술 지원 및 구성된 대상(해당되는 경우)으로 전송합니다. AutoSupport 메시지를 성공적으로 전달하면 문제 파악 및 해결 능력이 크게 향상됩니다. |
다음 시정 조치를 수행하세요. "system node environment sensors show" 명령을 사용하여 배터리의 현재 상태, 용량 및 충전 상태를 확인하세요. 최근에 배터리를 교체했거나 시스템이 장시간 작동하지 않은 경우, 배터리가 제대로 충전되고 있는지 모니터링하세요. 배터리 작동 시간이 계속해서 위험 수준 아래로 떨어지고 스토리지 시스템이 자동으로 종료되는 경우 NetApp 기술 지원팀에 문의하세요. |
서비스 프로세서가 구성되지 않았습니다 |
경고 |
이 이벤트는 매주 발생하여 서비스 프로세서(SP)를 구성하도록 알려줍니다. SP 는 원격 액세스 및 원격 관리 기능을 제공하기 위해 시스템에 통합된 물리적 장치입니다. SP 의 모든 기능을 활용하려면 구성해야 합니다. |
다음 시정 조치를 수행하세요.…"system service-processor network modify" 명령을 사용하여 SP 구성합니다.…선택적으로 "system service-processor network show" 명령을 사용하여 SP 의 MAC 주소를 얻습니다.…"system service-processor network show" 명령을 사용하여 SP 네트워크 구성을 확인합니다.…"system service-processor autosupport invoke" 명령을 사용하여 SP AutoSupport 이메일을 보낼 수 있는지 확인합니다. 참고: 이 명령을 실행하기 전에 ONTAP 에서 AutoSupport 이메일 호스트와 수신자를 구성해야 합니다. |
서비스 프로세서 오프라인 |
비판적인 |
모든 SP 복구 작업이 수행되었음에도 불구하고 ONTAP 더 이상 서비스 프로세서(SP )로부터 하트비트를 수신하지 않습니다. ONTAP SP 없이는 하드웨어의 상태를 모니터링할 수 없습니다. 하드웨어 손상과 데이터 손실을 방지하기 위해 시스템이 종료됩니다. SP 가 오프라인이 되면 즉시 알림을 받을 수 있도록 패닉 알람을 설정합니다. |
다음 작업을 수행하여 시스템의 전원을 껐다가 다시 켭니다. 컨트롤러를 섀시에서 빼냅니다. 컨트롤러를 다시 밀어 넣습니다. 컨트롤러를 다시 켭니다. 문제가 지속되면 컨트롤러 모듈을 교체합니다. |
선반 팬이 고장났습니다 |
비판적인 |
선반의 표시된 냉각 팬 또는 팬 모듈이 고장났습니다. 선반에 있는 디스크가 충분한 냉각 공기 흐름을 받지 못해 디스크가 고장날 수 있습니다. |
다음 시정 조치를 수행하세요. 팬 모듈이 완전히 장착되고 고정되었는지 확인하세요. 참고: 일부 디스크 선반의 경우 팬이 전원 공급 모듈에 통합되어 있습니다. 문제가 지속되면 팬 모듈을 교체하세요. 문제가 지속되면 NetApp 기술 지원팀에 문의하여 도움을 받으세요. |
메인 유닛 팬 고장으로 인해 시스템이 작동할 수 없습니다. |
비판적인 |
하나 이상의 메인 유닛 팬이 고장나서 시스템 작동이 중단되었습니다. 이로 인해 잠재적인 데이터 손실이 발생할 수 있습니다. |
고장난 팬을 교체하세요. |
할당되지 않은 디스크 |
정보 |
시스템에 할당되지 않은 디스크가 있습니다. 용량이 낭비되고 있으며 시스템에 잘못된 구성이나 부분적인 구성 변경이 적용되었을 수 있습니다. |
다음 시정 조치를 수행합니다. "disk show -n" 명령을 사용하여 할당되지 않은 디스크를 확인합니다. "disk assign" 명령을 사용하여 시스템에 디스크를 할당합니다. |
바이러스 백신 서버가 사용 중입니다 |
경고 |
바이러스 백신 서버가 너무 바빠서 새로운 검사 요청을 수락할 수 없습니다. |
이 메시지가 자주 발생하는 경우 SVM에서 생성된 바이러스 검사 부하를 처리할 수 있는 충분한 바이러스 백신 서버가 있는지 확인하세요. |
IAM 역할에 대한 AWS 자격 증명이 만료되었습니다. |
비판적인 |
Cloud Volume ONTAP 에 접근할 수 없게 되었습니다. IAM(Identity and Access Management) 역할 기반 자격 증명이 만료되었습니다. 자격 증명은 IAM 역할을 사용하여 Amazon Web Services(AWS) 메타데이터 서버에서 수집되며, Amazon Simple Storage Service(Amazon S3)에 대한 API 요청에 서명하는 데 사용됩니다. |
다음을 수행합니다. AWS EC2 관리 콘솔에 로그인합니다. 인스턴스 페이지로 이동합니다. Cloud Volumes ONTAP 배포에 대한 인스턴스를 찾아 상태를 확인합니다. 인스턴스와 연결된 AWS IAM 역할이 유효하고 인스턴스에 대한 적절한 권한이 부여되었는지 확인합니다. |
IAM 역할에 대한 AWS 자격 증명을 찾을 수 없습니다. |
비판적인 |
클라우드 자격 증명 스레드는 AWS 메타데이터 서버에서 Amazon Web Services(AWS) Identity and Access Management(IAM) 역할 기반 자격 증명을 획득할 수 없습니다. 자격 증명은 Amazon Simple Storage Service(Amazon S3)에 대한 API 요청에 서명하는 데 사용됩니다. Cloud Volume ONTAP 에 접근할 수 없게 되었습니다. |
다음을 수행합니다. AWS EC2 관리 콘솔에 로그인합니다. 인스턴스 페이지로 이동합니다. Cloud Volumes ONTAP 배포에 대한 인스턴스를 찾아 상태를 확인합니다. 인스턴스와 연결된 AWS IAM 역할이 유효하고 인스턴스에 대한 적절한 권한이 부여되었는지 확인합니다. |
IAM 역할에 대한 AWS 자격 증명이 유효하지 않습니다. |
비판적인 |
IAM(Identity and Access Management) 역할 기반 자격 증명이 유효하지 않습니다. 자격 증명은 IAM 역할을 사용하여 Amazon Web Services(AWS) 메타데이터 서버에서 수집되며, Amazon Simple Storage Service(Amazon S3)에 대한 API 요청에 서명하는 데 사용됩니다. Cloud Volume ONTAP 에 접근할 수 없게 되었습니다. |
다음을 수행합니다. AWS EC2 관리 콘솔에 로그인합니다. 인스턴스 페이지로 이동합니다. Cloud Volumes ONTAP 배포에 대한 인스턴스를 찾아 상태를 확인합니다. 인스턴스와 연결된 AWS IAM 역할이 유효하고 인스턴스에 대한 적절한 권한이 부여되었는지 확인합니다. |
AWS IAM 역할을 찾을 수 없습니다 |
비판적인 |
IAM(Identity and Access Management) 역할 스레드는 AWS 메타데이터 서버에서 AWS(Amazon Web Services) IAM 역할을 찾을 수 없습니다. Amazon Simple Storage Service(Amazon S3)에 대한 API 요청에 서명하는 데 사용되는 역할 기반 자격 증명을 얻으려면 IAM 역할이 필요합니다. Cloud Volume ONTAP 에 접근할 수 없게 되었습니다. |
다음을 수행합니다. AWS EC2 관리 콘솔에 로그인합니다. 인스턴스 페이지로 이동합니다. Cloud Volumes ONTAP 배포에 대한 인스턴스를 찾아 상태를 확인합니다. 인스턴스와 연결된 AWS IAM 역할이 유효한지 확인합니다. |
AWS IAM 역할이 유효하지 않습니다 |
비판적인 |
AWS 메타데이터 서버의 Amazon Web Services(AWS) Identity and Access Management(IAM) 역할이 유효하지 않습니다. Cloud Volume ONTAP 접근할 수 없게 되었습니다. |
다음을 수행합니다. AWS EC2 관리 콘솔에 로그인합니다. 인스턴스 페이지로 이동합니다. Cloud Volumes ONTAP 배포에 대한 인스턴스를 찾아 상태를 확인합니다. 인스턴스와 연결된 AWS IAM 역할이 유효하고 인스턴스에 대한 적절한 권한이 부여되었는지 확인합니다. |
AWS 메타데이터 서버 연결 실패 |
비판적인 |
IAM(Identity and Access Management) 역할 스레드는 Amazon Web Services(AWS) 메타데이터 서버와 통신 링크를 설정할 수 없습니다. Amazon Simple Storage Service(Amazon S3)에 대한 API 요청에 서명하는 데 사용되는 필수 AWS IAM 역할 기반 자격 증명을 얻기 위해 통신을 설정해야 합니다. Cloud Volume ONTAP 에 접근할 수 없게 되었습니다. |
다음을 수행합니다. AWS EC2 관리 콘솔에 로그인합니다. 인스턴스 페이지로 이동합니다. Cloud Volumes ONTAP 배포에 대한 인스턴스를 찾아 상태를 확인합니다. |
FabricPool 공간 사용 한도에 거의 도달했습니다. |
경고 |
용량 라이선스 제공업체의 개체 저장소에 대한 전체 클러스터 전체 FabricPool 공간 사용량이 라이선스 한도에 거의 도달했습니다. |
다음 시정 조치를 수행하십시오. "storage aggregate object-store show-space" 명령을 사용하여 각 FabricPool 스토리지 계층에서 사용되는 라이선스 용량의 백분율을 확인합니다. "volume snapshot delete" 명령을 사용하여 계층화 정책이 "snapshot" 또는 "backup"인 볼륨에서 스냅샷 복사본을 삭제하여 공간을 비웁니다. 클러스터에 새 라이선스를 설치하여 라이선스 용량을 늘립니다. |
FabricPool 공간 사용 한도에 도달했습니다. |
비판적인 |
용량 라이선스 제공업체의 개체 저장소에 대한 전체 클러스터 전체 FabricPool 공간 사용량이 라이선스 한도에 도달했습니다. |
다음 시정 조치를 수행하십시오. "storage aggregate object-store show-space" 명령을 사용하여 각 FabricPool 스토리지 계층에서 사용되는 라이선스 용량의 백분율을 확인합니다. "volume snapshot delete" 명령을 사용하여 계층화 정책이 "snapshot" 또는 "backup"인 볼륨에서 스냅샷 복사본을 삭제하여 공간을 비웁니다. 클러스터에 새 라이선스를 설치하여 라이선스 용량을 늘립니다. |
집계 반환 실패 |
비판적인 |
이 이벤트는 대상 노드가 개체 저장소에 도달할 수 없을 때 스토리지 장애 조치(SFO)의 일부로 집계를 마이그레이션하는 동안 발생합니다. |
다음 시정 조치를 수행합니다. "네트워크 인터페이스 표시" 명령을 사용하여 클러스터 간 LIF가 온라인이고 작동하는지 확인합니다. 대상 노드 클러스터 간 LIF에서 "ping" 명령을 사용하여 개체 저장소 서버에 대한 네트워크 연결을 확인합니다. …"aggregate object-store config show" 명령을 사용하여 개체 저장소 구성이 변경되지 않았고 로그인 및 연결 정보가 여전히 정확한지 확인하세요.…또는 giveback 명령의 "require-partner-waiting" 매개변수를 false로 지정하여 오류를 재정의할 수 있습니다.…자세한 정보나 도움이 필요하면 NetApp 기술 지원팀에 문의하세요. |
HA 인터커넥트 다운 |
경고 |
고가용성(HA) 상호 연결이 끊어졌습니다. 장애 조치가 불가능할 경우 서비스가 중단될 위험이 있습니다. |
시정 조치는 플랫폼에서 지원하는 HA 상호 연결 링크의 수와 유형, 그리고 상호 연결이 끊어진 이유에 따라 달라집니다. …링크가 끊어진 경우:…HA 쌍의 두 컨트롤러가 모두 작동하는지 확인합니다.…외부 연결 링크의 경우 상호 연결 케이블이 제대로 연결되었고, 해당되는 경우 SFP(소형 폼 팩터 플러그형)가 두 컨트롤러에 제대로 장착되어 있는지 확인합니다.…내부 연결 링크의 경우 "ic link off" 및 "ic link on" 명령을 사용하여 링크를 하나씩 비활성화했다가 다시 활성화합니다. …링크가 비활성화된 경우 "ic link on" 명령을 사용하여 링크를 활성화합니다. …피어가 연결되지 않은 경우 "ic link off" 및 "ic link on" 명령을 사용하여 링크를 하나씩 비활성화했다가 다시 활성화합니다.…문제가 지속되면 NetApp 기술 지원팀에 문의하세요. |
사용자당 최대 세션 수 초과 |
경고 |
TCP 연결을 통해 사용자당 허용되는 최대 세션 수를 초과했습니다. 일부 세션이 공개될 때까지 세션을 설정하려는 모든 요청은 거부됩니다. … |
다음 시정 조치를 수행합니다. …클라이언트에서 실행되는 모든 애플리케이션을 검사하고 제대로 작동하지 않는 애플리케이션을 종료합니다. …클라이언트를 재부팅합니다. …문제가 새 애플리케이션으로 인해 발생하는지 아니면 기존 애플리케이션으로 인해 발생하는지 확인합니다. …애플리케이션이 새 것이면 "cifs option modify -max-opens-same-file-per-tree" 명령을 사용하여 클라이언트에 대한 임계값을 더 높게 설정합니다. 어떤 경우에는 클라이언트가 예상대로 작동하지만 더 높은 임계값이 필요합니다. 클라이언트에 대해 더 높은 임계값을 설정하려면 고급 권한이 있어야 합니다. …문제가 기존 애플리케이션으로 인해 발생한 경우 클라이언트에 문제가 있을 수 있습니다. 자세한 정보나 도움이 필요하면 NetApp 기술 지원팀에 문의하세요. |
파일당 최대 열린 횟수 초과 |
경고 |
TCP 연결을 통해 파일을 열 수 있는 최대 횟수를 초과했습니다. 이 파일을 열려는 모든 요청은 해당 파일의 열려 있는 인스턴스를 닫을 때까지 거부됩니다. 이는 일반적으로 비정상적인 애플리케이션 동작을 나타냅니다. |
다음 시정 조치를 수행하세요. 이 TCP 연결을 사용하여 클라이언트에서 실행되는 애플리케이션을 검사하세요. 클라이언트가 실행 중인 애플리케이션으로 인해 제대로 작동하지 않을 수 있습니다. 클라이언트를 재부팅합니다. 문제가 새 애플리케이션으로 인해 발생하는지 아니면 기존 애플리케이션으로 인해 발생하는지 확인합니다. 애플리케이션이 새 것이면 "cifs option modify -max-opens-same-file-per-tree" 명령을 사용하여 클라이언트에 대한 임계값을 더 높게 설정합니다. 어떤 경우에는 클라이언트가 예상대로 작동하지만 더 높은 임계값이 필요합니다. 클라이언트에 대해 더 높은 임계값을 설정하려면 고급 권한이 있어야 합니다. …문제가 기존 애플리케이션으로 인해 발생한 경우 클라이언트에 문제가 있을 수 있습니다. 자세한 정보나 도움이 필요하면 NetApp 기술 지원팀에 문의하세요. |
NetBIOS 이름 충돌 |
비판적인 |
NetBIOS 이름 서비스는 원격 컴퓨터에서 이름 등록 요청에 대해 부정적인 응답을 받았습니다. 이는 일반적으로 NetBIOS 이름이나 별칭의 충돌로 인해 발생합니다. 결과적으로 클라이언트는 데이터에 액세스하지 못하거나 클러스터 내의 올바른 데이터 제공 노드에 연결하지 못할 수 있습니다. |
다음 중 하나의 시정 조치를 수행합니다. NetBIOS 이름이나 별칭에 충돌이 있는 경우 다음 중 하나를 수행합니다."vserver cifs delete -aliases alias -vserver vserver" 명령을 사용하여 중복된 NetBIOS 별칭을 삭제합니다."vserver cifs create -aliases alias -vserver vserver" 명령을 사용하여 중복된 이름을 삭제하고 새 이름의 별칭을 추가하여 NetBIOS 별칭의 이름을 바꿉니다. …별칭이 구성되어 있지 않고 NetBIOS 이름에 충돌이 있는 경우 "vserver cifs delete -vserver vserver" 및 "vserver cifs create -cifs-server netbiosname" 명령을 사용하여 CIFS 서버의 이름을 변경합니다. 참고: CIFS 서버를 삭제하면 데이터에 액세스할 수 없게 됩니다. …원격 컴퓨터에서 NetBIOS 이름을 제거하거나 NetBIOS 이름을 변경합니다. |
NFSv4 저장소 풀이 소진되었습니다 |
비판적인 |
NFSv4 저장소 풀이 고갈되었습니다. |
이 이벤트가 발생한 후 NFS 서버가 10분 이상 응답하지 않으면 NetApp 기술 지원팀에 문의하세요. |
등록된 스캔 엔진 없음 |
비판적인 |
바이러스 백신 커넥터가 등록된 검사 엔진이 없다고 ONTAP 알렸습니다. "스캔 필수" 옵션이 활성화된 경우 데이터를 사용할 수 없게 될 수 있습니다. |
다음의 시정 조치를 수행하세요.…안티바이러스 서버에 설치된 검사 엔진 소프트웨어가 ONTAP 과 호환되는지 확인하세요.…검사 엔진 소프트웨어가 실행 중이고 로컬 루프백을 통해 안티바이러스 커넥터에 연결되도록 구성되어 있는지 확인하세요. |
Vscan 연결 안 됨 |
비판적인 |
ONTAP 에는 바이러스 검사 요청을 처리하기 위한 Vscan 연결이 없습니다. "스캔 필수" 옵션이 활성화된 경우 데이터를 사용할 수 없게 될 수 있습니다. |
스캐너 풀이 올바르게 구성되었고 바이러스 백신 서버가 활성화되어 ONTAP 에 연결되어 있는지 확인하세요. |
노드 루트 볼륨 공간 낮음 |
비판적인 |
시스템에서 루트 볼륨의 공간이 위험할 정도로 부족하다는 것을 감지했습니다. 노드가 완전히 작동하지 않습니다. 클러스터 내에서 데이터 LIF가 장애 조치되었을 수 있으며, 이로 인해 노드에서 NFS 및 CIFS 액세스가 제한됩니다. 관리 기능은 노드가 루트 볼륨의 공간을 비우기 위한 로컬 복구 절차로 제한됩니다. |
다음 시정 조치를 수행하세요. …이전 스냅샷 복사본을 삭제하거나, /mroot 디렉터리에서 더 이상 필요하지 않은 파일을 삭제하거나, 루트 볼륨 용량을 확장하여 루트 볼륨의 공간을 확보하세요. …컨트롤러를 재부팅하세요. …자세한 정보나 도움이 필요하면 NetApp 기술 지원팀에 문의하세요. |
존재하지 않는 관리자 공유 |
비판적인 |
Vscan 문제: 클라이언트가 존재하지 않는 ONTAP_ADMIN$ 공유에 연결을 시도했습니다. |
언급된 SVM ID에 대해 Vscan이 활성화되어 있는지 확인하세요. SVM에서 Vscan을 활성화하면 SVM에 대한 ONTAP_ADMIN$ 공유가 자동으로 생성됩니다. |
NVMe 네임스페이스 공간 부족 |
비판적인 |
공간 부족으로 인한 쓰기 실패로 인해 NVMe 네임스페이스가 오프라인 상태가 되었습니다. |
볼륨에 공간을 추가한 다음 "vserver nvme namespace modify" 명령을 사용하여 NVMe 네임스페이스를 온라인으로 전환합니다. |
NVMe-oF 유예 기간 활성화 |
경고 |
이 이벤트는 NVMe over Fabrics(NVMe-oF) 프로토콜이 사용 중이고 라이선스의 유예 기간이 활성화되어 있을 때 매일 발생합니다. NVMe-oF 기능을 사용하려면 라이선스 유예 기간이 만료된 후 라이선스가 필요합니다. 라이선스 유예 기간이 끝나면 NVMe-oF 기능이 비활성화됩니다. |
영업 담당자에게 문의하여 NVMe-oF 라이선스를 받고 클러스터에 추가하거나 클러스터에서 NVMe-oF 구성의 모든 인스턴스를 제거하세요. |
NVMe-oF 유예 기간 만료 |
경고 |
NVMe over Fabrics(NVMe-oF) 라이선스 유예 기간이 종료되어 NVMe-oF 기능이 비활성화되었습니다. |
영업 담당자에게 문의하여 NVMe-oF 라이선스를 받고 클러스터에 추가하세요. |
NVMe-oF 유예 기간 시작 |
경고 |
ONTAP 9.5 소프트웨어로 업그레이드하는 동안 NVMe over Fabrics(NVMe-oF) 구성이 감지되었습니다. NVMe-oF 기능을 사용하려면 라이선스 유예 기간이 만료된 후 라이선스가 필요합니다. |
영업 담당자에게 문의하여 NVMe-oF 라이선스를 받고 클러스터에 추가하세요. |
개체 저장소 호스트를 확인할 수 없음 |
비판적인 |
개체 저장소 서버 호스트 이름을 IP 주소로 확인할 수 없습니다. 객체 저장소 클라이언트는 IP 주소를 확인하지 않고는 객체 저장소 서버와 통신할 수 없습니다. 결과적으로 데이터에 접근하지 못할 수도 있습니다. |
DNS 구성을 확인하여 호스트 이름이 IP 주소로 올바르게 구성되었는지 확인하세요. |
개체 저장소 클러스터 간 LIF 다운 |
비판적인 |
객체 저장소 클라이언트가 객체 저장소 서버와 통신할 수 있는 작동 LIF를 찾을 수 없습니다. 노드는 클러스터 간 LIF가 작동할 때까지 개체 저장소 클라이언트 트래픽을 허용하지 않습니다. 결과적으로 데이터에 접근하지 못할 수도 있습니다. |
다음 시정 조치를 수행합니다. "network interface show -role intercluster" 명령을 사용하여 클러스터 간 LIF 상태를 확인합니다. 클러스터 간 LIF가 올바르게 구성되었고 작동하는지 확인합니다. 클러스터 간 LIF가 구성되지 않은 경우 "network interface create -role intercluster" 명령을 사용하여 추가합니다. |
개체 저장소 서명 불일치 |
비판적인 |
개체 저장소 서버로 전송된 요청 서명이 클라이언트가 계산한 서명과 일치하지 않습니다. 결과적으로 데이터에 접근하지 못할 수도 있습니다. |
비밀 액세스 키가 올바르게 구성되었는지 확인하세요. 올바르게 구성된 경우 NetApp 기술 지원팀에 문의하여 도움을 받으세요. |
READDIR 시간 초과 |
비판적인 |
READDIR 파일 작업이 WAFL 에서 실행할 수 있는 시간 제한을 초과했습니다. 이는 디렉토리가 매우 크거나 희소하기 때문에 발생할 수 있습니다. 시정 조치가 권장됩니다. |
다음의 시정 조치를 수행하세요: …다음 'diag' 권한 nodeshell CLI 명령을 사용하여 READDIR 파일 작업이 만료된 최근 디렉토리에 대한 특정 정보를 찾으세요: wafl readdir notice show. …디렉토리가 스파스로 표시되는지 확인하세요: …디렉토리가 스파스로 표시되는 경우 디렉토리 파일의 스파스성을 제거하기 위해 디렉토리의 내용을 새 디렉토리로 복사하는 것이 좋습니다. …디렉토리가 스파스로 지정되지 않았고 디렉토리가 큰 경우 디렉토리의 파일 항목 수를 줄여 디렉토리 파일 크기를 줄이는 것이 좋습니다. |
골재 이전 실패 |
비판적인 |
이 이벤트는 대상 노드가 객체 저장소에 도달할 수 없을 때 집계를 재배치하는 동안 발생합니다. |
다음 시정 조치를 수행합니다. "네트워크 인터페이스 표시" 명령을 사용하여 클러스터 간 LIF가 온라인이고 작동하는지 확인합니다. 대상 노드 클러스터 간 LIF에서 "ping" 명령을 사용하여 개체 저장소 서버에 대한 네트워크 연결을 확인합니다. …"aggregate object-store config show" 명령을 사용하여 개체 저장소 구성이 변경되지 않았고 로그인 및 연결 정보가 여전히 정확한지 확인하세요.…또는 재배치 명령의 "override-destination-checks" 매개변수를 사용하여 오류를 재정의할 수 있습니다.…자세한 정보나 도움이 필요하면 NetApp 기술 지원팀에 문의하세요. |
섀도 복사본 실패 |
비판적인 |
Microsoft Server 백업 및 복원 서비스 작업인 VSS(볼륨 섀도 복사본 서비스)가 실패했습니다. |
이벤트 메시지에 제공된 정보를 사용하여 다음 사항을 확인하세요.…섀도 복사본 구성이 활성화되어 있습니까?…적절한 라이선스가 설치되어 있습니까? …어떤 공유에서 섀도 복사 작업이 수행됩니까?…공유 이름이 맞습니까?…공유 경로가 있습니까?…섀도 복사 세트와 해당 섀도 복사본의 상태는 무엇입니까? |
스토리지 스위치 전원 공급 장치 실패 |
경고 |
클러스터 스위치에 전원 공급 장치가 없습니다. 중복성이 감소하고, 추가적인 정전으로 인해 정전 위험이 있습니다. |
다음 시정 조치를 수행하세요. 클러스터 스위치에 전원을 공급하는 전원 공급 장치가 켜져 있는지 확인하세요. 전원 코드가 전원 공급 장치에 연결되어 있는지 확인하세요. 문제가 지속되면 NetApp 기술 지원팀에 문의하세요. |
CIFS 인증이 너무 많습니다 |
경고 |
많은 인증 협상이 동시에 진행되었습니다. 이 클라이언트로부터 256개의 완료되지 않은 새 세션 요청이 있습니다. |
클라이언트가 256개 이상의 새로운 연결 요청을 생성한 이유를 조사합니다. 오류가 발생한 이유를 확인하려면 클라이언트나 애플리케이션 공급업체에 문의해야 할 수도 있습니다. |
관리자 공유에 대한 무단 사용자 액세스 |
경고 |
로그인한 사용자가 허용된 사용자가 아니더라도 클라이언트가 권한이 있는 ONTAP_ADMIN$ 공유에 연결을 시도했습니다. |
다음 시정 조치를 수행하세요. 언급된 사용자 이름과 IP 주소가 활성 Vscan 스캐너 풀 중 하나에 구성되어 있는지 확인하세요. "vserver vscan scanner pool show-active" 명령을 사용하여 현재 활성화된 스캐너 풀 구성을 확인하세요. |
바이러스가 감지되었습니다 |
경고 |
Vscan 서버가 스토리지 시스템에 오류를 보고했습니다. 이는 일반적으로 바이러스가 발견되었음을 나타냅니다. 그러나 Vscan 서버의 다른 오류로 인해 이 이벤트가 발생할 수 있습니다. 클라이언트가 파일에 액세스하는 것이 거부되었습니다. Vscan 서버는 설정 및 구성에 따라 파일을 정리하거나, 격리하거나, 삭제할 수 있습니다. |
"syslog" 이벤트에 보고된 Vscan 서버 로그를 확인하여 감염된 파일을 성공적으로 치료, 격리 또는 삭제할 수 있었는지 확인하세요. 그렇게 할 수 없다면 시스템 관리자가 수동으로 파일을 삭제해야 할 수도 있습니다. |
볼륨 오프라인 |
정보 |
이 메시지는 볼륨이 오프라인이 되었음을 나타냅니다. |
볼륨을 다시 온라인으로 전환합니다. |
볼륨 제한 |
정보 |
이 이벤트는 유연한 볼륨이 제한되었음을 나타냅니다. |
볼륨을 다시 온라인으로 전환합니다. |
스토리지 VM 중지 성공 |
정보 |
이 메시지는 'vserver stop' 작업이 성공할 때 발생합니다. |
'vserver start' 명령을 사용하여 스토리지 VM에서 데이터 액세스를 시작합니다. |
노드 패닉 |
경고 |
이 이벤트는 패닉이 발생할 때 발생합니다. |
NetApp 고객 지원팀에 문의하세요. |
랜섬웨어 방지 로그 모니터
모니터 이름 |
심각성 |
설명 |
시정 조치 |
스토리지 VM 랜섬웨어 방지 모니터링 비활성화됨 |
경고 |
스토리지 VM에 대한 랜섬웨어 방지 모니터링이 비활성화되었습니다. 랜섬웨어 방지 기능을 활성화하여 스토리지 VM을 보호합니다. |
None |
스토리지 VM 랜섬웨어 방지 모니터링 활성화(학습 모드) |
정보 |
스토리지 VM에 대한 랜섬웨어 방지 모니터링이 학습 모드에서 활성화됩니다. |
None |
볼륨 랜섬웨어 모니터링 활성화 |
정보 |
볼륨에 대한 랜섬웨어 방지 모니터링이 활성화되었습니다. |
None |
볼륨 랜섬웨어 모니터링 비활성화됨 |
경고 |
해당 볼륨에 대한 랜섬웨어 방지 모니터링이 비활성화되었습니다. 볼륨을 보호하려면 랜섬웨어 방지 기능을 활성화하세요. |
None |
볼륨 랜섬웨어 모니터링 활성화(학습 모드) |
정보 |
볼륨에 대한 랜섬웨어 방지 모니터링은 학습 모드에서 활성화됩니다. |
None |
볼륨 랜섬웨어 모니터링 일시 중지(학습 모드) |
경고 |
볼륨에 대한 랜섬웨어 방지 모니터링이 학습 모드에서 일시 중지되었습니다. |
None |
볼륨 랜섬웨어 모니터링 일시 중지됨 |
경고 |
해당 볼륨에 대한 랜섬웨어 방지 모니터링이 일시 중지되었습니다. |
None |
볼륨 랜섬웨어 모니터링 비활성화 |
경고 |
해당 볼륨에 대한 랜섬웨어 방지 모니터링이 비활성화됩니다. |
None |
랜섬웨어 활동이 감지되었습니다 |
비판적인 |
탐지된 랜섬웨어로부터 데이터를 보호하기 위해 원본 데이터를 복원하는 데 사용할 수 있는 스냅샷 복사본이 생성되었습니다. 귀하의 시스템은 NetApp 기술 지원 및 구성된 대상에 AutoSupport 또는 "콜 홈" 메시지를 생성하여 전송합니다. AutoSupport 메시지는 문제 파악 및 해결을 개선합니다. |
랜섬웨어 활동에 대한 시정 조치를 취하려면 "FINAL-DOCUMENT-NAME"을 참조하세요. |
NetApp ONTAP 모니터용 FSx
모니터 이름 |
임계값 |
모니터 설명 |
시정 조치 |
FSx 볼륨 용량이 가득 찼습니다. |
경고 @ > 85 %…중요 @ > 95 % |
볼륨의 저장 용량은 애플리케이션과 고객 데이터를 저장하는 데 필요합니다. ONTAP 볼륨에 저장된 데이터가 많을수록 향후 데이터를 저장할 수 있는 저장 공간이 줄어듭니다. 볼륨 내의 데이터 저장 용량이 전체 저장 용량에 도달하면, 저장 용량이 부족하여 고객이 데이터를 저장하지 못하게 될 수 있습니다. 사용된 볼륨 저장 용량을 모니터링하면 데이터 서비스의 연속성이 보장됩니다. |
중요 임계값이 위반된 경우 서비스 중단을 최소화하기 위해 즉각적인 조치가 필요합니다.…1. 더 이상 필요하지 않은 데이터를 삭제하여 공간을 확보하는 것을 고려하세요. |
FSx 볼륨 고지연 |
경고 @ > 1000 µs…중요 @ > 2000 µs |
볼륨은 DevOps 애플리케이션, 홈 디렉토리, 데이터베이스 등 성능에 민감한 애플리케이션에서 발생하는 IO 트래픽을 처리하는 객체입니다. 볼륨 지연 시간이 길면 애플리케이션 자체가 손상되어 작업을 완료하지 못할 수 있습니다. 애플리케이션의 일관된 성능을 유지하려면 볼륨 지연 시간을 모니터링하는 것이 중요합니다. |
중요 임계값이 위반된 경우 서비스 중단을 최소화하기 위해 즉각적인 조치가 필요합니다.…1. 볼륨에 QoS 정책이 할당된 경우 볼륨 작업 부하가 조절되는 원인이 되는 경우를 대비해 볼륨의 제한 임계값을 평가합니다. 경고 임계값이 초과되면 곧 다음 조치를 취할 계획을 세우세요. 1. 볼륨에 QoS 정책이 할당된 경우 볼륨 작업 부하가 조절되는 원인이 되는 경우 해당 제한 임계값을 평가합니다.…2. 노드의 사용률이 높은 경우 볼륨을 다른 노드로 이동하거나 노드의 전체 작업 부하를 줄이세요. |
FSx 볼륨 Inode 제한 |
경고 @ > 85 %…중요 @ > 95 % |
파일을 저장하는 볼륨은 인덱스 노드(inode)를 사용하여 파일 메타데이터를 저장합니다. 볼륨이 inode 할당을 모두 소진하면 더 이상 파일을 추가할 수 없습니다. 경고 알림은 사용 가능한 inode 수를 늘리기 위해 계획된 작업을 수행해야 함을 나타냅니다. 중요 경고는 파일 제한 소진이 임박했으며 서비스 연속성을 보장하기 위해 inode를 확보하기 위한 비상 조치를 취해야 함을 나타냅니다. |
중요 임계값이 위반된 경우 서비스 중단을 최소화하기 위해 즉각적인 조치가 필요합니다.…1. 볼륨의 inode 값을 늘리는 것을 고려하세요. inode 값이 이미 최대값에 도달한 경우 파일 시스템이 최대 크기를 초과했으므로 볼륨을 두 개 이상의 볼륨으로 분할하는 것을 고려하세요. 경고 임계값이 초과되면 곧 다음 조치를 취할 계획입니다. 1. 볼륨의 inode 값을 늘리는 것을 고려하세요. inode 값이 이미 최대값에 도달한 경우 파일 시스템이 최대 크기를 초과했기 때문에 볼륨을 두 개 이상의 볼륨으로 분할하는 것을 고려하십시오. |
FSx 볼륨 Qtree 할당량 초과 커밋 |
경고 @ > 95 %…중요 @ > 100 % |
볼륨 Qtree 할당량 초과 커밋은 볼륨이 Qtree 할당량에 의해 초과 커밋된 것으로 간주되는 백분율을 지정합니다. 볼륨의 qtree 할당량에 대한 설정된 임계값에 도달했습니다. 볼륨 Qtree 할당량 초과 커밋을 모니터링하면 사용자가 중단 없는 데이터 서비스를 받을 수 있습니다. |
중요 임계값이 위반된 경우 서비스 중단을 최소화하기 위해 즉각적인 조치를 취해야 합니다. 1. 원치 않는 데이터를 삭제하세요… 경고 임계값을 초과하면 볼륨 공간을 늘리는 것을 고려하세요. |
FSx 스냅샷 예약 공간이 가득 찼습니다. |
경고 @ > 90 %…중요 @ > 95 % |
볼륨의 저장 용량은 애플리케이션과 고객 데이터를 저장하는 데 필요합니다. 스냅샷 예약 공간이라고 불리는 해당 공간의 일부는 스냅샷을 저장하는 데 사용되며, 이를 통해 데이터를 로컬로 보호할 수 있습니다. ONTAP 볼륨에 저장되는 새롭고 업데이트된 데이터가 많을수록 사용되는 스냅샷 용량이 늘어나고, 향후 새 데이터나 업데이트된 데이터에 사용할 수 있는 스냅샷 저장 용량은 줄어듭니다. 볼륨 내 스냅샷 데이터 용량이 총 스냅샷 예약 공간에 도달하면 고객이 새로운 스냅샷 데이터를 저장할 수 없게 되고 볼륨 내 데이터의 보호 수준이 낮아질 수 있습니다. 볼륨 사용 스냅샷 용량을 모니터링하면 데이터 서비스의 연속성이 보장됩니다. |
중요 임계값이 위반된 경우 서비스 중단을 최소화하기 위해 즉각적인 조치가 필요합니다.…1. 스냅샷 예약이 가득 찼을 때 볼륨의 데이터 공간을 사용하도록 스냅샷을 구성하는 것을 고려하세요…2. 더 이상 필요하지 않은 오래된 스냅샷을 삭제하여 공간을 확보하는 것을 고려하세요……경고 임계값이 초과되면 곧 다음 조치를 취할 계획을 세우세요:…1. 볼륨 내 스냅샷 예약 공간을 늘려서 성장에 대처하는 것을 고려하세요…2. 스냅샷 예약이 가득 찼을 때 볼륨의 데이터 공간을 사용하도록 스냅샷을 구성하는 것을 고려하세요. |
FSx 볼륨 캐시 미스 비율 |
경고 @ > 95 %…중요 @ > 100 % |
볼륨 캐시 미스 비율은 캐시에서 반환되는 대신 디스크에서 반환되는 클라이언트 애플리케이션의 읽기 요청의 백분율입니다. 이는 볼륨이 설정된 임계값에 도달했음을 의미합니다. |
중요 임계값이 위반된 경우 서비스 중단을 최소화하기 위해 즉각적인 조치를 취해야 합니다. 1. 2. IO 부하를 줄이기 위해 일부 작업 부하를 볼륨 노드 밖으로 이동합니다. QoS 제한을 통해 동일 노드에서 우선순위가 낮은 작업 부하에 대한 수요를 낮춥니다. 경고 임계값이 초과되면 즉각적인 조치를 고려하세요. 1. 2. IO 부하를 줄이기 위해 일부 작업 부하를 볼륨 노드 밖으로 이동합니다. 3. QoS 제한을 통해 동일한 노드에서 우선순위가 낮은 작업 부하에 대한 수요를 낮춥니다. 작업 부하 특성(블록 크기, 애플리케이션 캐싱 등) 변경 |
K8s 모니터
모니터 이름 |
설명 |
시정 조치 |
심각도/임계값 |
지속적인 볼륨 대기 시간 높음 |
지속적인 볼륨 지연 시간이 길면 애플리케이션 자체가 손상되어 작업을 완료하지 못할 수 있습니다. 일관된 애플리케이션 성능을 유지하려면 지속적인 볼륨 대기 시간을 모니터링하는 것이 중요합니다. 다음은 미디어 유형에 따른 예상 대기 시간입니다. SSD는 최대 1~2밀리초, SAS는 최대 8~10밀리초, SATA HDD는 17~20밀리초입니다. |
즉각적인 조치 중요 임계값이 초과된 경우 서비스 중단을 최소화하기 위한 즉각적인 조치를 고려하세요. 볼륨에 QoS 정책이 할당된 경우 볼륨 작업 부하가 조절되는 원인이 될 수 있으므로 해당 제한 임계값을 평가하세요. 곧 취해야 할 조치 경고 임계값을 초과한 경우 다음과 같은 즉각적인 조치를 계획하세요. 1. 스토리지 풀의 사용률도 높은 경우 볼륨을 다른 스토리지 풀로 이동합니다. 2. 볼륨에 QoS 정책이 할당된 경우 볼륨 작업 부하가 조절되는 원인이 되는지 확인하기 위해 해당 제한 임계값을 평가합니다. 3. 컨트롤러의 사용률이 높은 경우 볼륨을 다른 컨트롤러로 옮기거나 컨트롤러의 전체 작업 부하를 줄이세요. |
경고 @ > 6,000 μs 위험 @ > 12,000 μs |
클러스터 메모리 포화도 높음 |
클러스터 할당 가능 메모리 포화 상태가 높습니다. 클러스터 CPU 포화도는 모든 K8 노드에서 할당 가능한 메모리의 합으로 나눈 메모리 사용량의 합으로 계산됩니다. |
노드를 추가합니다. 예약되지 않은 노드를 수정합니다. 노드의 메모리를 확보하기 위해 적절한 크기의 포드를 사용합니다. |
경고 @ > 80 % 위험 @ > 90 % |
POD 연결 실패 |
이 경고는 POD를 사용한 볼륨 연결이 실패할 때 발생합니다. |
경고 |
|
높은 재전송률 |
높은 TCP 재전송률 |
네트워크 혼잡 확인 - 네트워크 대역폭을 많이 소모하는 작업 부하를 식별합니다. Pod CPU 사용률이 높은지 확인하세요. 하드웨어 네트워크 성능을 확인하세요. |
경고 @ > 10 % 위험 @ > 25 % |
노드 파일 시스템 용량 높음 |
노드 파일 시스템 용량 높음 |
- 애플리케이션 파일을 위한 충분한 공간을 확보하기 위해 노드 디스크의 크기를 늘립니다. - 애플리케이션 파일 사용량을 줄입니다. |
경고 @ > 80 % 위험 @ > 90 % |
워크로드 네트워크 지터 높음 |
높은 TCP 지터(높은 지연 시간/응답 시간 변동) |
네트워크 혼잡 여부를 확인하세요. 네트워크 대역폭을 많이 소모하는 작업 부하를 식별합니다. Pod CPU 사용률이 높은지 확인하세요. 하드웨어 네트워크 성능 확인 |
경고 @ > 30ms 위험 @ > 50ms |
영구 볼륨 처리량 |
영구 볼륨의 MBPS 임계값을 사용하면 영구 볼륨이 사전 정의된 성능 기대치를 초과하여 다른 영구 볼륨에 영향을 미칠 가능성이 있을 때 관리자에게 경고할 수 있습니다. 이 모니터를 활성화하면 SSD의 지속형 볼륨의 일반적인 처리량 프로필에 적합한 경고가 생성됩니다. 이 모니터는 테넌트의 모든 영구 볼륨을 감시합니다. 이 모니터를 복제하고 스토리지 클래스에 적합한 임계값을 설정하여 모니터링 목표에 따라 경고 및 위험 임계값을 조정할 수 있습니다. 복제된 모니터는 테넌트의 영구 볼륨 하위 집합을 더욱 구체적으로 타겟팅할 수 있습니다. |
즉각적인 조치 중요 임계값이 위반된 경우 서비스 중단을 최소화하기 위한 즉각적인 조치를 계획합니다. 1. 볼륨에 대한 QoS MBPS 제한을 도입합니다. 2. 볼륨의 작업 부하를 구동하는 애플리케이션을 검토하여 이상이 있는지 확인합니다. 곧 취해야 할 조치 경고 임계값을 초과한 경우 다음과 같은 즉각적인 조치를 취할 계획을 세우세요. 1. 볼륨에 대한 QoS MBPS 제한을 도입합니다. 2. 볼륨의 작업 부하를 구동하는 애플리케이션을 검토하여 이상이 있는지 확인합니다. |
경고 @ > 10,000MB/s 중요 @ > 15,000MB/s |
OOM 위험에 처한 컨테이너 사망 |
컨테이너의 메모리 제한이 너무 낮게 설정되어 있습니다. 컨테이너가 강제 퇴거(메모리 부족으로 인해 삭제)될 위험이 있습니다. |
컨테이너 메모리 한도를 늘립니다. |
경고 @ > 95% |
작업 부하 감소 |
워크로드에 건강한 포드가 없습니다. |
중요 @ < 1 |
|
영구 볼륨 클레임 바인딩 실패 |
이 경고는 PVC의 바인딩에 실패할 때 발생합니다. |
경고 |
|
ResourceQuota 메모리 한도가 초과됩니다. |
네임스페이스의 메모리 제한이 ResourceQuota를 초과하려고 합니다. |
경고 @ > 80 % 위험 @ > 90 % |
|
ResourceQuota 메모리 요청이 초과될 예정입니다. |
네임스페이스에 대한 메모리 요청이 ResourceQuota를 초과하려고 합니다. |
경고 @ > 80 % 위험 @ > 90 % |
|
노드 생성 실패 |
구성 오류로 인해 노드를 예약할 수 없습니다. |
구성 실패의 원인을 알아보려면 Kubernetes 이벤트 로그를 확인하세요. |
비판적인 |
영구 볼륨 회수 실패 |
볼륨이 자동 회수에 실패했습니다. |
경고 @ > 0 B |
|
컨테이너 CPU 조절 |
컨테이너의 CPU 제한이 너무 낮게 설정되었습니다. 컨테이너 프로세스가 느려집니다. |
컨테이너 CPU 한도를 늘립니다. |
경고 @ > 95 % 위험 @ > 98 % |
서비스 로드 밸런서를 삭제하지 못했습니다. |
경고 |
||
영구 볼륨 IOPS |
영구 볼륨의 IOPS 임계값을 사용하면 영구 볼륨이 사전 정의된 성능 기대치를 초과할 때 관리자에게 경고할 수 있습니다. 이 모니터를 활성화하면 지속성 볼륨의 일반적인 IOPS 프로필에 적합한 경고가 생성됩니다. 이 모니터는 테넌트의 모든 영구 볼륨을 감시합니다. 모니터링 목표에 따라 이 모니터를 복제하고 작업 부하에 적합한 임계값을 설정하여 경고 및 위험 임계값을 조정할 수 있습니다. |
즉각적인 조치 중요 임계값이 위반된 경우 서비스 중단을 최소화하기 위한 즉각적인 조치를 계획합니다. 1. 볼륨에 대한 QoS IOPS 제한을 도입합니다. 2. 볼륨의 작업 부하를 구동하는 애플리케이션을 검토하여 이상이 있는지 확인합니다. 곧 취해야 할 조치 경고 임계값을 초과한 경우 다음과 같은 즉각적인 조치를 계획하세요. 1. 볼륨에 대한 QoS IOPS 제한을 도입합니다. 2. 볼륨의 작업 부하를 구동하는 애플리케이션을 검토하여 이상이 있는지 확인합니다. |
경고 @ > 20,000 IO/s 위험 @ > 25,000 IO/s |
서비스 로드 밸런서 업데이트에 실패했습니다. |
경고 |
||
POD 마운트 실패 |
이 경고는 POD에서 마운트가 실패할 때 발생합니다. |
경고 |
|
노드 PID 압력 |
(Linux) 노드에서 사용 가능한 프로세스 식별자가 퇴거 임계값 아래로 떨어졌습니다. |
많은 프로세스를 생성하고 노드에서 사용 가능한 프로세스 ID를 부족하게 만드는 포드를 찾아 수정합니다. PodPidsLimit을 설정하면 너무 많은 프로세스를 생성하는 Pod나 컨테이너로부터 노드를 보호할 수 있습니다. |
중요 @ > 0 |
Pod 이미지 풀 실패 |
쿠버네티스가 포드 컨테이너 이미지를 가져오지 못했습니다. |
- 포드 구성에서 포드 이미지가 올바르게 입력되었는지 확인하세요. - 레지스트리에 이미지 태그가 있는지 확인하세요. - 이미지 레지스트리의 자격 증명을 확인하세요. - 레지스트리 연결 문제를 확인하세요. - 공공 등록 제공자가 부과하는 요금 제한에 도달하지 않았는지 확인하세요. |
경고 |
작업이 너무 오래 걸립니다 |
작업이 너무 오래 실행 중입니다. |
경고 @ > 1시간 중요 @ > 5시간 |
|
노드 메모리 높음 |
노드 메모리 사용량이 높습니다 |
노드를 추가합니다. 예약되지 않은 노드를 수정합니다. 노드의 메모리를 확보하기 위해 적절한 크기의 포드를 사용합니다. |
경고 @ > 85 % 위험 @ > 90 % |
ResourceQuota CPU 제한이 초과됩니다 |
네임스페이스의 CPU 제한이 ResourceQuota를 초과하려고 합니다. |
경고 @ > 80 % 위험 @ > 90 % |
|
포드 크래시 루프 백오프 |
Pod가 충돌하여 여러 번 재시작을 시도했습니다. |
중요 @ > 3 |
|
노드 CPU 높음 |
노드 CPU 사용량이 높습니다. |
노드를 추가합니다. 예약되지 않은 노드를 수정합니다. 노드에서 CPU를 확보하기 위해 적절한 크기의 포드를 사용합니다. |
경고 @ > 80 % 위험 @ > 90 % |
워크로드 네트워크 대기 시간 RTT 높음 |
높은 TCP RTT(왕복 시간) 지연 |
네트워크 혼잡 확인 ▒ 네트워크 대역폭을 많이 소모하는 작업 부하를 식별합니다. Pod CPU 사용률이 높은지 확인하세요. 하드웨어 네트워크 성능을 확인하세요. |
경고 @ > 150ms 위험 @ > 300ms |
작업 실패 |
노드 충돌이나 재부팅, 리소스 고갈, 작업 시간 초과 또는 Pod 스케줄링 실패로 인해 작업이 성공적으로 완료되지 않았습니다. |
실패 원인을 알아보려면 Kubernetes 이벤트 로그를 확인하세요. |
경고 @ > 1 |
며칠 안에 영구 볼륨이 가득 찼습니다. |
영구 볼륨은 며칠 안에 공간이 부족해질 것입니다. |
- 애플리케이션 파일을 위한 충분한 공간을 확보하기 위해 볼륨 크기를 늘리세요. - 애플리케이션에 저장된 데이터 양을 줄입니다. |
경고 @ < 8일 중요 @ < 3일 |
노드 메모리 압력 |
노드의 메모리가 부족합니다. 사용 가능한 메모리가 제거 임계값에 도달했습니다. |
노드를 추가합니다. 예약되지 않은 노드를 수정합니다. 노드의 메모리를 확보하기 위해 적절한 크기의 포드를 사용합니다. |
중요 @ > 0 |
노드 준비 안 됨 |
노드가 5분 동안 준비되지 않았습니다. |
노드에 충분한 CPU, 메모리, 디스크 리소스가 있는지 확인하세요. 노드 네트워크 연결을 확인하세요. 실패 원인을 알아보려면 Kubernetes 이벤트 로그를 확인하세요. |
중요 @ < 1 |
영구 볼륨 용량 높음 |
영구 볼륨 백엔드 사용 용량이 높습니다. |
- 볼륨 크기를 늘려 애플리케이션 파일을 위한 충분한 공간을 확보하세요. - 애플리케이션에 저장된 데이터 양을 줄입니다. |
경고 @ > 80 % 위험 @ > 90 % |
서비스 로드 밸런서를 생성하지 못했습니다. |
서비스 로드 밸런서 생성 실패 |
비판적인 |
|
워크로드 복제본 불일치 |
일부 포드는 현재 배포 또는 DaemonSet에서 사용할 수 없습니다. |
경고 @ > 1 |
|
ResourceQuota CPU 요청이 초과될 예정입니다. |
네임스페이스에 대한 CPU 요청이 ResourceQuota를 초과하려고 합니다. |
경고 @ > 80 % 위험 @ > 90 % |
|
높은 재전송률 |
높은 TCP 재전송률 |
네트워크 혼잡 확인 - 네트워크 대역폭을 많이 소모하는 작업 부하를 식별합니다. Pod CPU 사용률이 높은지 확인하세요. 하드웨어 네트워크 성능을 확인하세요. |
경고 @ > 10 % 위험 @ > 25 % |
노드 디스크 압력 |
노드의 루트 파일 시스템이나 이미지 파일 시스템에 있는 사용 가능한 디스크 공간과 inode가 퇴거 임계값을 충족했습니다. |
- 애플리케이션 파일을 위한 충분한 공간을 확보하기 위해 노드 디스크의 크기를 늘립니다. - 애플리케이션 파일 사용량을 줄입니다. |
중요 @ > 0 |
클러스터 CPU 포화도 높음 |
클러스터에 할당 가능한 CPU 포화도가 높습니다. 클러스터 CPU 포화도는 모든 K8 노드에 할당 가능한 CPU 합계로 나눈 CPU 사용량 합계로 계산됩니다. |
노드를 추가합니다. 예약되지 않은 노드를 수정합니다. 노드에서 CPU를 확보하기 위해 적절한 크기의 포드를 사용합니다. |
경고 @ > 80 % 위험 @ > 90 % |
변경 로그 모니터
모니터 이름 |
심각성 |
모니터 설명 |
내부 볼륨 발견됨 |
정보 제공 |
이 메시지는 내부 볼륨이 발견되었을 때 발생합니다. |
내부 볼륨 수정됨 |
정보 제공 |
이 메시지는 내부 볼륨이 수정될 때 발생합니다. |
저장 노드가 발견되었습니다 |
정보 제공 |
이 메시지는 스토리지 노드가 검색될 때 발생합니다. |
스토리지 노드가 제거되었습니다 |
정보 제공 |
이 메시지는 스토리지 노드가 제거될 때 발생합니다. |
스토리지 풀이 발견되었습니다 |
정보 제공 |
이 메시지는 스토리지 풀이 검색될 때 발생합니다. |
스토리지 가상 머신이 발견되었습니다 |
정보 제공 |
이 메시지는 스토리지 가상 머신이 검색될 때 발생합니다. |
스토리지 가상 머신 수정됨 |
정보 제공 |
이 메시지는 스토리지 가상 머신이 수정될 때 발생합니다. |
데이터 수집 모니터
모니터 이름 |
설명 |
시정 조치 |
인수 유닛 폐쇄 |
Data Infrastructure Insights 인수 부서는 새로운 기능을 도입하기 위한 업그레이드의 일환으로 주기적으로 다시 시작됩니다. 이런 일은 일반적인 환경에서는 한 달에 한 번 이하로 발생합니다. 인수 부서가 폐쇄되었다는 경고 알림이 발송된 후, 새로 재개된 인수 부서가 Data Infrastructure Insights 에 등록을 완료했다는 내용을 알리는 결의안이 곧 발송되어야 합니다. 일반적으로 종료에서 등록까지의 주기는 5~15분이 걸립니다. |
경보가 자주 발생하거나 15분 이상 지속되는 경우, 수집 장치를 호스팅하는 시스템, 네트워크 및 AU를 인터넷에 연결하는 모든 프록시의 작동을 확인하세요. |
수집기 실패 |
데이터 수집기의 여론조사에서 예상치 못한 오류 상황이 발생했습니다. |
상황에 대해 자세히 알아보려면 Data Infrastructure Insights 의 데이터 수집기 페이지를 방문하세요. |
수집가 경고 |
이 경고는 일반적으로 데이터 수집기나 대상 시스템의 잘못된 구성으로 인해 발생할 수 있습니다. 향후 알림을 방지하려면 구성을 다시 확인하세요. 또한 데이터 수집자가 수집할 수 있는 모든 데이터를 수집했지만 완전하지 못한 데이터를 검색한 경우에도 발생할 수 있습니다. 이는 데이터 수집 중에 상황이 변경될 때 발생할 수 있습니다(예: 데이터 수집 시작 시 존재하던 가상 머신이 데이터 수집 중에 삭제되고 데이터가 캡처되기 전에 삭제되는 경우). |
데이터 수집기 또는 대상 시스템의 구성을 확인하세요. 수집기 경고 모니터는 다른 모니터 유형보다 더 많은 경고를 보낼 수 있으므로 문제 해결을 위한 경우가 아니면 경고 수신자를 설정하지 않는 것이 좋습니다. |
보안 모니터
모니터 이름 |
한계점 |
모니터 설명 |
시정 조치 |
AutoSupport HTTPS 전송이 비활성화되었습니다. |
경고 @ < 1 |
AutoSupport 전송 프로토콜로 HTTPS, HTTP, SMTP를 지원합니다. AutoSupport 메시지의 민감한 특성으로 인해 NetApp NetApp 지원팀에 AutoSupport 메시지를 보낼 때 기본 전송 프로토콜로 HTTPS를 사용할 것을 강력히 권장합니다. |
AutoSupport 메시지에 대한 전송 프로토콜로 HTTPS를 설정하려면 다음 ONTAP 명령을 실행하세요. …system node autosupport modify -transport https |
SSH용 클러스터 비보안 암호 |
경고 @ < 1 |
SSH가 안전하지 않은 암호(예: *cbc로 시작하는 암호)를 사용하고 있음을 나타냅니다. |
CBC 암호를 제거하려면 다음 ONTAP 명령을 실행하세요.…security ssh remove -vserver <admin vserver> -ciphers aes256-cbc,aes192-cbc,aes128-cbc,3des-cbc |
클러스터 로그인 배너 비활성화됨 |
경고 @ < 1 |
ONTAP 시스템에 액세스하는 사용자의 로그인 배너가 비활성화되었음을 나타냅니다. 로그인 배너를 표시하면 시스템 접근 및 사용에 대한 기대치를 설정하는 데 도움이 됩니다. |
클러스터에 대한 로그인 배너를 구성하려면 다음 ONTAP 명령을 실행하세요.…security login banner modify -vserver <admin svm> -message "Access restricted to authorized users" |
클러스터 피어 통신이 암호화되지 않았습니다 |
경고 @ < 1 |
재해 복구, 캐싱 또는 백업을 위해 데이터를 복제하는 경우, 한 ONTAP 클러스터에서 다른 ONTAP 클러스터로 데이터를 전송하는 동안 데이터를 보호해야 합니다. 소스 클러스터와 대상 클러스터 모두에서 암호화를 구성해야 합니다. |
ONTAP 9.6 이전에 생성된 클러스터 피어 관계에 암호화를 활성화하려면 소스 및 대상 클러스터를 9.6으로 업그레이드해야 합니다. 그런 다음 "cluster peer modify" 명령을 사용하여 소스 및 대상 클러스터 피어를 모두 클러스터 피어링 암호화를 사용하도록 변경합니다. 자세한 내용은 ONTAP 9용 NetApp 보안 강화 가이드를 참조하세요. |
기본 로컬 관리자 사용자 활성화됨 |
경고 @ > 0 |
NetApp lock 명령을 사용하여 불필요한 기본 관리자 사용자(내장) 계정을 잠그거나 비활성화할 것을 권장합니다. 이러한 계정은 비밀번호가 업데이트되거나 변경되지 않은 기본 계정입니다. |
내장된 "admin" 계정을 잠그려면 다음 ONTAP 명령을 실행하세요.…security login lock -username admin |
FIPS 모드 비활성화됨 |
경고 @ < 1 |
FIPS 140-2 규정 준수가 활성화되면 TLSv1 및 SSLv3는 비활성화되고 TLSv1.1 및 TLSv1.2만 활성화 상태로 유지됩니다. FIPS 140-2 규정 준수가 활성화된 경우 ONTAP 사용하면 TLSv1 및 SSLv3을 사용할 수 없습니다. |
클러스터에서 FIPS 140-2 규정 준수를 활성화하려면 고급 권한 모드에서 다음 ONTAP 명령을 실행하세요.…security config modify -interface SSL -is-fips-enabled true |
로그 전달이 암호화되지 않음 |
경고 @ < 1 |
시스템 로그 정보를 오프로드하는 것은 침해의 범위나 영향을 단일 시스템이나 솔루션으로 제한하는 데 필요합니다. 따라서 NetApp syslog 정보를 안전한 저장소나 보관 위치로 안전하게 오프로드할 것을 권장합니다. |
로그 전달 대상이 생성되면 해당 프로토콜을 변경할 수 없습니다. 암호화된 프로토콜로 변경하려면 다음 ONTAP 명령을 사용하여 로그 전달 대상을 삭제하고 다시 만듭니다.…cluster log-forwarding create -destination <대상 IP> -protocol tcp-encrypted |
MD5 해시된 비밀번호 |
경고 @ > 0 |
NetApp ONTAP 사용자 계정 비밀번호에 보다 안전한 SHA-512 해시 함수를 사용할 것을 강력히 권장합니다. 보안 수준이 낮은 MD5 해시 함수를 사용하는 계정은 SHA-512 해시 함수로 마이그레이션해야 합니다. |
NetApp 사용자가 암호를 변경하도록 하여 보다 안전한 SHA-512 솔루션으로 사용자 계정을 마이그레이션할 것을 강력히 권장합니다. MD5 해시 함수를 사용하는 암호로 계정을 잠그려면 다음 ONTAP 명령을 실행하세요. security login lock -vserver * -username * -hash-function md5 |
NTP 서버가 구성되지 않았습니다. |
경고 @ < 1 |
클러스터에 구성된 NTP 서버가 없음을 나타냅니다. 중복성과 최적의 서비스를 위해 NetApp 클러스터에 최소 3개의 NTP 서버를 연결할 것을 권장합니다. |
클러스터에 NTP 서버를 연결하려면 다음 ONTAP 명령을 실행하세요. cluster time-service ntp server create -server <ntp 서버 호스트 이름 또는 IP 주소> |
NTP 서버 수가 적습니다 |
경고 @ < 3 |
클러스터에 구성된 NTP 서버가 3개 미만임을 나타냅니다. 중복성과 최적의 서비스를 위해 NetApp 클러스터에 최소 3개의 NTP 서버를 연결할 것을 권장합니다. |
클러스터에 NTP 서버를 연결하려면 다음 ONTAP 명령을 실행하세요.…cluster time-service ntp server create -server <ntp 서버 호스트 이름 또는 IP 주소> |
원격 셸 활성화됨 |
경고 @ > 0 |
원격 셸은 ONTAP 솔루션에 대한 명령줄 액세스를 설정하는 안전한 방법이 아닙니다. 안전한 원격 액세스를 위해서는 원격 셸을 비활성화해야 합니다. |
NetApp 안전한 원격 액세스를 위해 SSH(Secure Shell)를 권장합니다. 클러스터에서 원격 셸을 비활성화하려면 고급 권한 모드에서 다음 ONTAP 명령을 실행하세요. security protocol modify -application rsh- enabled false |
스토리지 VM 감사 로그 비활성화됨 |
경고 @ < 1 |
SVM에 대한 감사 로깅이 비활성화되었음을 나타냅니다. |
vserver에 대한 감사 로그를 구성하려면 다음 ONTAP 명령을 실행하세요.…vserver audit enable -vserver <svm> |
SSH를 위한 스토리지 VM 안전하지 않은 암호 |
경고 @ < 1 |
SSH가 안전하지 않은 암호(예: *cbc로 시작하는 암호)를 사용하고 있음을 나타냅니다. |
CBC 암호를 제거하려면 다음 ONTAP 명령을 실행하세요.…security ssh remove -vserver <vserver> -ciphers aes256-cbc,aes192-cbc,aes128-cbc,3des-cbc |
스토리지 VM 로그인 배너 비활성화됨 |
경고 @ < 1 |
시스템의 SVM에 액세스하는 사용자의 로그인 배너가 비활성화되었음을 나타냅니다. 로그인 배너를 표시하면 시스템 접근 및 사용에 대한 기대치를 설정하는 데 도움이 됩니다. |
클러스터에 대한 로그인 배너를 구성하려면 다음 ONTAP 명령을 실행하세요.…security login banner modify -vserver <svm> -message "Access restricted to authorized users" |
Telnet 프로토콜 활성화됨 |
경고 @ > 0 |
Telnet은 ONTAP 솔루션에 대한 명령줄 액세스를 설정하는 안전한 방법이 아닙니다. 안전한 원격 액세스를 위해서는 Telnet을 비활성화해야 합니다. |
NetApp 안전한 원격 액세스를 위해 Secure Shell(SSH)을 권장합니다. 클러스터에서 Telnet을 비활성화하려면 고급 권한 모드에서 다음 ONTAP 명령을 실행하세요.…security protocol modify -application telnet -enabled false |
데이터 보호 모니터
모니터 이름 |
임계값 |
모니터 설명 |
시정 조치 |
LUN 스냅샷 복사를 위한 공간이 부족합니다. |
(필터 contains_luns = 예) 경고 @ > 95 %…중요 @ > 100 % |
볼륨의 저장 용량은 애플리케이션과 고객 데이터를 저장하는 데 필요합니다. 스냅샷 예약 공간이라고 불리는 해당 공간의 일부는 스냅샷을 저장하는 데 사용되며, 이를 통해 데이터를 로컬로 보호할 수 있습니다. ONTAP 볼륨에 저장되는 새롭고 업데이트된 데이터가 많을수록 사용되는 스냅샷 용량이 늘어나고, 향후 새 데이터나 업데이트된 데이터에 사용할 수 있는 스냅샷 저장 용량은 줄어듭니다. 볼륨 내의 스냅샷 데이터 용량이 총 스냅샷 예약 공간에 도달하면 고객이 새로운 스냅샷 데이터를 저장할 수 없게 되고 볼륨 내 LUN의 데이터 보호 수준이 낮아질 수 있습니다. 볼륨 사용 스냅샷 용량을 모니터링하면 데이터 서비스의 연속성이 보장됩니다. |
즉각적인 조치 중요 임계값이 위반된 경우 서비스 중단을 최소화하기 위해 즉각적인 조치를 고려하세요. 1. 스냅샷 예약이 가득 찼을 때 볼륨의 데이터 공간을 사용하도록 스냅샷을 구성합니다. 2. 공간을 확보하려면 원하지 않는 오래된 스냅샷을 삭제하세요. 곧 취해야 할 조치 경고 임계값을 초과한 경우 다음과 같은 즉각적인 조치를 취할 계획을 세우세요. 1. 볼륨 내 스냅샷 예약 공간을 늘려 성장에 대응합니다. 2. 스냅샷 예약이 가득 찼을 때 볼륨의 데이터 공간을 사용하도록 스냅샷을 구성합니다. |
SnapMirror 관계 지연 |
경고 @ > 150%…중요 @ > 300% |
SnapMirror 관계 지연은 스냅샷 타임스탬프와 대상 시스템의 시간 차이입니다. lag_time_percent는 SnapMirror 정책의 일정 간격에 대한 지연 시간의 비율입니다. 지연 시간이 일정 간격과 같으면 lag_time_percent는 100%가 됩니다. SnapMirror 정책에 일정이 없으면 lag_time_percent가 계산되지 않습니다. |
"snapmirror show" 명령을 사용하여 SnapMirror 상태를 모니터링합니다. "snapmirror show-history" 명령을 사용하여 SnapMirror 전송 기록을 확인하세요. |
클라우드 볼륨(CVO) 모니터
모니터 이름 |
CI 심각도 |
모니터 설명 |
시정 조치 |
CVO 디스크 서비스 중단 |
정보 |
이 이벤트는 디스크가 오류로 표시되거나 정리 중이거나 유지 관리 센터에 들어갔기 때문에 서비스에서 제거될 때 발생합니다. |
None |
CVO 스토리지 풀 반환 실패 |
비판적인 |
이 이벤트는 대상 노드가 개체 저장소에 도달할 수 없을 때 스토리지 장애 조치(SFO)의 일부로 집계를 마이그레이션하는 동안 발생합니다. |
다음 시정 조치를 수행하세요. "네트워크 인터페이스 표시" 명령을 사용하여 클러스터 간 LIF가 온라인이고 작동하는지 확인하세요. 대상 노드 클러스터 간 LIF를 통해 "ping" 명령을 사용하여 개체 저장소 서버에 대한 네트워크 연결을 확인합니다. "aggregate object-store config show" 명령을 사용하여 개체 저장소 구성이 변경되지 않았고 로그인 및 연결 정보가 여전히 정확한지 확인합니다. 또는 giveback 명령의 "require-partner-waiting" 매개변수에 false를 지정하여 오류를 무시할 수 있습니다. 자세한 정보나 도움이 필요하면 NetApp 기술 지원팀에 문의하세요. |
CVO HA 상호 연결 중단 |
경고 |
고가용성(HA) 상호 연결이 끊어졌습니다. 장애 조치가 불가능할 경우 서비스가 중단될 위험이 있습니다. |
시정 조치는 플랫폼에서 지원하는 HA 상호 연결 링크의 수와 유형, 그리고 상호 연결이 끊어진 이유에 따라 달라집니다. 링크가 끊어진 경우: HA 쌍의 두 컨트롤러가 모두 작동하는지 확인하세요. 외부 연결 링크의 경우 상호 연결 케이블이 제대로 연결되었는지 확인하고, 해당되는 경우 소형 폼 팩터 플러그형(SFP)이 두 컨트롤러에 제대로 장착되었는지 확인하세요. 내부적으로 연결된 링크의 경우 "ic link off" 및 "ic link on" 명령을 사용하여 링크를 차례로 비활성화했다가 다시 활성화합니다. 링크가 비활성화된 경우 "ic link on" 명령을 사용하여 링크를 활성화합니다. 피어가 연결되지 않은 경우 "ic link off" 및 "ic link on" 명령을 사용하여 링크를 하나씩 비활성화했다가 다시 활성화합니다. 문제가 지속되면 NetApp 기술 지원팀에 문의하세요. |
사용자당 CVO 최대 세션 수 초과 |
경고 |
TCP 연결을 통해 사용자당 허용되는 최대 세션 수를 초과했습니다. 일부 세션이 공개될 때까지 세션을 설정하려는 모든 요청은 거부됩니다. |
다음과 같은 시정 조치를 수행하세요. 클라이언트에서 실행되는 모든 애플리케이션을 검사하고 제대로 작동하지 않는 애플리케이션을 종료하세요. 클라이언트를 재부팅합니다. 문제가 새 애플리케이션이나 기존 애플리케이션으로 인해 발생하는지 확인합니다. 애플리케이션이 새 것이면 "cifs option modify -max-opens-same-file-per-tree" 명령을 사용하여 클라이언트에 대한 임계값을 더 높게 설정합니다. 어떤 경우에는 클라이언트가 예상대로 작동하지만 더 높은 임계값이 필요합니다. 클라이언트에 대해 더 높은 임계값을 설정하려면 고급 권한이 있어야 합니다. 문제가 기존 애플리케이션으로 인해 발생한 경우 클라이언트에 문제가 있을 수 있습니다. 자세한 정보나 도움이 필요하면 NetApp 기술 지원팀에 문의하세요. |
CVO NetBIOS 이름 충돌 |
비판적인 |
NetBIOS 이름 서비스는 원격 컴퓨터에서 이름 등록 요청에 대해 부정적인 응답을 받았습니다. 이는 일반적으로 NetBIOS 이름이나 별칭의 충돌로 인해 발생합니다. 결과적으로 클라이언트는 데이터에 액세스하지 못하거나 클러스터 내의 올바른 데이터 제공 노드에 연결하지 못할 수 있습니다. |
다음 수정 작업 중 하나를 수행합니다. NetBIOS 이름이나 별칭에 충돌이 있는 경우 다음 중 하나를 수행합니다. "vserver cifs delete -aliases alias -vserver vserver" 명령을 사용하여 중복된 NetBIOS 별칭을 삭제합니다. "vserver cifs create -aliases alias -vserver vserver" 명령을 사용하여 중복된 이름을 삭제하고 새 이름의 별칭을 추가하여 NetBIOS 별칭의 이름을 바꿉니다. 별칭이 구성되어 있지 않고 NetBIOS 이름에 충돌이 있는 경우 "vserver cifs delete -vserver vserver" 및 "vserver cifs create -cifs-server netbiosname" 명령을 사용하여 CIFS 서버의 이름을 변경합니다. 참고: CIFS 서버를 삭제하면 데이터에 액세스할 수 없게 됩니다. 원격 컴퓨터에서 NetBIOS 이름을 제거하거나 NetBIOS 이름을 변경합니다. |
CVO NFSv4 저장소 풀이 소진되었습니다 |
비판적인 |
NFSv4 저장소 풀이 고갈되었습니다. |
이 이벤트가 발생한 후 NFS 서버가 10분 이상 응답하지 않으면 NetApp 기술 지원팀에 문의하세요. |
CVO 노드 패닉 |
경고 |
이 이벤트는 패닉이 발생할 때 발생합니다. |
NetApp 고객 지원팀에 문의하세요. |
CVO 노드 루트 볼륨 공간 낮음 |
비판적인 |
시스템에서 루트 볼륨의 공간이 위험할 정도로 부족하다는 것을 감지했습니다. 노드가 완전히 작동하지 않습니다. 클러스터 내에서 데이터 LIF가 장애 조치되었을 수 있으며, 이로 인해 노드에서 NFS 및 CIFS 액세스가 제한됩니다. 관리 기능은 노드가 루트 볼륨의 공간을 비우기 위한 로컬 복구 절차로 제한됩니다. |
다음과 같은 시정 조치를 수행하세요. 오래된 스냅샷 복사본을 삭제하거나, /mroot 디렉터리에서 더 이상 필요하지 않은 파일을 삭제하거나, 루트 볼륨 용량을 확장하여 루트 볼륨의 공간을 확보하세요. 컨트롤러를 재부팅합니다. 자세한 정보나 도움이 필요하면 NetApp 기술 지원팀에 문의하세요. |
CVO가 존재하지 않는 관리자 공유 |
비판적인 |
Vscan 문제: 클라이언트가 존재하지 않는 ONTAP_ADMIN$ 공유에 연결을 시도했습니다. |
언급된 SVM ID에 대해 Vscan이 활성화되어 있는지 확인하세요. SVM에서 Vscan을 활성화하면 SVM에 대한 ONTAP_ADMIN$ 공유가 자동으로 생성됩니다. |
CVO 개체 저장소 호스트를 확인할 수 없음 |
비판적인 |
개체 저장소 서버 호스트 이름을 IP 주소로 확인할 수 없습니다. 객체 저장소 클라이언트는 IP 주소를 확인하지 않고는 객체 저장소 서버와 통신할 수 없습니다. 결과적으로 데이터에 접근하지 못할 수도 있습니다. |
DNS 구성을 확인하여 호스트 이름이 IP 주소로 올바르게 구성되었는지 확인하세요. |
CVO 개체 저장소 클러스터 간 LIF 다운 |
비판적인 |
객체 저장소 클라이언트가 객체 저장소 서버와 통신할 수 있는 작동 LIF를 찾을 수 없습니다. 노드는 클러스터 간 LIF가 작동할 때까지 개체 저장소 클라이언트 트래픽을 허용하지 않습니다. 결과적으로 데이터에 접근하지 못할 수도 있습니다. |
다음 시정 조치를 수행하세요. "network interface show -role intercluster" 명령을 사용하여 클러스터 간 LIF 상태를 확인하세요. 클러스터 간 LIF가 올바르게 구성되고 작동하는지 확인합니다. 클러스터 간 LIF가 구성되지 않은 경우 "network interface create -role intercluster" 명령을 사용하여 추가합니다. |
CVO 개체 저장소 서명 불일치 |
비판적인 |
개체 저장소 서버로 전송된 요청 서명이 클라이언트가 계산한 서명과 일치하지 않습니다. 결과적으로 데이터에 접근하지 못할 수도 있습니다. |
비밀 액세스 키가 올바르게 구성되었는지 확인하세요. 올바르게 구성된 경우 NetApp 기술 지원팀에 문의하여 도움을 받으세요. |
CVO QoS 모니터 메모리가 최대치에 도달했습니다. |
비판적인 |
QoS 하위 시스템의 동적 메모리가 현재 플랫폼 하드웨어의 한계에 도달했습니다. 일부 QoS 기능은 제한된 용량으로 작동할 수 있습니다. |
일부 활성 작업이나 스트림을 삭제하여 메모리를 확보합니다. "statistics show -object workload -counter ops" 명령을 사용하여 어떤 워크로드가 활성화되어 있는지 확인합니다. 활성 워크로드는 0이 아닌 ops를 보여줍니다. 그런 다음 "workload delete <workload_name>" 명령을 여러 번 사용하여 특정 워크로드를 제거합니다. 또는 "stream delete -workload <워크로드 이름> *" 명령을 사용하여 활성 워크로드에서 연관된 스트림을 삭제합니다. |
CVO READDIR 시간 초과 |
비판적인 |
READDIR 파일 작업이 WAFL 에서 실행할 수 있는 시간 제한을 초과했습니다. 이는 디렉토리가 매우 크거나 희소하기 때문에 발생할 수 있습니다. 시정 조치가 권장됩니다. |
다음의 시정 조치를 수행하세요. 다음의 'diag' 권한 nodeshell CLI 명령을 사용하여 READDIR 파일 작업이 만료된 최근 디렉토리에 대한 구체적인 정보를 찾으세요: wafl readdir notice show. 디렉토리가 스파스로 표시되었는지 확인하세요. 디렉토리가 스파스로 표시된 경우 디렉토리 파일의 스파스성을 제거하기 위해 디렉토리의 내용을 새 디렉토리로 복사하는 것이 좋습니다. 디렉토리가 스파스로 지정되지 않았고 디렉토리가 큰 경우, 디렉토리의 파일 항목 수를 줄여 디렉토리 파일의 크기를 줄이는 것이 좋습니다. |
CVO 스토리지 풀 재배치 실패 |
비판적인 |
이 이벤트는 대상 노드가 객체 저장소에 도달할 수 없을 때 집계를 재배치하는 동안 발생합니다. |
다음 시정 조치를 수행하세요. "네트워크 인터페이스 표시" 명령을 사용하여 클러스터 간 LIF가 온라인이고 작동하는지 확인하세요. 대상 노드 클러스터 간 LIF를 통해 "ping" 명령을 사용하여 개체 저장소 서버에 대한 네트워크 연결을 확인합니다. "aggregate object-store config show" 명령을 사용하여 개체 저장소 구성이 변경되지 않았고 로그인 및 연결 정보가 여전히 정확한지 확인합니다. 또는 재배치 명령의 "override-destination-checks" 매개변수를 사용하여 오류를 무시할 수 있습니다. 자세한 정보나 도움이 필요하면 NetApp 기술 지원팀에 문의하세요. |
CVO 섀도 복사본 실패 |
비판적인 |
Microsoft Server 백업 및 복원 서비스 작업인 VSS(볼륨 섀도 복사본 서비스)가 실패했습니다. |
이벤트 메시지에 제공된 정보를 사용하여 다음 사항을 확인하세요. 섀도 복사본 구성이 활성화되어 있습니까? 적절한 라이센스가 설치되었나요? 어떤 주식에서 섀도 복사 작업이 수행됩니까? 공유 이름이 맞나요? 공유 경로가 존재합니까? 섀도 복사본 세트와 해당 섀도 복사본의 상태는 무엇입니까? |
CVO 스토리지 VM 중지 성공 |
정보 |
이 메시지는 'vserver stop' 작업이 성공할 때 발생합니다. |
'vserver start' 명령을 사용하여 스토리지 VM에서 데이터 액세스를 시작합니다. |
CVO CIFS 인증이 너무 많음 |
경고 |
많은 인증 협상이 동시에 진행되었습니다. 이 클라이언트로부터 256개의 완료되지 않은 새 세션 요청이 있습니다. |
클라이언트가 256개 이상의 새로운 연결 요청을 생성한 이유를 조사합니다. 오류가 발생한 이유를 확인하려면 클라이언트나 애플리케이션 공급업체에 문의해야 할 수도 있습니다. |
CVO 할당되지 않은 디스크 |
정보 |
시스템에 할당되지 않은 디스크가 있습니다. 용량이 낭비되고 있으며 시스템에 잘못된 구성이나 부분적인 구성 변경이 적용되었을 수 있습니다. |
다음 시정 조치를 수행하세요. "disk show -n" 명령을 사용하여 어떤 디스크가 할당 해제되었는지 확인하세요. "disk assign" 명령을 사용하여 디스크를 시스템에 할당합니다. |
CVO 관리자 공유에 대한 무단 사용자 액세스 |
경고 |
로그인한 사용자가 허용된 사용자가 아니더라도 클라이언트가 권한이 있는 ONTAP_ADMIN$ 공유에 연결을 시도했습니다. |
다음 시정 조치를 수행하세요. 언급된 사용자 이름과 IP 주소가 활성 Vscan 스캐너 풀 중 하나에 구성되어 있는지 확인하세요. "vserver vscan scanner pool show-active" 명령을 사용하여 현재 활성화된 스캐너 풀 구성을 확인합니다. |
CVO 바이러스가 감지되었습니다 |
경고 |
Vscan 서버가 스토리지 시스템에 오류를 보고했습니다. 이는 일반적으로 바이러스가 발견되었음을 나타냅니다. 하지만 Vscan 서버의 다른 오류로 인해 이 이벤트가 발생할 수도 있습니다. 클라이언트가 파일에 접근하는 것이 거부되었습니다. Vscan 서버는 설정 및 구성에 따라 파일을 정리하거나, 격리하거나, 삭제할 수 있습니다. |
"syslog" 이벤트에 보고된 Vscan 서버 로그를 확인하여 감염된 파일을 성공적으로 치료, 격리 또는 삭제할 수 있었는지 확인하세요. 그렇게 할 수 없다면 시스템 관리자가 수동으로 파일을 삭제해야 할 수도 있습니다. |
CVO 볼륨 오프라인 |
정보 |
이 메시지는 볼륨이 오프라인이 되었음을 나타냅니다. |
볼륨을 다시 온라인으로 전환합니다. |
CVO 볼륨 제한 |
정보 |
이 이벤트는 유연한 볼륨이 제한되었음을 나타냅니다. |
볼륨을 다시 온라인으로 전환합니다. |
비즈니스 연속성을 위한 SnapMirror (SMBC) 중재자 로그 모니터
모니터 이름 |
심각성 |
모니터 설명 |
시정 조치 |
ONTAP 중재자 추가됨 |
정보 |
이 메시지는 ONTAP Mediator가 클러스터에 성공적으로 추가되었을 때 발생합니다. |
None |
ONTAP 중재자에 접근할 수 없습니다 |
비판적인 |
이 메시지는 ONTAP Mediator가 다른 용도로 사용되거나 Mediator 패키지가 더 이상 Mediator 서버에 설치되지 않은 경우 발생합니다. 결과적으로 SnapMirror 장애 조치가 불가능합니다. |
"snapmirror mediator remove" 명령을 사용하여 현재 ONTAP Mediator의 구성을 제거합니다. "snapmirror mediator add" 명령을 사용하여 ONTAP Mediator에 대한 액세스를 재구성합니다. |
ONTAP 중재자 제거됨 |
정보 |
이 메시지는 ONTAP Mediator가 클러스터에서 성공적으로 제거될 때 발생합니다. |
None |
ONTAP 중재자에 연결할 수 없음 |
경고 |
이 메시지는 클러스터에서 ONTAP Mediator에 접근할 수 없을 때 발생합니다. 결과적으로 SnapMirror 장애 조치가 불가능합니다. |
"network ping" 및 "network traceroute" 명령을 사용하여 ONTAP Mediator에 대한 네트워크 연결을 확인합니다. 문제가 지속되면 "snapmirror mediator remove" 명령을 사용하여 현재 ONTAP Mediator의 구성을 제거하세요. "snapmirror mediator add" 명령을 사용하여 ONTAP Mediator에 대한 액세스를 재구성합니다. |
SMBC CA 인증서 만료 |
비판적인 |
이 메시지는 ONTAP Mediator 인증 기관(CA) 인증서가 만료되었을 때 발생합니다. 결과적으로 ONTAP 중재자와의 추가 의사소통은 불가능해질 것입니다. |
"snapmirror mediator remove" 명령을 사용하여 현재 ONTAP Mediator의 구성을 제거합니다. ONTAP Mediator 서버에서 새로운 CA 인증서를 업데이트합니다. "snapmirror mediator add" 명령을 사용하여 ONTAP Mediator에 대한 액세스를 재구성합니다. |
SMBC CA 인증서 만료 |
경고 |
이 메시지는 ONTAP Mediator 인증 기관(CA) 인증서가 향후 30일 이내에 만료될 예정일 때 발생합니다. |
이 인증서가 만료되기 전에 "snapmirror mediator remove" 명령을 사용하여 현재 ONTAP Mediator의 구성을 제거하세요. ONTAP Mediator 서버에서 새로운 CA 인증서를 업데이트합니다. "snapmirror mediator add" 명령을 사용하여 ONTAP Mediator에 대한 액세스를 재구성합니다. |
SMBC 클라이언트 인증서가 만료되었습니다 |
비판적인 |
이 메시지는 ONTAP Mediator 클라이언트 인증서가 만료되었을 때 발생합니다. 결과적으로 ONTAP 중재자와의 추가 의사소통은 불가능해질 것입니다. |
"snapmirror mediator remove" 명령을 사용하여 현재 ONTAP Mediator의 구성을 제거합니다. "snapmirror mediator add" 명령을 사용하여 ONTAP Mediator에 대한 액세스를 재구성합니다. |
SMBC 클라이언트 인증서 만료 |
경고 |
이 메시지는 ONTAP Mediator 클라이언트 인증서가 향후 30일 이내에 만료될 예정일 때 발생합니다. |
이 인증서가 만료되기 전에 "snapmirror mediator remove" 명령을 사용하여 현재 ONTAP Mediator의 구성을 제거하세요. "snapmirror mediator add" 명령을 사용하여 ONTAP Mediator에 대한 액세스를 재구성합니다. |
SMBC 관계 동기화 안 됨 참고: UM에는 이 항목이 없습니다. |
비판적인 |
이 메시지는 SnapMirror for Business Continuity(SMBC) 관계 상태가 "동기화"에서 "동기화되지 않음"으로 변경될 때 발생합니다. RPO=0으로 인해 데이터 보호가 중단됩니다. |
소스 볼륨과 대상 볼륨 간의 네트워크 연결을 확인하세요. 대상에서 "snapmirror show" 명령을 사용하고, 소스에서 "snapmirror list-destinations" 명령을 사용하여 SMBC 관계 상태를 모니터링합니다. 자동 재동기화는 관계를 "동기화" 상태로 되돌리려고 시도합니다. 재동기화가 실패하면 클러스터의 모든 노드가 쿼럼에 있고 정상인지 확인하세요. |
SMBC 서버 인증서가 만료되었습니다 |
비판적인 |
이 메시지는 ONTAP Mediator 서버 인증서가 만료되었을 때 발생합니다. 결과적으로 ONTAP 중재자와의 추가 의사소통은 불가능해질 것입니다. |
"snapmirror mediator remove" 명령을 사용하여 현재 ONTAP Mediator의 구성을 제거합니다. ONTAP Mediator 서버에서 새로운 서버 인증서를 업데이트합니다. "snapmirror mediator add" 명령을 사용하여 ONTAP Mediator에 대한 액세스를 재구성합니다. |
SMBC 서버 인증서 만료 |
경고 |
이 메시지는 ONTAP Mediator 서버 인증서가 향후 30일 이내에 만료될 예정일 때 발생합니다. |
이 인증서가 만료되기 전에 "snapmirror mediator remove" 명령을 사용하여 현재 ONTAP Mediator의 구성을 제거하세요. ONTAP Mediator 서버에서 새로운 서버 인증서를 업데이트합니다. "snapmirror mediator add" 명령을 사용하여 ONTAP Mediator에 대한 액세스를 재구성합니다. |
추가 전원, 하트비트 및 기타 시스템 모니터
| 모니터 이름 | 심각성 | 모니터 설명 | 시정 조치 |
|---|---|---|---|
디스크 쉘프 전원 공급 장치 발견 |
정보 제공 |
이 메시지는 디스크 선반에 전원 공급 장치가 추가될 때 발생합니다. |
없음 |
디스크 선반 전원 공급 장치 제거됨 |
정보 제공 |
이 메시지는 디스크 선반에서 전원 공급 장치를 제거할 때 발생합니다. |
없음 |
MetroCluster 자동 계획되지 않은 전환 비활성화됨 |
비판적인 |
이 메시지는 자동 계획되지 않은 전환 기능이 비활성화된 경우 발생합니다. |
클러스터의 각 노드에 대해 "metrocluster modify -node-name <노드 이름> -automatic-switchover-onfailure true" 명령을 실행하여 자동 전환을 활성화합니다. |
MetroCluster 스토리지 브리지에 연결할 수 없음 |
비판적인 |
관리 네트워크를 통해 스토리지 브리지에 접근할 수 없습니다. |
1) 브리지가 SNMP로 모니터링되는 경우 "network interface show" 명령을 사용하여 노드 관리 LIF가 작동 중인지 확인합니다. "네트워크 ping" 명령을 사용하여 브리지가 살아있는지 확인합니다. 2) 브리지가 대역 내에서 모니터링되는 경우 브리지에 연결된 패브릭 케이블을 확인한 다음 브리지에 전원이 공급되는지 확인합니다. |
MetroCluster 브리지 온도 비정상 - 위험 수준 미만 |
비판적인 |
파이버 채널 브리지의 센서가 임계 임계값 아래의 온도를 보고합니다. |
1) 저장 브리지의 팬 작동 상태를 확인하세요. 2) 브리지가 권장 온도 조건에서 작동하는지 확인하세요. |
MetroCluster 브리지 온도 비정상 - 위험 수준 초과 |
비판적인 |
파이버 채널 브리지의 센서가 임계 임계값을 넘는 온도를 보고합니다. |
1) "storage bridge show -cooling" 명령어를 사용하여 스토리지 브리지의 섀시 온도 센서의 작동 상태를 확인합니다. 2) 저장 브리지가 권장 온도 조건에서 작동하는지 확인하세요. |
MetroCluster Aggregate Left Behind |
경고 |
스위치백 중에 골재가 남겨졌습니다. |
1) "aggr show" 명령을 사용하여 집계 상태를 확인합니다. 2) 집계가 온라인 상태인 경우 "metrocluster switchback" 명령을 사용하여 원래 소유자에게 반환하세요. |
Metrocluster 파트너 간의 모든 링크가 다운되었습니다. |
비판적인 |
RDMA 상호 연결 어댑터와 클러스터 간 LIF가 피어링된 클러스터와의 연결을 끊었거나 피어링된 클러스터가 다운되었습니다. |
1) 클러스터 간 LIF가 제대로 작동하고 있는지 확인하세요. 클러스터 간 LIF가 다운된 경우 복구하세요. 2) "cluster peer ping" 명령을 사용하여 피어링된 클러스터가 작동하고 실행 중인지 확인합니다. 피어링된 클러스터가 다운된 경우 MetroCluster 재해 복구 가이드를 참조하세요. 3) 패브릭 MetroCluster 의 경우 백엔드 패브릭 ISL이 작동하고 실행 중인지 확인합니다. 백엔드 패브릭 ISL이 다운된 경우 복구합니다. 4) 비패브릭 MetroCluster 구성의 경우 RDMA 상호 연결 어댑터 간 케이블이 올바른지 확인하세요. 링크가 끊어진 경우 케이블을 재구성하세요. |
피어링 네트워크를 통해 MetroCluster 파트너에 연결할 수 없음 |
비판적인 |
피어 클러스터와의 연결이 끊어졌습니다. |
1) 포트가 올바른 네트워크/스위치에 연결되어 있는지 확인하세요. 2) 클러스터 간 LIF가 피어링된 클러스터에 연결되어 있는지 확인합니다. 3) "cluster peer ping" 명령을 사용하여 피어링된 클러스터가 작동하고 실행 중인지 확인합니다. 피어링된 클러스터가 다운된 경우 MetroCluster 재해 복구 가이드를 참조하세요. |
MetroCluster Inter Switch 모든 링크 다운 |
비판적인 |
스토리지 스위치의 모든 ISL(Inter-Switch Link)이 끊어졌습니다. |
1) 스토리지 스위치의 백엔드 패브릭 ISL을 복구합니다. 2) 파트너 스위치가 작동 중이고 ISL이 작동하는지 확인합니다. 3) xWDM 장치와 같은 중간 장비가 작동하는지 확인합니다. |
MetroCluster 노드에서 스토리지 스택으로의 SAS 링크 다운 |
경고 |
SAS 어댑터나 연결된 케이블에 문제가 있을 수 있습니다. |
1. SAS 어댑터가 온라인이고 실행 중인지 확인하세요. 2. 실제 케이블 연결이 안전하고 작동하는지 확인하고 필요한 경우 케이블을 교체하세요. 3. SAS 어댑터가 디스크 선반에 연결된 경우 IOM과 디스크가 제대로 고정되었는지 확인하세요. |
MetroClusterFC Initiator 링크 다운 |
비판적인 |
FC 이니시에이터 어댑터에 오류가 있습니다. |
1. FC 이니시에이터 링크가 변조되지 않았는지 확인하세요. 2. "system node run -node local -command storage show adapter" 명령을 사용하여 FC 이니시에이터 어댑터의 작동 상태를 확인합니다. |
FC-VI 상호 연결 링크 다운 |
비판적인 |
FC-VI 포트의 물리적 링크가 오프라인 상태입니다. |
1. FC-VI 링크가 변조되지 않았는지 확인하세요. 2. "metrocluster interconnect adapter show" 명령을 사용하여 FC-VI 어댑터의 물리적 상태가 "작동"인지 확인합니다. 3. 구성에 패브릭 스위치가 포함된 경우 스위치가 올바르게 케이블로 연결되고 구성되었는지 확인하세요. |
MetroCluster 예비 디스크가 남음 |
경고 |
스위치백 중에 여분의 디스크가 남겨졌습니다. |
디스크에 오류가 발생하지 않은 경우 "metrocluster switchback" 명령을 사용하여 디스크를 원래 소유자에게 반환하세요. |
MetroCluster 스토리지 브리지 포트 다운 |
비판적인 |
스토리지 브리지의 포트가 오프라인 상태입니다. |
1) "storage bridge show -ports" 명령어를 사용하여 스토리지 브리지의 포트 작동 상태를 확인합니다. 2) 포트에 대한 논리적, 물리적 연결을 확인합니다. |
MetroCluster 스토리지 스위치 팬 고장 |
비판적인 |
저장 스위치의 팬이 고장났습니다. |
1) "storage switch show -cooling" 명령어를 사용하여 스위치의 팬이 올바르게 작동하는지 확인합니다. 2) 팬 FRU가 제대로 삽입되어 작동하는지 확인하세요. |
MetroCluster 스토리지 스위치에 연결할 수 없음 |
비판적인 |
관리 네트워크를 통해 저장 스위치에 접근할 수 없습니다. |
1) "network interface show" 명령을 사용하여 노드 관리 LIF가 작동 중인지 확인합니다. 2) "network ping" 명령어를 사용하여 스위치가 살아있는지 확인합니다. 3) 스위치에 로그인한 후 SNMP 설정을 확인하여 SNMP를 통해 스위치에 접속할 수 있는지 확인하세요. |
MetroCluster 스위치 전원 공급 장치 실패 |
비판적인 |
저장 스위치의 전원 공급 장치가 작동하지 않습니다. |
1) "storage switch show -error -switch-name <스위치 이름>" 명령을 사용하여 오류 세부 정보를 확인합니다. 2) "storage switch show -power -switch-name <스위치 이름>" 명령을 사용하여 오류가 있는 전원 공급 장치를 식별합니다. 3) 전원 공급 장치가 저장 스위치 섀시에 제대로 삽입되어 완전히 작동하는지 확인하세요. |
MetroCluster 스위치 온도 센서 실패 |
비판적인 |
파이버 채널 스위치의 센서가 고장났습니다. |
1) "storage switch show -cooling" 명령어를 사용하여 저장 스위치의 온도 센서의 작동 상태를 확인합니다. 2) 스위치가 권장 온도 조건에서 작동하는지 확인하세요. |
MetroCluster 스위치 온도 비정상 |
비판적인 |
파이버 채널 스위치의 온도 센서가 비정상적인 온도를 보고했습니다. |
1) "storage switch show -cooling" 명령어를 사용하여 저장 스위치의 온도 센서의 작동 상태를 확인합니다. 2) 스위치가 권장 온도 조건에서 작동하는지 확인하세요. |
서비스 프로세서 하트비트가 누락되었습니다 |
정보 제공 |
이 메시지는 ONTAP 서비스 프로세서(SP)로부터 예상한 "하트비트" 신호를 받지 못할 때 발생합니다. 이 메시지와 함께 SP 의 로그 파일이 디버깅을 위해 전송됩니다. ONTAP 통신을 복원하기 위해 SP 재설정합니다. SP 재부팅하는 동안 최대 2분 동안 사용할 수 없습니다. |
NetApp 기술 지원팀에 문의하세요. |
서비스 프로세서 하트비트가 중지되었습니다 |
경고 |
이 메시지는 ONTAP 더 이상 서비스 프로세서(SP)로부터 하트비트를 수신하지 못할 때 발생합니다. 하드웨어 설계에 따라 시스템은 계속해서 데이터를 제공할 수도 있고, 데이터 손실이나 하드웨어 손상을 방지하기 위해 종료될 수도 있습니다. 시스템은 계속해서 데이터를 제공하지만 SP 작동하지 않을 수 있으므로 시스템은 다운된 기기, 부팅 오류 또는 오픈 펌웨어(OFW) POST(전원 공급 자체 테스트) 오류에 대한 알림을 보낼 수 없습니다. 시스템이 해당 기능을 구성한 경우, NetApp 기술 지원팀과 구성된 대상에 AutoSupport (또는 '콜 홈') 메시지를 생성하여 전송합니다. AutoSupport 메시지를 성공적으로 전달하면 문제 파악 및 해결 능력이 크게 향상됩니다. |
시스템이 종료된 경우, 전원을 완전히 껐다가 다시 켜보세요. 컨트롤러를 섀시에서 빼낸 후 다시 밀어 넣은 다음 시스템의 전원을 켜보세요. 전원을 껐다 켠 후에도 문제가 지속되거나 주의가 필요한 다른 상황이 발생하는 경우 NetApp 기술 지원팀에 문의하세요. |
