전체 네트워크 상호 연결 실패
사이트 간 복제 링크가 완전히 손실되면 SnapMirror 활성 동기화와 Oracle RAC 연결이 모두 중단됩니다.
Oracle RAC의 브레인 분할 감지는 Oracle RAC 스토리지 하트비트에 의존합니다. 사이트 간 연결이 끊겨 RAC 네트워크 하트비트 및 스토리지 복제 서비스가 동시에 손실되면 RAC 사이트가 RAC 상호 연결 또는 RAC 보팅 디스크를 통해 교차 사이트와 통신할 수 없게 됩니다. 결과적으로 짝수 노드 집합이 기본 설정에서 두 사이트를 모두 제거할 수 있습니다. 정확한 동작은 이벤트의 순서와 RAC 네트워크 및 디스크 하트비트 폴링의 시간에 따라 달라집니다.
2개 사이트 중단 위험은 두 가지 방법으로 해결할 수 있습니다. 먼저, "타이브레이커"설정을 사용할 수 있습니다.
세 번째 사이트를 사용할 수 없는 경우 RAC 클러스터에서 miscount 매개 변수를 조정하여 이 위험을 해결할 수 있습니다. 기본값에서 RAC 네트워크 하트비트 시간 초과는 30초입니다. 일반적으로 RAC는 장애가 발생한 RAC 노드를 식별하여 클러스터에서 제거하는 데 사용됩니다. 또한 보팅 디스크 하트비트에도 연결되어 있습니다.
예를 들어, Oracle RAC와 스토리지 복제 서비스 모두에 대해 사이트 간 트래픽을 전달하는 도관이 백호를 통해 삭감되면 30초 오류 카운트다운이 시작됩니다. RAC 기본 사이트 노드가 30초 이내에 반대쪽 사이트와 연결을 다시 설정할 수 없고, 또한 투표 디스크를 사용하여 반대쪽 사이트가 동일한 30초 기간 내에 다운되었는지 확인할 수 없는 경우 기본 사이트 노드도 제거됩니다. 그 결과, 데이터베이스가 완전히 중단됩니다.
오류 카운트가 폴링되는 시점에 따라 30초가 부족하여 SnapMirror 활성 동기화 시간이 초과되고 30초 기간이 만료되기 전에 기본 사이트의 저장소가 서비스를 다시 시작할 수 없습니다. 이 30초 기간을 늘릴 수 있습니다.
[root@jfs12 ~]# /grid/bin/crsctl set css misscount 100 CRS-4684: Successful set of parameter misscount to 100 for Cluster Synchronization Services.
이 값을 사용하면 기본 사이트의 스토리지 시스템에서 카운트 타임 아웃이 만료되기 전에 작업을 재개할 수 있습니다. 그러면 LUN 경로가 제거된 사이트에서 노드만 제거됩니다. 아래 예:
2024-09-12 09:50:59.352 [ONMD(681360)]CRS-1612: Network communication with node jfs13 (2) has been missing for 50% of the timeout interval. If this persists, removal of this node from cluster will occur in 49.570 seconds 2024-09-12 09:51:10.082 [CRSD(682669)]CRS-7503: The Oracle Grid Infrastructure process 'crsd' observed communication issues between node 'jfs12' and node 'jfs13', interface list of local node 'jfs12' is '192.168.30.1:46039;', interface list of remote node 'jfs13' is '192.168.30.2:42037;'. 2024-09-12 09:51:24.356 [ONMD(681360)]CRS-1611: Network communication with node jfs13 (2) has been missing for 75% of the timeout interval. If this persists, removal of this node from cluster will occur in 24.560 seconds 2024-09-12 09:51:39.359 [ONMD(681360)]CRS-1610: Network communication with node jfs13 (2) has been missing for 90% of the timeout interval. If this persists, removal of this node from cluster will occur in 9.560 seconds 2024-09-12 09:51:47.527 [OHASD(680884)]CRS-8011: reboot advisory message from host: jfs13, component: cssagent, with time stamp: L-2024-09-12-09:51:47.451 2024-09-12 09:51:47.527 [OHASD(680884)]CRS-8013: reboot advisory message text: oracssdagent is about to reboot this node due to unknown reason as it did not receive local heartbeats for 10470 ms amount of time 2024-09-12 09:51:48.925 [ONMD(681360)]CRS-1632: Node jfs13 is being removed from the cluster in cluster incarnation 621596607
Oracle Support에서는 구성 문제를 해결하기 위해 misscount 또는 disktimeout 매개 변수를 변경하지 않는 것이 좋습니다. 그러나 이러한 매개 변수를 변경하는 것은 SAN 부팅, 가상화 및 스토리지 복제 구성을 포함하여 많은 경우에 불가피하게 수행할 수 있습니다. 예를 들어, SAN 또는 IP 네트워크에서 RAC 제거를 초래하는 안정성 문제가 발생한 경우 기본 문제를 해결하고 오류 카운트나 디스크 시간 초과 값을 청구하지 않아야 합니다. 구성 오류를 해결하기 위해 시간 제한을 변경하면 문제가 해결되는 것이 아니라 문제를 마스킹하는 것입니다. 기반 인프라의 설계 측면을 기반으로 RAC 환경을 올바르게 구성하기 위해 이러한 매개 변수를 변경하는 것은 Oracle 지원 명령어와 일관적입니다. SAN 부팅 시 디스크 시간 제한을 맞추기 위해 최대 200까지 miscount를 조정하는 것이 일반적입니다. 자세한 내용은 을 "이 링크"참조하십시오.