L사이트 트러블슈팅 내용
- OS : SunOS 5.11 11.3 sun4v
- JAVA : 1.7.0_121
- SW : Coherence 12.1.3.0.4
에러 메시지는 Coherence Server 기동 시 클러스터 조인 실패로 Cluster 서비스를 시작하는데 실패 함.
Failed to start service "Cluster" at com.tangosol.coherence.component.util.daemon.queueProcessor.Service.waitAcceptingClients 스택에서 에러가 발생 다른 코히런스 클러스터의 서버에서 아래와 같은 메시지가 발생합니다. Synchronizing the version counter for partition xxx forward to version 1 from 0. |
1. 에러 발생 원인
: Coherence Cache Server 내의 각각의 partition은 VersionCounter 값을 갖는다.
네트워크 문제나 클러스터가 불안정한 상태일 경우 동기화가 제대로 수행되지 않을 경우, backup partition을 소유한 node가 이전 버전의 partition counter를 수신할 수 있다.
이런 경우 보통 오래된 버전의 partition counter를 수신하게 되면 무시하게 된다.
partition의 version counter는 update 될 때마다 증가하게 되며 counter가 일치하지 않는 경우 백업 요청을 계속 무시하며 버전이 일치할 때까지 계속 된다.
즉, 위와 같은 로그가 지속적으로 발생할 경우 네트워크의 문제가 아니라면 cluster node가 불안정한 상태인 것으로 추측 된다.
경험상, 코히런스 클러스터는 노드의 상태나 클러스터의 상태가 불안정할 경우 클러스터 서비스를 전체 재기동해야 해소된다.
위와 같은 로그가 해소되지 않고 지속적으로 발생하는 것에 대하여 관련된 버그는 오라클 SR을 통해 없는 것으로 답변을 받았다.
2. 솔루션
해결 방법은 전체적으로 coherence cluster node를 전체 재기동하여 clear하도록 하는 것이다.
또한 cluster sync에 영향을 줄만한 상황이 없는지 network 혹은 gc, cpu 등을 확인하여야 한다.
+ 안정적인 운영을 위해 coherence 12.1.3.0.12 패치를 할 것을 권고 함.
Patch 32973268: Coherence 12.1.3.0 Cumulative Patch 12 (12.1.3.0.12)
'트러블슈팅 > MW' 카테고리의 다른 글
[OHS] 12.2.1.4 설치 시에 compat 패키지 이슈 (0) | 2021.08.23 |
---|---|
[웹로직] User defined listener org.springframework.web.util.Log4jConfigListener failed (0) | 2021.08.23 |
[웹로직] WLST Exception, CompatabilityMBeanServer is disabled via the JMXMBean (0) | 2021.08.09 |
[웹서버] Request Call 후에 Request가 들어오지 않을 경우 의심되는 부분 (0) | 2021.07.26 |
[웹로직] MDB가 JMS 대기열에서 동시에 메시지를 처리하지 않는 현상 (0) | 2021.07.26 |