본문 바로가기
728x90

트러블슈팅/MW14

[TroubleShooting] epollWait란 무엇일까? (EpollWait CPU High) 최근 L 사이트에서 Thread Runnable 중, epollWait 상태의 스레드들이 CPU를 과점유하여 CPU High로 인한 서비스 불능 현상이 발생했다. 사실 이러한 경우, top -H로 Thread 별 CPU 점유율을 확인하면 epollWait 상태의 스레드가 CPU를 과점유하고 있다고 쉽게 판단할 수 있지만, 해당 사이트 환경에서는 top -H가 없는 관계로 확인할 수가 없었다. 그래서 epollWait를 검색하던 중, 해당 원인으로 인한 CPU High 이슈가 상당히 많이 존재하고 있음을 확인했다. 1) https://forum.flashphoner.com/threads/100-cpu-usage-from-netty-epoll.11390/ 2) https://github.com/netty/n.. 2022. 7. 25.
[OHS] OPMN Ping failed Error 이슈 현재 운영 중인 서비스에서 OHS 11.1.1.7 제품에 Ping failed check 실패로 http 서비스가 재기동되는 문제가 발생되고 있다. opmn은 ohs 11.x에서 http 서비스를 관리하는 프로세스로 opmn 프로세스가 http 프로세서에 주기적으로 ping으로 상태를 체크한다. opmn은 default 20초에 1번씩 총 3번을 시도하고 실패할 경우, http 프로세서를 강제로 재기동 시킨다. 현재 운영중인 서비스에서는 2달에 한번 꼴로 Ping failed 이슈로 강제로 재기동되는데, 원인을 찾던 중에 debug 로그 설정 부재로 인해 뚜렷하게 ohs에서 남는 로그가 없었다. 그래서 오라클 SR을 통해 비슷한 사례가 예전에 있었다는 이야기를 듣게 되었다. #1) 비슷한 타사 사례가 있.. 2022. 5. 6.
[OHS] HTTP 400 Error. Bad Request 사례 최근. L사에서 Linux 장비에 iPlanet WebServer와 OHS WebServer를 동시에 설치한 적이 있다. 문제는 iPlanet Web에서 OHS로 운영 전환 후 발생했다. iPlanet과 OHS는 동일하게 POST 2048 Byte 이상크기로 Request를 받으면 플러그인 옵션에 WLTempDir이 없는 경우, /tmp/_wl_proxy 라는 디렉토리를 생성하고 해당 디렉토리에 임시 파일을 만들어 뒷 단인 WAS 서버에 데이터를 쪼개서 보내게 되는데.. 문제는 기존에 iPlanet 계정으로 해당 디렉토리가 생성되어 권한이슈가 있었던 것이었다. 당연히 OHS로 운영 전환 후 2048 Byte 이상의 POST 데이터가 들어온 경우에 _wl_proxy 디렉토리에 접근 및 쓰기 권한이 없어 해.. 2021. 10. 22.
[웹로직] WebLogic JVM Crash - libc.so.1 memcpy 관련 원인 분석 T사에서 WebLogic JVM Crash로 인하여 인스턴스가 갑자기 죽어버리는 현상이 발생했다. 인프라 정보는 아래와 같다. =============================== SunOS 5.11 11.3 sun4v sparc sun4v java version "1.8.0_121" Java(TM) SE Runtime Environment (build 1.8.0_121-b13) Java HotSpot(TM) 64-Bit Server VM (build 25.121-b13, mixed mode) Weblogic Version 12.2.1.2.0 =============================== * 서버가 죽으면서 생성된 hs_err_pid.log 파일 분석 내용 #1. hs_err_pid.log.. 2021. 10. 1.
[웹로직] IBM AIX WebLogic Starting Slowly hang or STUCK at getLocalHostName T사에서 웹로직 재기동시 기동하는 속도가 현저히 문제가 되는 경우가 있었다. OS 리소스(CPU/MEM)를 확인했을 때 사용량이 미비했고, 담당자를 통해 확인한 결과 네트워크의 문제도 아니었고 온전히 웹로직 기동시에 느린 현상으로 확인됐다. 기동시 성능 문제의 원인을 파악하기 위해서는 Thread Dump를 떠서 확인하는 방법이 있다. Thread Dump의 경우 "kill -3 [pid]]"로 생성 가능하다. T사에서 AdminServer 기동 시 대략 20분 넘게 소요가 되었고, Managed Server의 경우 2시간 이상 소요가 되었다. 뭔가 문제가 이상하다고 판단되어 Thread Dump를 생성했고 해당 내용은 아래와 같다. 1. Thread Dump 분석 1XMTHDINFO All Thread.. 2021. 9. 30.
[웹로직] OutOfMemoryError: Metaspace에 대한 고찰 OutOfMemoryError에는 여러 가지 종류가 있습니다. 아래 오라클 공식 문서 참조 Understand the OutOfMemoryError Exception https://docs.oracle.com/javase/8/docs/technotes/guides/troubleshoot/memleaks002.html Understand the OutOfMemoryError Exception Cause: The detail message Java heap space indicates object could not be allocated in the Java heap. This error does not necessarily imply a memory leak. The problem can be as sim.. 2021. 8. 24.
728x90