필요성

ELB TargetGroup의 HealthCheck는 30초 단위로 TargetGroup에 포함되어 있는 Prod 환경 WAS에 HealthCheck API를 호출한다.

이때 HealthCheck가 실패하면 WAS가 죽어있거나, EC2가 정상적으로 열려있지 않은 상태라는 의미이며 그만큼 HealthCheck의 실패는 운영환경에 문제가 있음을 의미한다.

때문에 HealthCheck가 실패하게 되면 빠르게 땅콩 팀원들이 인지할 수 있는 시스템을 구축해두어야 이후 문제가 발생했을때 빠른 인지를 통한 신속한 복구 작업이 가능할 것이라고 생각했다.

해결책

ELB Target Group의 HealthCheck 매트릭은 CloudWatch를 통해 모니터링을 할 수 있다.

이때 CloudWatch에서 HealthCheck의 매트릭이 특정 값으로 n분간 유지가 된다면 AWS SNS를 통해 우리 팀 메일로 경보 메일을 보내주는 설정이 가능한데 이를 이용해보기로 결정하였다.

스크린샷 2024-09-23 21.33.18.png

해당 이미지에 보여지는 2개의 인스턴스가 우리 운영환경 EC2이다.

위 EC2의 HealthCheck를 모니터링해볼 예정이다.

스크린샷 2024-09-24 13.12.28.png

CloudWatch에 들어가서 지표를 추가한다.

HealthCheck의 상태 변화를 시각적으로 확인하기 가장 편리한 방법이 행이라고 생각해서 행을 선택했다.