scheduler1 4개의 region에 존재하는 5000개의 서버 경고 알림을 어떻게 실시간으로 수집할까? 문제 상황각 서버에서 발생하는 Alert 데이터를 수집하기 위해서는 자체적으로 Agent를 개발하는 방법과 상용 솔루션을 사용하는 방법이 존재했다. 기존 업무 환경은 약 5000개의 서버 중 80%에 해당되는 서버에 Zabbix가 설치되어 있었고 이를 바탕으로 데이터 수집을 고려했다. 데이터 수집을 위해 아래의 이미지와 접근 방법을 구상했다.각 Region 내의 개별 서버에 Zabbix를 설치하고 발생한 Alert을 하나의 Slack Workspace로 전송한다. 운영팀과 협의해 각 Region과 유의미하게 분류해야 되는 서버들은 별도의 Slack Channel로 분류해서 메시지를 관리했다.22개의 Slack Channel을 통해 각 서버에서 발생되는 Alert을 JSON 타입의 Original Mess.. 2024. 9. 17. 이전 1 다음