모니터링 + 알림

중급

CloudWatch + SNS + CloudTrail로 인프라를 감시하고 이상 시 즉시 알림을 받는 패턴

아키텍처 다이어그램

개요

AWS 인프라 전체를 감시하고, 이상이 감지되면 알림·자동 대응하는 운영 필수 패턴입니다. 서비스 장애 감지부터 보안 감사, 비용 이상 알림까지 모두 커버할 수 있어요.

구성

  1. CloudWatch — 메트릭 수집, 로그 모니터링, 대시보드, 경보(Alarm) 설정
  2. SNS — 경보 발생 시 이메일/SMS/Slack 알림 전송
  3. Lambda — 알림에 따른 자동 복구 작업 실행 (예: 인스턴스 재시작)
  4. CloudTrail — 모든 AWS API 호출 기록 (보안 감사용)
  5. Config — 리소스 설정 변경 추적 및 규정 준수 확인

장점

  • 장애를 빠르게 감지하고 대응 시간 단축
  • 자동 복구로 운영 부담 감소
  • CloudTrail로 보안 사고 원인 추적 가능
  • Config 규칙으로 인프라 규정 준수 자동 검증

주의사항

  • 경보를 너무 많이 설정하면 알림 피로(Alert Fatigue) 발생
  • CloudWatch 로그 보관 비용이 누적될 수 있으므로 보존 기간 설정 필요
  • 대시보드가 많아지면 관리가 복잡해짐 (핵심 지표 중심으로 구성)
  • CloudTrail 로그는 S3에 저장되므로 수명 주기 정책 설정 필요