데이터 레이크 + 분석

고급

S3 + Glue + Athena + Redshift로 대규모 데이터를 수집·변환·분석하는 패턴

아키텍처 다이어그램

개요

다양한 소스의 데이터를 S3 데이터 레이크에 모으고, Glue로 변환한 뒤 Athena나 Redshift로 분석하는 빅데이터 패턴입니다. 비정형 데이터도 저장할 수 있어 유연한 분석 환경을 제공해요.

구성

  1. S3 — 모든 원본 데이터를 저장하는 데이터 레이크 (중앙 저장소)
  2. Lake Formation — 데이터 레이크의 보안·권한·카탈로그 관리
  3. Glue — 데이터 크롤링 + ETL (추출/변환/적재) 작업
  4. Athena — S3 데이터를 SQL로 직접 쿼리 (서버리스)
  5. Redshift — 대규모 데이터 웨어하우스 분석

장점

  • 데이터 양에 상관없이 저렴하게 저장 (S3)
  • 스키마 온 리드(Schema-on-Read)로 유연한 분석
  • Athena로 서버 없이 즉시 쿼리 가능
  • Redshift로 복잡한 분석/BI 연동 가능

주의사항

  • 데이터 거버넌스(권한, 품질)를 초기에 설계해야 함
  • Glue ETL 작업 디버깅이 어려울 수 있음
  • Redshift는 상시 가동 비용이 높음 (Serverless 옵션 검토)
  • 데이터 파티셔닝 전략이 쿼리 성능에 큰 영향