데이터 레이크 + 분석
고급S3 + Glue + Athena + Redshift로 대규모 데이터를 수집·변환·분석하는 패턴
아키텍처 다이어그램
개요
다양한 소스의 데이터를 S3 데이터 레이크에 모으고, Glue로 변환한 뒤 Athena나 Redshift로 분석하는 빅데이터 패턴입니다. 비정형 데이터도 저장할 수 있어 유연한 분석 환경을 제공해요.
구성
- S3 — 모든 원본 데이터를 저장하는 데이터 레이크 (중앙 저장소)
- Lake Formation — 데이터 레이크의 보안·권한·카탈로그 관리
- Glue — 데이터 크롤링 + ETL (추출/변환/적재) 작업
- Athena — S3 데이터를 SQL로 직접 쿼리 (서버리스)
- Redshift — 대규모 데이터 웨어하우스 분석
장점
- 데이터 양에 상관없이 저렴하게 저장 (S3)
- 스키마 온 리드(Schema-on-Read)로 유연한 분석
- Athena로 서버 없이 즉시 쿼리 가능
- Redshift로 복잡한 분석/BI 연동 가능
주의사항
- 데이터 거버넌스(권한, 품질)를 초기에 설계해야 함
- Glue ETL 작업 디버깅이 어려울 수 있음
- Redshift는 상시 가동 비용이 높음 (Serverless 옵션 검토)
- 데이터 파티셔닝 전략이 쿼리 성능에 큰 영향