비유로 이해하기
EMR은 수백 대의 컴퓨터가 협력하는 데이터 처리 공장이에요. 한 대 컴퓨터로는 며칠 걸릴 작업을 수백 대가 나눠서 하면 몇 시간 만에 끝낼 수 있어요. 처리가 끝나면 컴퓨터를 꺼서 비용도 절약할 수 있어요.
동작 원리
애니메이션 준비 중입니다
언제 쓰나요?
대규모 로그 데이터 분석
하루 수십 GB의 서버 로그를 Spark으로 분석하여 사용자 행동 패턴, 에러 트렌드 등을 파악할 수 있어요.
대용량 ETL 파이프라인
여러 소스의 원시 데이터를 Spark으로 변환하고 정제하여 분석 가능한 형태로 S3나 Redshift에 저장하는 파이프라인을 구축해요.
머신러닝 데이터 전처리
ML 모델 학습에 필요한 대량의 데이터를 전처리(정제, 피처 엔지니어링)할 때 EMR의 분산 처리 능력이 빛을 발해요.
요금 예시
EMR은 사용한 시간과 컴퓨터 수에 따라 비용이 결정돼요. 작은 클러스터(3대)로 몇 시간 작업하면 몇 달러 수준이에요. 작업이 끝나면 클러스터를 종료해서 비용을 절약하세요.
자주 묻는 질문
EMR과 Glue 중 무엇을 써야 하나요?
간단한 ETL은 Glue(서버리스, 관리 편함), 복잡하고 커스텀한 데이터 처리는 EMR(유연성 높음)이 적합해요. Glue를 먼저 시도하고 한계가 있으면 EMR을 고려하세요.
EMR Serverless는 무엇인가요?
클러스터를 직접 관리할 필요 없이 Spark/Hive 작업만 제출하면 자동으로 리소스를 할당하고 실행해요. 간헐적인 작업에 비용 효율적입니다.
데이터를 EMR에 직접 저장해야 하나요?
아니요! S3에 데이터를 저장하고 EMR에서 읽어오는 것이 모범 사례예요. 클러스터 종료 시 데이터가 유실되지 않고, 여러 클러스터에서 동일 데이터를 사용할 수 있어요.