Amazon EMR란 무엇인가요?

엄청나게 큰 데이터를 빠르게 처리하는 슈퍼컴퓨터

Amazon EMR는 언제 사용하나요?

Hadoop/Spark 기반 빅데이터 처리 플랫폼. 자세한 사용 시나리오는 본문을 참고하세요.

Amazon EMR는 사용량 기반으로 과금됩니다. 자세한 요금 예시는 본문을 참고하세요.

EMR은 수백 대의 컴퓨터가 협력하는 데이터 처리 공장이에요. 한 대 컴퓨터로는 며칠 걸릴 작업을 수백 대가 나눠서 하면 몇 시간 만에 끝낼 수 있어요. 처리가 끝나면 컴퓨터를 꺼서 비용도 절약할 수 있어요.

애니메이션 준비 중입니다

📊

하루 수십 GB의 서버 로그를 Spark으로 분석하여 사용자 행동 패턴, 에러 트렌드 등을 파악할 수 있어요.

🔄

여러 소스의 원시 데이터를 Spark으로 변환하고 정제하여 분석 가능한 형태로 S3나 Redshift에 저장하는 파이프라인을 구축해요.

🤖

ML 모델 학습에 필요한 대량의 데이터를 전처리(정제, 피처 엔지니어링)할 때 EMR의 분산 처리 능력이 빛을 발해요.

EMR은 사용한 시간과 컴퓨터 수에 따라 비용이 결정돼요. 작은 클러스터(3대)로 몇 시간 작업하면 몇 달러 수준이에요. 작업이 끝나면 클러스터를 종료해서 비용을 절약하세요.

❓

간단한 ETL은 Glue(서버리스, 관리 편함), 복잡하고 커스텀한 데이터 처리는 EMR(유연성 높음)이 적합해요. Glue를 먼저 시도하고 한계가 있으면 EMR을 고려하세요.

❓

클러스터를 직접 관리할 필요 없이 Spark/Hive 작업만 제출하면 자동으로 리소스를 할당하고 실행해요. 간헐적인 작업에 비용 효율적입니다.

❓

아니요! S3에 데이터를 저장하고 EMR에서 읽어오는 것이 모범 사례예요. 클러스터 종료 시 데이터가 유실되지 않고, 여러 클러스터에서 동일 데이터를 사용할 수 있어요.