Hadoop, Spark, MapReduce

출제 빈도: ★★★★★ | 난이도: ★★★☆☆

답안.

Ⅰ. 개요

Hadoop은 HDFS와 YARN을 기반으로 대규모 분산 저장·처리를 지원하는 빅데이터 생태계다.
MapReduce는 데이터를 분산 처리하기 위한 배치 계산 모델로, Map 단계와 Reduce 단계를 통해 대량 데이터를 병렬 처리한다.
Spark는 메모리 기반 분산 처리 엔진으로 MapReduce 대비 반복 연산과 대화형 분석에 유리하다.

Ⅱ. 핵심 구성요소

Ⅰ. 개요
   1. 정의
   2. 대용량 데이터 처리 요구 증가

Ⅱ. 핵심 구성요소
   1. 분산 처리 플랫폼 구조
   2. 배치 엔진별 특징과 선택

Ⅲ. 특징 및 장단점
   1. 대규모 데이터 병렬 처리 가능
   2. 운영 복잡도와 자원 관리 부담

Ⅳ. 유사 기술과의 비교
   - Hadoop MapReduce vs Spark 비교표

Ⅴ. 적용사례 및 향후전망
   1. 대규모 로그 분석과 데이터 처리 플랫폼 구축
   2. Lakehouse와 통합 처리 엔진 확장

해당 키워드의 기술적 구성요소와 동작 원리를 서술한다.

Ⅲ. 특징 및 비교

핵심 기술의 장단점과 유사 기술과의 차이를 분석한다.

Ⅳ. 적용 사례

실무 환경에서의 적용 사례와 기대효과를 제시한다.

Ⅴ. 전망

최신 기술 동향과 향후 발전 방향을 서술한다.