Hadoop & Apache Spark

별점: ★★★★★ | 기본 필수

답안.

Ⅰ. 개요

블록 단위 분산 저장 (기본 128MB) NameNode (메타데이터) + DataNode (실제 데이터) YARN (Yet Another Resource Negotiator):

Ⅱ. 핵심 구성요소

[Hadoop 핵심 구성]
HDFS (분산 파일시스템):
  블록 단위 분산 저장 (기본 128MB)
  복제 계수 3 → 고가용성
  NameNode (메타데이터) + DataNode (실제 데이터)

YARN (Yet Another Resource Negotiator):
  클러스터 자원 관리
  ResourceManager + NodeManager

MapReduce:
  Map(분산 처리) → Shuffle(정렬) → Reduce(집계)
  배치 처리 특화, 실시간 부적합

[Hadoop 생태계]
Hive: SQL on Hadoop (배치)
HBase: Hadoop 위의 NoSQL (실시간 조회)
Pig: 데이터 흐름 스크립트
Zookeeper: 분산 코디네이션

[Spark vs Hadoop MapReduce]
MapReduce: 디스크 기반 → 느림 (I/O 반복)
Spark: 인메모리 처리 → 100배 빠름

[Spark 핵심 개념]
RDD (Resilient Distributed Dataset):
  불변 분산 데이터셋, 결함 허용
  Transformation (lazy) + Action (실행)


해당 키워드의 기술적 구성요소와 동작 원리를 서술한다.

### Ⅲ. 특징 및 비교

핵심 기술의 장단점과 유사 기술과의 차이를 분석한다.

### Ⅳ. 적용 사례

실무 환경에서의 적용 사례와 기대효과를 제시한다.

### Ⅴ. 전망

최신 기술 동향과 향후 발전 방향을 서술한다.