02. 하둡 에코시스템 및 HDFS

핵심 인사이트 (3줄 요약)

본질: 하둡 (Apache Hadoop)은 수천 대의 범용 서버 클러스터에서 대규모 데이터를 분산 저장하는 HDFS와 병렬 처리하는 MapReduce를 핵심으로 하는 오픈소스 프레임워크이다.

가치: 데이터 블록 복제 (Replication)를 통한 고가용성 (High Availability)과 데이터가 있는 곳으로 연산을 보내는 데이터 지역성 (Data Locality)을 통해 처리 효율과 안정성을 극대화한다.

융합: 자원 관리자인 YARN을 중심으로 Hive (SQL), HBase (NoSQL), Spark 등 다양한 도구들이 결합된 '하둡 에코시스템'을 형성하여 거대 기업의 데이터 플랫폼 표준으로 자리 잡았다.

Ⅰ. 개요 및 필요성 (Context & Necessity)

하둡의 탄생과 빅데이터의 표준화

2000년대 초반, 구글 (Google)은 폭증하는 웹 데이터를 처리하기 위해 GFS (분산 파일 시스템)와 MapReduce (분산 처리 모델) 논문을 발표했다. 이를 오픈소스로 구현한 것이 바로 하둡 (Apache Hadoop)이다. 하둡은 비싸고 고장 나지 않는 슈퍼컴퓨터 대신, 언제든 고장 날 수 있는 저렴한 범용 서버 (Commodity Hardware)를 묶어 신뢰성 있는 거대 저장소를 만드는 혁신을 이루었다.

하둡이 필요한 이유는 세 가지이다. 첫째, 단일 서버의 디스크 용량 한계를 넘어 페타바이트(PB) 급의 데이터를 단일 파일 시스템처럼 관리해야 하기 때문이고, 둘째, 서버가 고장 나더라도 데이터 유실 없이 서비스를 지속하는 **장애 내성 (Fault Tolerance)**이 필수적이기 때문이며, 셋째, 데이터 이동 비용을 줄이기 위해 연산을 데이터 근처에서 수행하는 패러다임이 요구되기 때문이다.

이 그림은 하둡 아키텍처의 핵심 구성 요소인 HDFS와 MapReduce, 그리고 이를 관리하는 YARN의 관계를 보여준다.

┌─────────────────────────────────────────────────────────────┐
│                 하둡 2.x / 3.x 아키텍처                     │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   [ 애플리케이션: Hive, Pig, Spark, HBase, 등 ]             │
│                                                             │
│   ┌─────────────────────────────────────────────────────┐   │
│   │          YARN (Yet Another Resource Negotiator)     │   │
│   │        (클러스터 리소스 및 작업 스케줄링)           │   │
│   └─────────────────────────────────────────────────────┘   │
│                                                             │
│   ┌────────────────────────┐    ┌───────────────────────┐   │
│   │ 맵리듀스 / 스파크      │    │ HDFS (분산 파일 시스템)│   │
│   │ (병렬 처리)            │    │ (스토리지 계층)       │   │
│   └────────────────────────┘    └───────────────────────┘   │
│                                                             │
└─────────────────────────────────────────────────────────────┘

이 다이어그램의 핵심은 'YARN'의 도입이다. 하둡 1.0에서는 MapReduce가 자원 관리까지 도맡아 비효율적이었으나, 2.0부터는 YARN이 자원 할당을 전담하면서 MapReduce 외에도 Spark나 Flink 같은 다양한 엔진이 하둡 위에서 돌아갈 수 있게 되었다. 실무에서는 이를 통해 하나의 클러스터에서 배치와 실시간 처리를 동시에 수행하는 멀티 테넌시 (Multi-tenancy) 환경을 구축한다.

하둡의 3대 핵심 컴포넌트

HDFS: 분산 저장을 담당. 데이터를 블록 단위로 쪼개 노드들에 중복 저장.
YARN: 클러스터 자원 관리를 담당. 리소스 매니저와 노드 매니저로 구성.
MapReduce: 분산 처리를 담당. 데이터를 맵 (Map) 단계에서 분류하고 리듀스 (Reduce) 단계에서 집계.

📢 섹션 요약 비유: 하둡은 거대한 물류 센터와 같습니다. HDFS는 물건을 보관하는 수만 개의 선반이고, YARN은 지게차의 배차를 관리하는 관제실이며, MapReduce는 수천 명의 직원이 구역별로 물건을 분류하고 포장하는 작업 방식입니다.

Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)

HDFS (Hadoop Distributed File System)의 내부 구조

HDFS는 마스터-슬레이브 아키텍처를 따른다. 모든 메타데이터 (파일명, 블록 위치)는 **NameNode (마스터)**가 관리하고, 실제 데이터 블록은 수많은 **DataNode (슬레이브)**에 저장된다.

HDFS의 가장 중요한 특징은 **블록 복제 (Replication)**이다. 기본적으로 각 블록은 3벌씩 복제되어 서로 다른 랙 (Rack)에 분산 저장된다. 이를 통해 특정 노드나 랙 전체에 장애가 발생해도 데이터 접근이 중단되지 않는다.

이 구조도는 HDFS의 읽기/쓰기 메커니즘과 데이터 복제 원리를 보여준다.

┌─────────────────────────────────────────────────────────────┐
│                 HDFS 읽기/쓰기 및 복제 프로세스             │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   [ 클라이언트 ] ──(1) 메타데이터 요청 ──▶ [ 네임노드 ]     │
│       │                                     │               │
│       │                                     └─ (메타데이터) │
│       │                                                     │
│       └──(2) 블록 읽기/쓰기 ──▶ [ 데이터노드 A ] (로컬)     │
│                                         │                   │
│                                   (3) 복제 파이프라인       │
│                                         ▼                   │
│                                   [ 데이터노드 B ] (원격)   │
│                                         ▼                   │
│                                   [ 데이터노드 C ] (타 랙)  │
│                                                             │
└─────────────────────────────────────────────────────────────┘

이 다이어그램의 핵심은 '네임노드 부하 분산'이다. 클라이언트는 파일 목록만 네임노드에 묻고, 실제 대용량 데이터 전송은 데이터노드와 직접 수행한다. 실무에서는 네임노드가 SPOF (Single Point of Failure)가 되는 것을 막기 위해 Active-Standby NameNode 구조와 공유 저장을 활용한 고가용성 (HA) 구성을 반드시 적용해야 한다.

MapReduce 처리 단계 (Shuffle & Sort)

MapReduce는 데이터를 처리할 때 가장 부하가 큰 셔플 (Shuffle) 단계를 거친다.

Map: 입력 데이터를 Key-Value 쌍으로 변환.
Shuffle & Sort: 같은 Key를 가진 데이터를 네트워크를 통해 특정 리듀서로 모으고 정렬. (병목 지점)
Reduce: 모인 데이터를 집계하여 최종 결과 산출.

📢 섹션 요약 비유: HDFS의 네임노드는 도서관의 '대출 대장'과 같고, 데이터노드는 '책장'과 같습니다. 책을 찾을 때 대장만 보고 실제 책은 책장으로 직접 가서 꺼내오는 것과 같은 원리입니다.

Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)

하둡 1.0 vs 하둡 2.0+ (YARN) 비교

항목	Hadoop 1.0	Hadoop 2.0 / 3.0	개선 효과
자원 관리	JobTracker (병목 발생)	YARN (Resource Manager)	확장성 및 유연성 향상
처리 엔진	MapReduce 전용	MR, Spark, Flink 등 다양	범용성 확보
네임노드	단일 (SPOF 존재)	Active-Standby (HA 지원)	가용성 극대화
저장 효율	3벌 복제 전용	Erasure Coding 지원	스토리지 비용 50% 절감

HDFS vs Amazon S3 (Object Storage) 비교

구분	HDFS (Block Storage)	Amazon S3 (Object Storage)
위치	컴퓨팅 노드와 밀결합	컴퓨팅과 스토리지 분리
수정	Append-only (수정 불가)	불변 (수정 시 덮어쓰기)
성능	데이터 지역성 활용 (빠름)	네트워크 경유 (상대적 느림)
관리	직접 관리 필요 (H/W 관리)	서버리스 (Managed Service)
비유	내 집 앞마당 창고	외곽의 거대한 물류 창고

📢 섹션 요약 비유: 하둡 1.0이 특정 요리만 할 수 있는 전용 주방이었다면, YARN이 도입된 하둡 2.0은 어떤 셰프(엔진)가 와도 자원을 나눠주며 요리할 수 있는 공유 주방 플랫폼으로 진화한 것입니다.

Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)

기술사적 판단: 하둡 클러스터 튜닝 시나리오

시나리오 1: '작은 파일의 저주 (Small Files Problem)' 발생

판단: HDFS 네임노드는 파일당 약 150바이트의 메모리를 사용한다. 수 KB짜리 파일이 수억 개면 네임노드 메모리가 고갈된다. SequenceFile이나 Avro, Parquet 포맷으로 파일들을 병합(Compaction)하고, 수집 단계에서 Kafka를 두어 마이크로 배치를 통해 파일을 키워서 저장하도록 가이드한다.

시나리오 2: 컴퓨팅 자원 부족으로 인한 작업 대기 발생

판단: YARN의 Capacity Scheduler나 Fair Scheduler 설정을 점검한다. 중요도가 높은 배치 작업에는 전용 큐를 할당하여 자원을 보장하고, 리소스가 남을 때는 다른 작업이 빌려 쓸 수 있게 'Preemption' 옵션을 활성화한다.

이 도식은 하둡 클러스터의 장애 복구 (Failover) 판단 흐름을 보여준다.

┌─────────────────────────────────────────────────────────────┐
│               하둡 고가용성 장애 조치 흐름                  │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   [액티브 NN 하트비트 소실] ──▶ [ZKFC 감지] ──────┐       │
│                                                     │       │
│   ┌── [펜싱: 기존 액티브 종료] ◀───────────────────┘       │
│   │                                                         │
│   └──▶ [스탠바이 NN 상태 변경] ──▶ [액티브로 승격]          │
│                                                             │
│   * ZKFC: 주키퍼 장애 조치 컨트롤러                         │
│                                                             │
└─────────────────────────────────────────────────────────────┘

📢 섹션 요약 비유: 기술사의 하둡 관리는 '교통 관제'와 같습니다. 병목이 생기는 교차로(셔플 단계)를 모니터링하고, 사고(노드 장애) 발생 시 즉시 우회로를 열어주는(HA) 체계를 유지하는 것이 핵심입니다.

Ⅴ. 기대효과 및 결론 (Future & Standard)

하둡 도입의 정량적/정성적 가치

정량적 효과: 고가의 유닉스 서버 대비 1/10 비용으로 동일 용량 저장소 구축, 선형적인 처리 속도 향상.
정성적 효과: 데이터 전수 보관을 통한 역사적 데이터의 가치 재발견 (Data Lake의 기반).

미래 전망: 하둡의 클라우드 네이티브화

전통적인 온프레미스 하둡 클러스터는 관리가 힘들고 확장이 경직적이다. 최근에는 Hadoop on K8s나, HDFS 대신 S3/Object Storage를 저장소로 쓰는 'Decoupled Architecture'로 진화하고 있다. 하지만 여전히 거대 금융권이나 공공기관에서는 데이터 주권과 보안을 위해 자체 하둡 클러스터를 고도화하고 있으며, 하둡의 핵심 철학인 '분산 처리'는 Spark, Presto 등 현대 기술 속에서도 여전히 핵심 유전자로 흐르고 있다.

📢 섹션 요약 비유: 미래의 하둡은 거대한 코끼리에서, 구름 속을 자유롭게 날아다니며 필요한 곳에 내려앉는 똑똑한 드론 군단과 같은 모습으로 변해갈 것입니다.

📌 관련 개념 맵 (Knowledge Graph)

HDFS: 블록 기반의 분산 파일 시스템
YARN: 클러스터 자원 협상 및 스케줄러
NameNode / DataNode: 하둡 저장소의 마스터와 슬레이브
MapReduce: 맵-셔플-리듀스 기반의 병렬 연산 모델
ZooKeeper: 분산 코디네이션 및 HA 관리 도구
Erasure Coding: 복제 방식 대신 수학적 기법을 사용한 데이터 보존 기술 (하둡 3.0)

👶 어린이를 위한 3줄 비유 설명

하둡은 엄청나게 큰 퍼즐 조각들을 수백 장의 책상에 나눠서 올려두고 맞추는 게임과 같아요.
한쪽 책상이 넘어져도 다른 책상에 똑같은 퍼즐 조각이 있어서 게임은 멈추지 않아요.
대장 선생님(네임노드)이 어느 퍼즐 조각이 어느 책상에 있는지 다 기억하고 있어서 우리는 걱정 없답니다!

📈 관련 키워드 및 발전 흐름도

GFS (Google File System, 2003) → HDFS
    │
    ▼
MapReduce (Google, 2004) → Hadoop MapReduce
    │
    ▼
Hadoop 에코시스템: YARN · Hive · HBase · Pig · Sqoop
    │
    ▼
Hadoop 한계 (디스크 I/O) → Apache Spark (인메모리)
    │
    ▼
YARN → Kubernetes 컨테이너 오케스트레이션으로 진화