01. 아파치 하둡 (Apache Hadoop) - 분산 스토리지 및 처리

핵심 인사이트 (3줄 요약)

빅데이터의 시초: 아파치 하둡(Apache Hadoop)은 방대한 비정형 데이터를 저가형 상용 서버(Commodity Hardware) 수백 대에 분산 저장하고 병렬 처리하는 오픈소스 자바 프레임워크입니다.
스토리지와 연산의 결합: 데이터 저장을 담당하는 분산 파일 시스템(HDFS)과 데이터를 처리하는 병렬 연산 엔진(MapReduce)으로 구성되어 단일 거대 머신의 한계를 극복했습니다.
에코시스템의 중심: 하둡 자체만으로는 속도의 한계(디스크 I/O 병목)가 있으나, 자원 관리자(YARN) 위에서 스파크(Spark), 하이브(Hive) 등 다양한 서드파티 엔진들을 돌리는 거대한 생태계의 운영체제 역할을 수행합니다.

Ⅰ. 개요 (Context & Background)

2000년대 초반 구글은 전 세계 웹페이지를 긁어모아 검색 엔진을 구축해야 했으나 기존 RDBMS와 고가의 스토리지로는 비용과 용량의 한계에 부딪혔습니다. 구글이 발표한 GFS(분산 파일 시스템)와 MapReduce 논문을 바탕으로, 더그 커팅(Doug Cutting)이 야후에서 개발을 주도해 오픈소스화한 것이 하둡입니다. 빅데이터라는 단어를 세상에 각인시킨 일등 공신이며, 비싼 슈퍼컴퓨터 한 대를 사는 대신 싼 100대의 깡통 컴퓨터를 묶어 '스케일 아웃(Scale-out)' 수평 확장의 표준 패러다임을 정립했습니다.

Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)

하둡 2.0 이후 아키텍처는 스토리지, 연산, 자원 스케줄링의 철저한 계층 분리를 달성했습니다.

+-----------------------------------------------------------------+
|                      Apache Hadoop Ecosystem                    |
|                                                                 |
|  +--------------------+  +--------------------+  +-----------+  |
|  |   MapReduce (MR)   |  |   Apache Spark     |  |   Hive    |  |
|  | (Data Processing)  |  | (In-Memory Engine) |  | (SQL DW)  |  |
|  +---------+----------+  +---------+----------+  +-----+-----+  |
|            |                       |                   |        |
|  +---------v-----------------------v-------------------v-----+  |
|  |           YARN (Yet Another Resource Negotiator)          |  |
|  |                   (Resource Management)                   |  |
|  +---------------------------------+-------------------------+  |
|                                    |                            |
|  +---------------------------------v-------------------------+  |
|  |           HDFS (Hadoop Distributed File System)           |  |
|  |                   (Distributed Storage)                   |  |
|  +-----------------------------------------------------------+  |
+-----------------------------------------------------------------+

HDFS (Hadoop Distributed File System): 데이터를 128MB 블록 단위로 쪼개어 수많은 워커 노드에 3벌씩 복제 저장하여 디스크 고장에 대비한 결함 허용(Fault Tolerance)을 달성합니다.
YARN (자원 협상가): 하둡 클러스터 내 CPU와 메모리 자원을 누가 얼마나 쓸지 할당하고 통제하는 클러스터 운영체제 역할을 합니다.
데이터 지역성 (Data Locality): 방대한 데이터를 마스터 서버로 가져와서 연산하면 네트워크가 마비되므로, 반대로 '연산 코드'를 데이터가 저장된 워커 노드로 전송하여 각자 자리에서 연산하는 혁신적 구조를 채택했습니다.

Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)

비교 항목	전통적 RDBMS (Oracle, MySQL)	하둡 (Hadoop HDFS + MapReduce)
데이터 구조	정형 데이터 (Strict 스키마 요구, Schema-on-Write)	정형, 반정형, 비정형 데이터 무관 (Schema-on-Read)
하드웨어 아키텍처	고가의 스케일 업(Scale-up) 서버 (CPU/RAM 집중 증설)	저가형 x86 서버 스케일 아웃(Scale-out) (무한 수평 병렬)
처리 특성	실시간 트랜잭션 (ACID 보장), OLTP 고속 I/O	방대한 데이터의 배치(Batch) 처리 중심 로딩 시간 긺
장애 복구	별도 백업, 복제 솔루션 필요 (RAID 의존도 높음)	소프트웨어 단에서 3중 복제로 노드 고장 시 자동 우회

Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)

레거시화에 대한 판단: 디스크 기반 반복 연산을 수행하는 맵리듀스(MapReduce)는 속도가 너무 느려 현재 실무에서 메모리 기반의 '스파크(Spark)'로 99% 대체되었습니다. 그러나 밑바탕을 지탱하는 스토리지 HDFS와 자원 관리자 YARN은 온프레미스 빅데이터 클러스터의 중추로 여전히 굳건합니다.
아키텍처 진화 방향: 기업들이 온프레미스 장비 관리에 지치며 퍼블릭 클라우드의 관리형 서비스(AWS EMR, GCP Dataproc)로 이전하거나, HDFS 스토리지를 무한한 S3 객체 스토리지로 교체하여 '컴퓨팅과 스토리지의 분리'를 구현하는 모던 데이터 레이크로 전환하는 추세입니다.

Ⅴ. 기대효과 및 결론 (Future & Standard)

하둡은 데이터 처리 비용을 극적으로 낮춰 기업이 로그 데이터나 텍스트를 버리지 않고 모두 저장(Data Lake)하게 만들었으며, 이는 훗날 AI 딥러닝 부흥을 위한 데이터 자양분 축적으로 직결되었습니다. 온프레미스 빅데이터 플랫폼을 구축하고 이해하는 근본적인 핵심 뼈대로서 기술사와 데이터 엔지니어에게 최우선 필수 지식입니다.

📌 관련 개념 맵 (Knowledge Graph)

선행 개념: 분산 컴퓨팅, 빅데이터 3V, 스케일 아웃
핵심 기술: HDFS, MapReduce, YARN
확장 및 응용: Apache Spark, Apache Hive, 데이터 레이크, AWS EMR

👶 어린이를 위한 3줄 비유 설명

세상의 모든 책을 도서관 사서 한 명이 전부 읽고 요약하려면 평생이 걸려도 모자랄 거예요. (기존 방식)
하둡은 만 명의 친구들을 한꺼번에 불러서 책을 몇 장씩 나눠주고, 각자 읽고 요약해오라고 시키는 방법이랍니다.
중간에 한 친구가 아파서 집에 가더라도, 다른 친구에게 복사본을 줘서 대신 읽게 하니까 절대 실패하지 않아요!