03. 아파치 스파크 (Apache Spark) 및 인메모리 연산

핵심 인사이트 (3줄 요약)

본질: 아파치 스파크 (Apache Spark)는 하둡의 디스크 I/O 병목을 해결하기 위해 RDD (Resilient Distributed Dataset)라는 추상화 모델을 기반으로 인메모리 (In-Memory) 분산 연산을 수행하는 2세대 빅데이터 처리 엔진이다.

가치: 맵리듀스 대비 최대 100배 빠른 처리 속도를 제공하며, 통합 스택을 통해 배치 처리, 실시간 스트리밍, 머신러닝, 그래프 분석을 하나의 프로그래밍 모델로 통합 관리한다.

융합: 데이터프레임 (DataFrame) API와 Spark SQL을 통해 정형/비정형 데이터를 RDBMS처럼 다루고, 클라우드 네이티브 환경의 데이터 레이크하우스 구축을 위한 핵심 연산 엔진으로 자리 잡았다.

Ⅰ. 개요 및 필요성 (Context & Necessity)

인메모리 혁명과 스파크의 등장

1세대 빅데이터 기술인 하둡 맵리듀스 (MapReduce)는 각 단계마다 처리 결과를 디스크에 썼다 읽는 방식을 반복했다. 이는 데이터 유실 방지에는 유리했으나, 반복적인 연산이 필요한 머신러닝이나 인터랙티브 쿼리에서는 극심한 속도 저하를 초래했다. 아파치 스파크는 이러한 한계를 극복하기 위해 모든 중간 데이터를 메모리에 유지하는 인메모리 연산 패러다임을 제시하며 등장했다.

스파크가 필요한 이유는 명확하다. 첫째, 초고속 데이터 처리가 필요한 실시간 비즈니스 요구사항을 충족하기 위해서이며, 둘째, 하나의 프레임워크로 **다양한 워크로드 (Batch, Stream, ML, SQL)**를 처리하여 운영 복잡성을 낮추기 위해서이고, 셋째, 개발자가 분산 시스템의 복잡성을 신경 쓰지 않고 고수준 API로 로직에만 집중할 수 있게 하기 위함이다.

이 그림은 스파크의 통합 기술 스택을 보여준다. 하나의 코어 엔진 위에서 다양한 데이터 분석 요구사항이 어떻게 처리되는지 시각화한다.

┌─────────────────────────────────────────────────────────────┐
│                 아파치 스파크 통합 스택                     │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐       │
│   │ Spark SQL│ │ Spark    │ │ MLlib    │ │ GraphX   │       │
│   │ (SQL/DF) │ │ Streaming│ │ (ML)     │ │ (그래프) │       │
│   └────┬─────┘ └────┬─────┘ └────┬─────┘ └────┬─────┘       │
│        └────────────┴──────┬─────┴────────────┘             │
│                            ▼                                │
│   ┌─────────────────────────────────────────────────────┐   │
│   │          스파크 코어 (RDD, 스케줄러)                │   │
│   └─────────────────────────────────────────────────────┘   │
│                            ▼                                │
│   [ 리소스 관리: YARN, Kubernetes, Mesos, Standalone ]      │
│                                                             │
└─────────────────────────────────────────────────────────────┘

이 다이어그램의 핵심은 '통합 (Unified)'이다. 과거에는 SQL 분석을 위해 Hive를, 스트리밍을 위해 Storm을, ML을 위해 Mahout을 따로 배워야 했으나, 이제는 스파크 하나로 모든 영역을 커버할 수 있다. 실무에서는 이러한 통합 능력이 데이터 파이프라인의 일관성을 높이고 유지보수 비용을 획기적으로 낮추는 결정적 요인이 된다.

스파크의 핵심 특성

In-Memory: 디스크 I/O를 최소화하여 연산 속도 극대화.
RDD (Resilient Distributed Dataset): 불변성(Immutable)과 장애 내성을 지닌 분산 데이터 구조.
Lazy Evaluation (지연 평가): 실행 계획을 미리 세워두고 최종 결과가 필요할 때 최적화하여 한꺼번에 실행.
Multilingual: Scala, Java, Python, R 등 다양한 언어 지원.

📢 섹션 요약 비유: 스파크는 요리법을 매번 종이에 적어서 전달하는 하둡과 달리, 모든 요리 과정을 머릿속에 기억해두고 빛의 속도로 칼질을 하는 '천재 셰프'와 같습니다.

Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)

스파크 실행 아키텍처 (Driver & Executor)

스파크 클러스터는 마스터 역할을 하는 Driver와 실제 연산을 수행하는 Executor들로 구성된다.

Driver: 코드를 실행하여 SparkContext를 생성하고, 전체 작업을 DAG (방향성 비순환 그래프)로 구성하여 태스크 (Task) 단위로 쪼갠다.
Cluster Manager: YARN이나 K8s 등으로부터 자원을 할당받아 Executor를 띄운다.
Executor: 할당받은 태스크를 수행하고 결과를 메모리에 저장하거나 드라이버로 반환한다.

이 구조도는 스파크 작업의 처리 흐름과 데이터 지역성 (Data Locality)을 보여준다.

┌─────────────────────────────────────────────────────────────┐
│                 스파크 클러스터 실행 모델                   │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   [ 드라이버 프로그램 ]                                     │
│   (SparkSession) ──▶ [ DAG 스케줄러 ] ──▶ [ 태스크 스케줄러 ]│
│                                                 │           │
│          ┌──────────────────────────────────────┴──┐        │
│          ▼                                         ▼        │
│   [ 익스큐터 1 ]                            [ 익스큐터 2 ]  │
│   ┌─────────────┐                           ┌─────────────┐ │
│   │ [태스크][태스크]│                         │ [태스크][태스크]│ │
│   │   (캐시)    │                           │   (캐시)    │ │
│   └─────────────┘                           └─────────────┘ │
│                                                             │
└─────────────────────────────────────────────────────────────┘

이 다이어그램의 핵심은 'DAG Scheduler'의 역할이다. 사용자가 정의한 일련의 연산들을 분석하여, 셔플이 일어나는 지점을 기준으로 Stage를 나누고 연산을 최적화한다. 실무에서는 이 DAG 시각화 도구를 통해 어느 지점에서 연산이 느려지는지, 데이터가 한쪽으로 쏠리는 스큐 (Skew) 현상이 있는지 파악하는 것이 튜닝의 핵심이다.

RDD와 Lineage: 장애 복구의 마법

스파크는 데이터를 복제하는 대신, 데이터가 생성된 **계보 (Lineage)**를 기억한다. 데이터가 유실되면 드라이버가 기억하는 리니지를 따라 원래 소스부터 다시 계산하여 복구한다.

📢 섹션 요약 비유: 드라이버는 '현장 소장'이고 익제큐터는 '현장 인부'입니다. 소장은 작업 지시서(DAG)를 들고 전체 일정을 관리하며, 인부 한 명이 다치면(노드 장애) 지시서를 보고 다른 인부에게 그 일을 처음부터 다시 시키는 것과 같습니다.

Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)

RDD vs DataFrame vs Dataset

스파크 API의 진화 단계별 비교이다.

항목	RDD (1세대)	DataFrame (2세대)	Dataset (3세대)
데이터 타입	비정형 객체	이름 있는 컬럼 (스키마)	타입 안정성 보장 객체
최적화 엔진	미비	Catalyst (강력함)	Catalyst 지원
언어 제약	모든 언어	SQL 친화적	Scala/Java 전용
사용 편의성	낮음 (Low-level)	높음 (High-level)	높음
비유	날것의 재료	깔끔한 캔 통조림	영양 성분이 적힌 건강식

Spark SQL의 쿼리 최적화: Catalyst Optimizer

단계	역할
Analysis	카탈로그 정보를 참조하여 구문 분석
Logical Plan	불필요한 필터 제거, 상수 폴딩 등 최적화
Physical Plan	실제 실행 가능한 여러 계획 수립 후 비용 기반 (CBO) 선택
Code Generation	런타임에 최적화된 Java 바이트코드 생성

📢 섹션 요약 비유: RDD가 수동 기어 자동차라면, DataFrame은 오토매틱 자동차입니다. Catalyst 엔진은 목적지까지 가장 빠른 길을 알아서 찾아주는 내비게이션 역할을 수행합니다.

Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)

기술사적 판단: 스파크 성능 최적화 시나리오

시나리오 1: 데이터 셔플 (Shuffle)로 인한 네트워크 병목

판단: 스파크에서 셔플은 가장 비싼 연산이다. Join이나 GroupBy 수행 전, Broadcast Join을 고려한다. 작은 테이블을 모든 노드의 메모리에 복사해 두면 네트워크 이동 없이 로컬에서 Join을 끝낼 수 있다. 또한 데이터를 미리 특정 키로 파티셔닝해두는 Bucketing 기법을 적용한다.

시나리오 2: 특정 노드만 죽는 Out of Memory (OOM) 발생

판단: 데이터가 특정 키에 쏠려 있는 Data Skew 현상을 의심한다. Salting 기법(키에 랜덤 숫자를 붙여 분산)을 사용하여 데이터를 골고루 퍼뜨린다. 또한 JVM의 힙 메모리 관리 설정을 점검하고, Storage Level을 조정하여 메모리 대신 디스크를 혼용하도록 가이드한다.

이 도식은 스파크 튜닝을 위한 기술사적 판단 프로세스를 보여준다.

┌─────────────────────────────────────────────────────────────┐
│               스파크 튜닝 의사결정 프레임워크               │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   [앱 지연?] ───▶ [DAG UI 확인] ────▶ [병목 구간 식별]      │
│                          │                  │               │
│          ┌───────────────┴──────────┬───────┴────────┐      │
│          ▼                          ▼                ▼      │
│   [데이터 스큐?]             [디스크 스필?]   [네트워크 부하?]│
│   -> 솔팅 적용              -> 메모리 증설   -> 브로드캐스트│
│                                                             │
└─────────────────────────────────────────────────────────────┘

📢 섹션 요약 비유: 기술사의 스파크 튜닝은 꽉 막힌 고속도로에서 병목 지점(셔플)을 찾아내고, 차선(파티션)을 늘리거나 전용 차로(브로드캐스트)를 만들어 소통을 원활하게 하는 것과 같습니다.

Ⅴ. 기대효과 및 결론 (Future & Standard)

스파크 기반 플랫폼의 비즈니스 가치

정량적 효과: 분석 리드 타임 10배~100배 단축, 데이터 인프라 운영 도구 3개 이상 통합.
정성적 효과: 데이터 사이언티스트와 엔지니어 간의 언어 통일 (Python/SQL 공유), 신속한 프로토타이핑 가능.

미래 전망: 서버리스 스파크와 레이크하우스

최근 스파크는 클라우드 네이티브 환경에 최적화된 Serverless Spark (Databricks, AWS Glue)로 진화하고 있다. 또한 Delta Lake나 Iceberg와 결합하여 데이터 레이크의 유연성과 DW의 트랜잭션을 동시에 제공하는 **데이터 레이크하우스 (Data Lakehouse)**의 핵심 엔진으로서 독보적인 위치를 굳히고 있다. 기술사는 단순 연산 엔진으로서의 스파크를 넘어, 전체 데이터 거버넌스와 결합된 전략적 자산으로서 스파크를 바라봐야 한다.

📢 섹션 요약 비유: 미래의 스파크는 수도꼭지를 틀면 물이 나오듯, 인프라 걱정 없이 쿼리만 던지면 즉시 인사이트를 쏟아내는 '데이터 인텔리전스'의 핵심 혈관이 될 것입니다.

📌 관련 개념 맵 (Knowledge Graph)

RDD: 불변 분산 데이터셋, 스파크의 근간
DataFrame: 스키마가 있는 추상화 모델, 최적화의 핵심
Catalyst Optimizer: 스파크 SQL의 강력한 쿼리 최적화 엔진
Tungsten: 메모리 관리 및 코드 생성 최적화 프로젝트
Spark Streaming: 마이크로 배치 기반의 실시간 처리 모듈
Delta Lake: 스파크 위에서 ACID 트랜잭션을 보장하는 저장 레이어

👶 어린이를 위한 3줄 비유 설명

스파크는 숙제를 할 때 공책에 하나하나 적으면서 하는 게 아니라, 모든 내용을 머릿속에 쏙쏙 암기해서 순식간에 풀어내는 천재 친구예요.
친구 여러 명과 한 팀이 되어서 어려운 문제를 나누어 푸는데, 한 명의 기억이 가물가물해도 옆 친구가 알려주니까 절대 틀리지 않아요.
복잡한 수학 문제도, 국어 문제도 다 잘 풀어서 우리 학교에서 제일 인기 많은 공부 대장이랍니다!

📈 관련 키워드 및 발전 흐름도

Hadoop MapReduce (디스크 기반, 느림)
    │
    ▼
Apache Spark (RDD → DataFrame → Dataset)
    │
    ├─► Spark SQL — SQL 기반 분산 처리
    ├─► Spark Streaming → Structured Streaming
    ├─► MLlib — 분산 머신러닝
    └─► GraphX — 그래프 연산
    │
    ▼
Spark on Kubernetes / Delta Lake 통합
    │
    ▼
Apache Flink (스트리밍 우선 아키텍처)와 경쟁·공존