210. 데이터 레이크하우스 (Data Lakehouse)

핵심 인사이트

본질: 데이터 레이크하우스(Data Lakehouse)는 데이터 레이크(Data Lake)의 저비용 유연성과 데이터 웨어하우스(Data Warehouse)의 ACID 트랜잭션·스키마 강제·쿼리 성능을 단일 스토리지 계층에서 통합 실현하는 차세대 데이터 아키텍처다.

가치: Delta Lake, Apache Iceberg, Apache Hudi는 오브젝트 스토리지(S3/GCS/ADLS) 위에 트랜잭션 로그 레이어를 추가하여 ACID 보장·타임 트래블(Time Travel)·스키마 진화(Schema Evolution)를 제공하며, ML/AI 워크로드와 SQL 분석을 동일 데이터셋에서 수행 가능하게 한다.

판단 포인트: 기존 Data Lake에 거버넌스·신뢰성이 필요하거나, DW와 ML 파이프라인이 동일 원시 데이터를 공유해야 할 때 Lakehouse가 최적이며, 완전 관리형 서비스를 원하면 Databricks Lakehouse 또는 Snowflake를 검토한다.

Ⅰ. 개요 및 필요성

1.1 두 세계의 한계와 통합 요구

데이터 레이크는 원시 데이터를 저렴하게 저장하지만, ACID 부재로 인한 "데이터 스왐프(Data Swamp)" 문제, 스키마 불일치, ML과 SQL 간 도구 분리가 단점이다. 반면 DW는 정형 데이터에 강하지만 비정형·반정형 데이터 처리, ML 피처(Feature) 데이터 통합, 클라우드 오브젝트 스토리지 직접 활용에 제약이 있다.

2020년 Databricks가 제안한 Lakehouse 패러다임은 오브젝트 스토리지를 단일 진실 원천(Single Source of Truth)으로 유지하면서, 그 위에 **메타데이터 레이어(Open Table Format)**를 추가해 DW 수준의 신뢰성을 달성한다. 이로써 데이터 엔지니어·데이터 과학자·SQL 분석가가 동일 데이터를 서로 다른 도구로 접근할 수 있다.

1.2 오픈 테이블 포맷 3대 프로젝트

포맷	주도	핵심 특징
Delta Lake	Databricks	트랜잭션 로그(_delta_log), Spark 네이티브
Apache Iceberg	Netflix/Apple	열 수준 통계, Hidden Partitioning, 멀티엔진
Apache Hudi	Uber	Upsert 최적화, CDC(Change Data Capture) 친화

📢 섹션 요약 비유: 데이터 레이크는 공사장 창고(비용 낮지만 어수선), DW는 정돈된 전문 서고(체계적이지만 비쌈), Lakehouse는 창고 안에 디지털 관리 시스템을 설치해 창고 비용 + 서고 체계를 동시에 얻는 방식이다.

Ⅱ. 아키텍처 및 핵심 원리

2.1 Delta Lake 아키텍처

┌─────────────────────────────────────────────────────────────┐
│              Delta Lake Lakehouse Architecture              │
│                                                             │
│  ┌─────────────────────────────────────────────────────┐   │
│  │              Object Storage (S3 / GCS / ADLS)       │   │
│  │  ┌───────────────────┐   ┌──────────────────────┐   │   │
│  │  │   Parquet Files   │   │   _delta_log/        │   │   │
│  │  │  (Data Files)     │   │  ┌────────────────┐  │   │   │
│  │  │  part-0001.parquet│   │  │ 00000.json     │  │   │   │
│  │  │  part-0002.parquet│   │  │ 00001.json     │  │   │   │
│  │  │  part-0003.parquet│   │  │ 00002.checkpoint│  │   │   │
│  │  └───────────────────┘   │  └────────────────┘  │   │   │
│  │                          └──────────────────────┘   │   │
│  └─────────────────────────────────────────────────────┘   │
│               ▲                        ▲                    │
│               │   트랜잭션 보장         │  메타데이터 추적   │
│  ┌────────────┴────┐        ┌──────────┴──────────┐        │
│  │  Query Engine   │        │  Metadata Layer     │        │
│  │ ┌─────────────┐ │        │  - Schema 관리      │        │
│  │ │ Apache Spark│ │        │  - ACID 로그        │        │
│  │ │ Trino/Presto│ │        │  - Time Travel      │        │
│  │ │ Flink       │ │        │  - Data Versioning  │        │
│  │ └─────────────┘ │        └─────────────────────┘        │
│  └─────────────────┘                                        │
└─────────────────────────────────────────────────────────────┘

2.2 ACID 트랜잭션 보장 메커니즘

Delta Lake는 오브젝트 스토리지가 기본적으로 ACID를 지원하지 않는 문제를 트랜잭션 로그(_delta_log) 로 해결한다. 모든 쓰기 작업은 원자적으로 JSON 로그 파일에 기록되며, 충돌 감지 시 낙관적 동시성 제어(Optimistic Concurrency Control)를 적용한다. 이로써 다수의 Spark 작업이 동시에 같은 테이블을 읽고 쓰더라도 일관성이 유지된다.

2.3 Time Travel (타임 트래블) 기능

-- 특정 버전으로 데이터 조회
SELECT * FROM delta.`/data/sales` VERSION AS OF 10;

-- 특정 시점 기준 조회
SELECT * FROM delta.`/data/sales` TIMESTAMP AS OF '2026-01-01 00:00:00';

-- 이전 버전으로 롤백
RESTORE TABLE sales TO VERSION AS OF 5;

📢 섹션 요약 비유: _delta_log는 게임의 세이브 포인트(Save Point) 파일이다. 데이터를 실수로 삭제해도 "어제 오전 10시 버전으로 복원"이 가능하고, "버전 5와 현재 버전의 차이"도 즉시 확인할 수 있다.

Ⅲ. 비교 및 연결

3.1 Delta Lake vs Apache Iceberg vs Apache Hudi

항목	Delta Lake	Apache Iceberg	Apache Hudi
주도 조직	Databricks	Netflix, Apple	Uber
파티션 방식	디렉터리 기반	Hidden Partitioning	파티션 진화 지원
Upsert 성능	MERGE 지원	MERGE 지원	Copy-on-Write / Merge-on-Read
멀티엔진	Spark 중심	Flink, Trino, Spark	Spark, Flink
Time Travel	버전·타임스탬프	스냅샷 기반	커밋 타임라인
강점	Spark 생태계 통합	대규모 테이블 관리	CDC, 근실시간 수집

3.2 Lakehouse 계층 아키텍처 (Medallion Architecture)

계층	별칭	데이터 상태	처리 내용
Bronze	Raw Layer	원시 데이터	소스 그대로 적재, 변경 불가 이력 보존
Silver	Cleansed Layer	정제 데이터	중복 제거, 형식 통일, 기본 품질 검증
Gold	Curated Layer	집계·비즈니스 데이터	도메인별 집계, BI/ML 최종 소비

📢 섹션 요약 비유: Medallion Architecture는 금속 제련 공정과 같다. 광석(Bronze, 원시 데이터)을 제련하여 철(Silver, 정제 데이터)로 만들고, 최종적으로 금(Gold, 비즈니스 인사이트)을 뽑아낸다. 각 단계에서 순도(데이터 품질)가 높아진다.

Ⅳ. 실무 적용 및 기술사 판단

4.1 Lakehouse 도입 판단 기준

조건	권장 아키텍처
정형 데이터, 고정 스키마, SQL 분석 중심	전통적 DW (Snowflake, BigQuery)
비정형 포함, ML/AI 워크로드, 비용 민감	Data Lakehouse (Delta Lake, Iceberg)
실시간 CDC + 배치 혼합	Hudi 기반 Lakehouse
완전 관리형, Spark 생태계	Databricks Lakehouse Platform
레거시 DW + 신규 Lake 통합	점진적 Lakehouse 전환

4.2 Schema Evolution (스키마 진화) 전략

Lakehouse에서는 운영 중 스키마를 변경해도 기존 데이터가 유효하게 유지된다. Delta Lake는 MERGE SCHEMA 옵션으로 새 컬럼 추가를 자동 처리하며, 하위 호환성(Backward Compatibility)을 보장한다.

# Delta Lake 스키마 자동 병합 예시
df.write.format("delta") \
    .option("mergeSchema", "true") \
    .mode("append") \
    .save("/data/sales")

4.3 기술사 핵심 출제 포인트

Lakehouse vs DW vs Data Lake 3각 비교: 각 아키텍처의 설계 원칙, 적합 워크로드, 비용 구조
Delta Lake ACID 구현 원리: 트랜잭션 로그 구조, 낙관적 동시성 제어
Medallion Architecture: Bronze/Silver/Gold 3계층의 역할과 데이터 품질 단계
Time Travel 활용 시나리오: GDPR 삭제 요청, 실수 데이터 복원, 데이터 감사

📢 섹션 요약 비유: Lakehouse 도입은 임대 창고(Data Lake)에 스마트 재고 관리 시스템(Delta Lake)을 설치하는 것과 같다. 별도의 전문 서고(DW)를 짓지 않아도 창고에서 즉시 "3일 전 재고 현황"을 조회하고, 두 직원이 동시에 같은 선반에 물건을 놓아도 충돌이 없도록 관리된다.

Ⅴ. 기대효과 및 결론

5.1 Lakehouse 도입 효과

효과	설명
인프라 단순화	DW + Data Lake 이중 관리 → 단일 플랫폼으로 통합
데이터 신선도 향상	배치(Batch) + 스트리밍 통합 처리로 Near-Real-Time 분석
ML/BI 통합	동일 데이터셋에서 SQL 분석과 ML 피처 엔지니어링 동시 수행
비용 절감	클라우드 오브젝트 스토리지 단가($0.02/GB) 활용, DW 스토리지 대비 10분의 1 수준
거버넌스 강화	ACID + 타임 트래블로 데이터 감사 및 규정 준수 용이

5.2 미래 발전 방향

Lakehouse는 데이터 메시(Data Mesh) 와 결합하여 도메인별 분산 Lakehouse를 연합하는 방향으로 진화하고 있다. 또한 Apache Arrow 기반 인메모리 컬럼 포맷과 결합하여 쿼리 성능이 지속적으로 향상되고 있으며, AI/ML 피처 스토어(Feature Store) 와 네이티브 통합이 표준화되는 추세다.

Lakehouse는 "하나의 플랫폼으로 모든 데이터 워크로드를"이라는 목표로 기업 데이터 아키텍처의 미래 표준으로 자리잡고 있다.

📢 섹션 요약 비유: Lakehouse는 스위스 군용 칼(Swiss Army Knife)과 같다. DW 역할(SQL 분석), Data Lake 역할(원시 데이터 보관), ML 플랫폼 역할(AI 학습 데이터)을 하나의 도구에서 모두 수행한다. 단, 특정 기능만 전문적으로 쓰는 경우엔 단일 목적 도구가 더 날카로울 수 있다.

📌 관련 개념 맵

개념	설명	연관 키워드
Delta Lake	Databricks의 오픈 테이블 포맷	트랜잭션 로그, ACID, Time Travel
Apache Iceberg	Netflix 주도 오픈 테이블 포맷	Hidden Partitioning, 멀티엔진
Apache Hudi	Uber 주도 CDC 친화 포맷	Upsert, MoR, CoW
Medallion Architecture	Bronze/Silver/Gold 3계층 데이터 품질 모델	데이터 레이크, 품질 관리
Time Travel	과거 버전 데이터 조회·복원	버전 관리, GDPR, 데이터 감사
Schema Evolution	운영 중 스키마 변경 허용	하위 호환성, mergeSchema
ACID (Atomicity/Consistency/Isolation/Durability)	트랜잭션 4대 특성	동시성 제어, 낙관적 잠금
Feature Store	ML 피처 저장·재사용 저장소	MLOps, Feast, Tecton

👶 어린이를 위한 3줄 비유 설명

데이터 레이크하우스는 창고(레이크)에 도서관 관리 프로그램(Delta Lake)을 설치한 거야. 책을 아무렇게나 쌓아둬도 컴퓨터가 어디 있는지 정확히 알고, 실수로 버린 책도 "어제 버전"으로 되살릴 수 있어.
Medallion Architecture는 동화 속 금 제련 공정처럼, 돌(원시 데이터) → 철(정제 데이터) → 금(비즈니스 인사이트) 순서로 데이터가 점점 순수해지는 과정이야.
Time Travel은 게임의 세이브 포인트야. "어제 오전 10시 데이터로 되돌아가기"를 한 줄 코드로 실행할 수 있어서, 실수로 데이터를 지워도 걱정 없어.