핵심 인사이트 (3줄 요약)

  1. 본질: 데이터 웨어하우스(DW)는 경영 의사결정을 위한 정제·통합 정형 데이터의 중앙 저장소로, BI 리포트와 OLAP 분석에 최적화된 고비용 고성능 플랫폼이다.
  2. 가치: ETL을 통해 여러 운영 시스템의 데이터를 단일 진실의 공급원(Single Source of Truth)으로 통합하여, 일관된 기업 지표를 전사에 제공한다.
  3. 판단 포인트: 클라우드 DW(Snowflake·BigQuery·Redshift)는 스토리지와 컴퓨팅을 분리하여 독립적 스케일링이 가능하며, 온프레미스 DW 대비 운영 비용과 확장성에서 혁신적 우위를 제공한다.

Ⅰ. 개요 및 필요성

1980년대 Bill Inmon이 제창하고 1990년대 Ralph Kimball이 차원 모델링 방법론으로 체계화한 데이터 웨어하우스(Data Warehouse, DW)는, 기업의 다양한 운영 시스템(ERP, CRM, SCM 등)에 흩어진 데이터를 통합·정제·구조화하여 경영 분석에 제공하는 플랫폼이다.

운영 DB(OLTP)는 초당 수천 건의 트랜잭션 처리에 최적화되어 있어, 대규모 집계·분석 쿼리를 실행하면 서비스 성능에 영향을 준다. DW는 이를 물리적으로 분리하여 분석 전용 환경을 제공한다.

[기업 데이터 흐름]
┌─────────────┐  ┌─────────────┐  ┌─────────────┐
│  ERP 시스템  │  │  CRM 시스템  │  │  SCM 시스템  │
│  (운영 DB)  │  │  (운영 DB)  │  │  (운영 DB)  │
└──────┬──────┘  └──────┬──────┘  └──────┬──────┘
       │                │                │
       └────────────────┼────────────────┘
                        ↓  ETL (야간 배치)
               ┌────────────────┐
               │  Data Warehouse │
               │  (통합·정제 데이터)│
               └───────┬────────┘
                       │
            ┌──────────┼──────────┐
            ↓          ↓          ↓
         BI 도구    OLAP 분석   데이터 마트
        (Tableau) (집계쿼리)  (부서별 뷰)

📢 섹션 요약 비유: DW는 기업의 "중앙 도서관"이다. 각 부서(운영 DB)가 직접 만든 장부(데이터)를 밤마다 복사·정리해 중앙 도서관에 보관하고, 경영진이 언제든 전사적 통계를 조회할 수 있도록 한다.


Ⅱ. 아키텍처 및 핵심 원리

클라우드 DW 아키텍처 (스토리지-컴퓨팅 분리)

┌──────────────────────────────────────────────────────┐
│              클라우드 DW 아키텍처                       │
│                                                      │
│  소스 시스템 → ETL/ELT → ┌──────────────────────┐   │
│                          │  공유 스토리지 계층     │   │
│                          │  (S3/GCS/Azure Blob)  │   │
│                          │  컬럼 압축 Parquet     │   │
│                          └──────────┬───────────┘   │
│                                     │               │
│          ┌──────────────────────────┴─────┐         │
│          │     컴퓨팅 클러스터 (독립 스케일)│         │
│          │  ┌────────┐  ┌────────┐         │         │
│          │  │ 가상웨어│  │ 가상웨어│  ...    │         │
│          │  │ 하우스 1│  │ 하우스 2│         │         │
│          │  │(BI팀)  │  │(데이터팀)│         │         │
│          │  └────────┘  └────────┘         │         │
│          └────────────────────────────────┘         │
└──────────────────────────────────────────────────────┘

핵심 기술 요소

구성 요소역할
스타 스키마 (Star Schema)팩트 테이블 + 차원 테이블 구조, 쿼리 단순화
스노우플레이크 스키마차원 테이블 정규화, 저장 효율 ↑ / 조인 복잡도 ↑
컬럼 지향 저장SELECT 시 필요 열만 읽어 I/O 절감
MPP (Massively Parallel Processing)수백 노드 병렬 쿼리 처리
구체화 뷰 (Materialized View)반복 집계 쿼리 사전 계산 저장
파티셔닝/클러스터링날짜·카테고리 기준 데이터 분할로 쿼리 범위 축소

📢 섹션 요약 비유: 클라우드 DW의 스토리지-컴퓨팅 분리는 창고(데이터)와 지게차(컴퓨팅)를 분리한 것이다. 바쁜 날(분석 집중)엔 지게차만 늘리고, 한산한 날엔 줄이면 되므로 창고 크기와 무관하게 운영 비용을 최적화할 수 있다.


Ⅲ. 비교 및 연결

클라우드 DW 3대 서비스 비교

비교 항목SnowflakeGoogle BigQueryAmazon Redshift
아키텍처스토리지-컴퓨팅 완전 분리서버리스 MPP클러스터 기반 MPP
가격 모델컴퓨팅 크레딧 + 스토리지 분리 과금쿼리 스캔 바이트 과금노드 시간 과금
확장성Virtual Warehouse 즉시 확장자동 확장 (서버리스)클러스터 리사이즈 필요
멀티 클라우드AWS/GCP/Azure 모두 지원GCP 전용AWS 전용
ML 통합Snowpark (Python/Java 내부 실행)BigQuery MLRedshift ML (SageMaker 연동)
고유 강점데이터 공유(Data Sharing)비정형 데이터 분석AWS 에코시스템 통합
적합 사례멀티클라우드 기업, 외부 데이터 공유GCP 기반 스타트업, 분석 우선AWS 전용 기업, 기존 Redshift 전환

DW vs DL(데이터 레이크) vs DLH(레이크하우스)

특성DWData LakeLakehouse
데이터 유형정형모든 유형모든 유형
스키마Schema-on-WriteSchema-on-Read둘 다 지원
품질높음낮음~중간높음
비용고비용저비용중간
ACID 트랜잭션지원미지원지원 (Delta/Iceberg)

📢 섹션 요약 비유: DW·DL·DLH는 식당에서 음식 관리하는 세 가지 방식이다. DW는 미리 다 조리해 냉장고에 넣는 것(빠르지만 유연성 없음), DL은 재료를 날것으로 쌓는 것(유연하지만 위생 우려), DLH는 반조리 상태로 정리한 것(두 장점 모두)이다.


Ⅳ. 실무 적용 및 기술사 판단

DW 설계: Star Schema vs Snowflake Schema

[Star Schema - 팩트 중심 비정규화]
           ┌──────────────┐
           │  날짜 차원    │
           └──────┬───────┘
                  │
┌──────────┐  ┌───┴──────────────┐  ┌──────────┐
│ 상품 차원 │──│  매출 팩트 테이블  │──│ 고객 차원 │
└──────────┘  │ (주문ID, 날짜ID,  │  └──────────┘
              │  상품ID, 고객ID,  │
              │  금액, 수량)      │
              └──────────────────┘

실무 적용 지침

상황권장 선택
복잡한 집계 분석, 고정 리포트DW (BigQuery, Snowflake)
ML 학습, 탐색적 분석, 비정형Data Lake (S3 + Glue)
ACID + 유연성 + 저비용 모두 필요Lakehouse (Delta Lake)
AWS 생태계 all-inRedshift + S3 + Glue
GCP 기반BigQuery + Cloud Storage
멀티클라우드·외부 데이터 공유Snowflake

기술사 핵심 판단: DW 선택 시 스토리지-컴퓨팅 분리 여부와 MPP 아키텍처를 설명하고, 조직의 클라우드 전략(단일 CSP vs 멀티)에 따라 서비스를 차별화하여 제안한다.

📢 섹션 요약 비유: DW 선택은 식당 종류 선택과 같다. 패스트푸드(Redshift, 이미 AWS 사용 중)는 빠르지만 제약이 있고, 뷔페(BigQuery, GCP)는 먹는 만큼 내며, 프랜차이즈 체인(Snowflake)은 어디서나 같은 맛(멀티클라우드)을 제공한다.


Ⅴ. 기대효과 및 결론

기대효과

효과정량 기준
쿼리 성능OLTP 대비 분석 쿼리 10~1000배 빠른 응답
운영 DB 보호분석 쿼리로 인한 운영 서비스 간섭 제거
데이터 일관성전사 KPI 정의 통일, 부서간 숫자 불일치 제거
의사결정 속도임원 대시보드 T+1일 → T+수분 단위 갱신

한계 및 주의점

한계내용
비용클라우드 DW는 쿼리·스토리지 과금으로 월 수백만 원 발생 가능
Schema Agility 부족스키마 변경 시 ETL 파이프라인 전체 수정 필요
비정형 데이터 처리 한계JSON 중첩 구조, 이미지 등 처리 불리
지연 시간ETL 배치 주기(야간)로 실시간성 제한 (ELT 또는 스트리밍 연동 필요)

📢 섹션 요약 비유: DW는 잘 정리된 도서관과 같다. 원하는 책(데이터)을 빠르게 찾을 수 있지만, 새 책(스키마 변경)을 들이려면 사서(ETL 엔지니어)가 전체 목록(파이프라인)을 다시 정리해야 하는 번거로움이 있다.


📌 관련 개념 맵

개념연결 포인트
Schema-on-WriteDW의 ETL 기반 데이터 품질 보장 전략
데이터 마트DW의 서브셋, 부서별 특화 저장소
OLAPDW의 주요 쿼리 패턴 (다차원 집계)
Star SchemaDW 물리 설계의 핵심 패턴
ETLDW 적재를 위한 전통적 데이터 통합 방식
ELT클라우드 DW 시대의 새로운 적재 패턴
MPPDW 쿼리 병렬화 아키텍처 원리

👶 어린이를 위한 3줄 비유 설명

  1. 데이터 웨어하우스는 회사의 모든 서류를 깨끗이 정리해 보관하는 중앙 서류함이다. 영업팀, 재무팀 서류를 모두 통일된 형식으로 정리해두면, 사장님이 언제든 빠르게 찾아볼 수 있다.

📈 관련 키워드 및 발전 흐름도

OLTP (트랜잭션 처리, 행 기반)
    │
    ▼
Data Warehouse: OLAP · Star/Snowflake 스키마
    ├─► BigQuery · Snowflake · Redshift
    └─► Schema-on-Write · 컬럼 지향 저장
    │
    ▼
Lakehouse: DW + Lake 통합 (Delta Lake · Iceberg)
  1. 마치 도서관 사서처럼, 밤마다(ETL 야간 배치) 각 교실(운영 DB)에서 중요한 내용을 가져와 도서관(DW)에 깔끔하게 분류해 넣는다.
  2. BigQuery·Snowflake·Redshift는 같은 서류함이지만, 각각 Google·중립·Amazon 건물에 있는 셈이다. 어느 건물에 이미 살고 있느냐에 따라 선택이 달라진다.