핵심 인사이트 (3줄 요약)
- 본질: 데이터 웨어하우스(DW)는 기업 내 여러 시스템에 흩어진 데이터를 '주제별'로 통합하여 장기 보관하고, 의사결정 분석에 최적화한 데이터 저장소다.
- 가치: 실시간 업무 처리(OLTP)에 영향을 주지 않으면서 과거부터 현재까지의 방대한 데이터를 다각도로 분석하여 비즈니스 통찰력을 제공한다.
- 판단 포인트: 빌 인몬(Bill Inmon)의 하향식(Top-down) 방식은 전사적인 통합 데이터 모델(EDW)을 먼저 구축하여 데이터의 일관성을 최우선으로 한다.
Ⅰ. 개요 및 필요성
기업에는 ERP, CRM, 홈페이지 등 여러 시스템이 있고 데이터 형식도 제각각이다. 경영진이 "지난 5년간 전사 매출 추이를 보고 싶다"고 하면 각 시스템을 일일이 뒤져야 한다. DW는 이러한 비효율을 해결하기 위해 데이터를 미리 한곳에 모으고, 분석하기 좋게 정제하여 쌓아둔다. 한번 들어온 데이터는 지우지 않는 '비휘발성'을 가지며, 시간의 흐름에 따른 변화를 추적할 수 있는 '시계열성'이 핵심 특징이다.
📢 섹션 요약 비유: DW는 기업의 '역사 박물관'이자 '전통 도서관'이다. 과거부터 지금까지의 모든 기록을 종류별로 잘 정리해서 언제든 찾아볼 수 있게 해준다.
Ⅱ. 아키텍처 및 핵심 원리
DW의 4대 특징 (by Bill Inmon)
- 주제 지향 (Subject-Oriented): 업무 프로세스가 아닌 '고객', '상품', '매출' 등 특정 주제 중심으로 데이터를 구성한다.
- 통합성 (Integrated): 서로 다른 시스템의 데이터 형식(예: 성별 M/F vs 1/0)을 하나로 통일하여 저장한다.
- 시계열성 (Time-Variant): 과거의 데이터를 삭제하지 않고 시간순으로 쌓아 이력 분석이 가능하게 한다.
- 비휘발성 (Non-Volatile): 한 번 적재된 데이터는 수정하거나 삭제하지 않고 오직 조회만 수행한다.
빌 인몬(Inmon)의 아키텍처 (Top-down)
- 전사적인 통합 데이터 웨어하우스(EDW)를 먼저 구축한다.
- 그 후 각 부서에서 필요한 데이터만 추출하여 데이터 마트(Data Mart)를 만든다.
- 데이터의 일관성 유지에 강력하지만, 구축 기간이 길고 비용이 많이 든다.
📢 섹션 요약 비유: 인몬 방식은 커다란 '전사 통합 도서관'을 먼저 짓고, 나중에 부서별로 필요한 책만 빌려가는 '미니 서재'를 만드는 순서와 같다.
Ⅲ. 비교 및 연결
운영 DB (OLTP) vs 데이터 웨어하우스 (DW)
| 비교 항목 | 운영 DB (OLTP) | 데이터 웨어하우스 (DW/OLAP) |
|---|---|---|
| 사용 목적 | 현재 트랜잭션 처리 (주문, 결제) | 의사결정 분석 (통계, 리포팅) |
| 데이터 시점 | 현재 상태 위주 | 과거 이력 + 현재 포함 |
| 데이터 조작 | Insert, Update, Delete 빈번 | Only Load (Select 위주) |
| 응답 속도 | 초 단위 이하 (빠름) | 수 초 ~ 수 분 (대량 데이터) |
| 설계 방식 | 정규화 (중복 제거) | 비정규화 (조인 최소화, 성능 중심) |
📢 섹션 요약 비유: 운영 DB는 매일 쓰는 '가계부'이고, DW는 연말에 회사의 모든 돈 흐름을 분석해 정리한 '연간 재무 보고서'와 같다.
Ⅳ. 실무 적용 및 기술사 판단
기술사 핵심 포인트:
- ETL (Extract, Transform, Load): 원천 시스템에서 데이터를 뽑아내고(E), DW 형식에 맞게 변환하고(T), 저장소에 넣는(L) 과정이 DW의 핵심 품질을 결정한다.
- 킴벌(Kimball)과의 비교: 부서별 마트를 먼저 짓고 통합하는 킴벌 방식과 인몬 방식을 비교 설명하는 것이 단골 문제다.
- 클라우드 DW: 최근에는 Redshift, BigQuery, Snowflake처럼 인프라 관리 부담이 없는 클라우드 전용 DW가 대세다.
📢 섹션 요약 비유: DW는 기업의 '기억 저장소'다. 무엇을 잘했고 무엇을 실수했는지 과거의 모든 데이터를 기억하고 있어야 미래의 전략을 짤 수 있다.
Ⅴ. 기대효과 및 결론
DW는 비즈니스 인텔리전스(BI)의 심장이다. 전사적으로 "단일 진실 공급원(Single Source of Truth)"을 제공하여 부서마다 숫자가 달라 싸우는 일을 방지한다. 기술사 시험에서는 인몬의 4대 정의를 명확히 제시하고, 최근의 데이터 레이크(Data Lake)와의 공존 전략을 언급하는 것이 현대적인 답변이다.
📢 섹션 요약 비유: DW는 지식의 보관소다. 잘 정제된 생수(통합 데이터)를 미리 준비해두어, 목마른 경영진이 언제든 시원하게 정보를 마실 수 있게 해준다.
📌 관련 개념 맵
| 개념 | 연관 키워드 | 관계 |
|---|---|---|
| ETL | 데이터 공정, 정제 | DW에 데이터를 넣기 위한 필수 전처리 과정 |
| Data Mart | 부서별 최적화, Kimball | DW에서 특정 목적을 위해 떼어낸 소규모 저장소 |
| BI (Business Intelligence) | 시각화, 리포트 | DW의 데이터를 시각적으로 보여주는 도구 |
| 비휘발성 | 삭제 불가, 영구 보존 | DW 데이터의 신뢰성을 보장하는 핵심 속성 |
👶 어린이를 위한 3줄 비유 설명
- 회사 안의 모든 정보를 종류별로 모아놓은 거대한 도서관이에요.
- 공부하기 좋게 주제별로 예쁘게 정리해서 꽂아두었답니다.
- 한 번 적은 기록은 절대 지우지 않고 계속 보관해서 옛날 일도 다 알 수 있어요.