데이터 레이크 (Data Lake)

핵심 인사이트 (3줄 요약)

정형/비정형 데이터를 원본 형태 그대로 저장하는 중앙화된 저장소. 스키마 온 리드(Schema-on-Read) 방식. 빅데이터 분석과 ML의 기반 인프라.


📝 기술사 모의답안 (2.5페이지 분량)

📌 예상 문제

"데이터 레이크 (Data Lake)의 개념과 핵심 원리를 설명하고, 비교 분석 및 실무 적용 방안을 기술하시오."


Ⅰ. 개요

1. 개념

데이터 레이크는 정형, 반정형, 비정형 데이터를 변환 없이 원본 형태로 대량 저장하는 중앙 집중식 저장소다.

비유: "자연호수" - 모든 물(데이터)이 그대로 모이고, 필요할 때만 정수해서 사용


Ⅱ. 구성 요소 및 핵심 원리

3. 데이터 레이크 아키텍처

┌────────────────────────────────────────────────────────┐
│               데이터 레이크 아키텍처                    │
├────────────────────────────────────────────────────────┤
│                                                        │
│  데이터 소스                                           │
│  ┌───────┐ ┌───────┐ ┌───────┐ ┌───────┐             │
│  │  DB   │ │  API  │ │  로그  │ │ 파일  │             │
│  └───┬───┘ └───┬───┘ └───┬───┘ └───┬───┘             │
│      └─────────┼─────────┼─────────┘                  │
│                ↓                                       │
│  ┌───────────────────────────────────────────────┐   │
│  │            수집 계층 (Ingestion)              │   │
│  │   Kafka, Flume, AWS Kinesis, Azure EventHub  │   │
│  └───────────────────────────────────────────────┘   │
│                ↓                                       │
│  ┌───────────────────────────────────────────────┐   │
│  │            저장 계층 (Storage)                │   │
│  │   HDFS, S3, Azure Data Lake, GCS             │   │
│  │                                               │   │
│  │   ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐           │   │
│  │   │Raw  │ │Cleansed│ │Curated│ │Analytics│   │   │
│  │   │Zone │ │ Zone │ │ Zone │ │ Zone  │       │   │
│  │   └─────┘ └─────┘ └─────┘ └─────┘           │   │
│  └───────────────────────────────────────────────┘   │
│                ↓                                       │
│  ┌───────────────────────────────────────────────┐   │
│  │            처리/분석 계층                     │   │
│  │   Spark, Hive, Presto, Databricks            │   │
│  └───────────────────────────────────────────────┘   │
│                ↓                                       │
│  ┌───────────────────────────────────────────────┐   │
│  │            소비 계층                          │   │
│  │   BI, ML, 대시보드, 애플리케이션              │   │
│  └───────────────────────────────────────────────┘   │
│                                                        │
└────────────────────────────────────────────────────────┘

Ⅲ. 기술 비교 분석

2. 데이터 레이크 vs 데이터 웨어하우스

┌────────────────────────────────────────────────────────┐
│          데이터 레이크 vs 데이터 웨어하우스             │
├────────────────────────────────────────────────────────┤
│                                                        │
│  데이터 웨어하우스 (Data Warehouse):                   │
│  ┌────────────────────────────────────────────────┐   │
│  │ • 정형 데이터만 저장                           │   │
│  │ • 스키마 온 라이트 (저장 전 변환)              │   │
│  │ • ETL 필수                                    │   │
│  │ • SQL 기반 분석                               │   │
│  │ • 높은 비용, 빠른 쿼리                        │   │
│  └────────────────────────────────────────────────┘   │
│                                                        │
│  데이터 레이크 (Data Lake):                            │
│  ┌────────────────────────────────────────────────┐   │
│  │ • 모든 유형 데이터 저장                        │   │
│  │ • 스키마 온 리드 (읽을 때 변환)                │   │
│  │ • ELT 가능                                    │   │
│  │ • 다양한 분석 도구                            │   │
│  │ • 낮은 비용, 유연함                           │   │
│  └────────────────────────────────────────────────┘   │
│                                                        │
│  비교표:                                               │
│  ┌─────────────┬─────────────┬─────────────┐         │
│  │    구분      │    DW       │   Lake      │         │
│  ├─────────────┼─────────────┼─────────────┤         │
│  │ 데이터 유형 │ 정형        │ 모든 유형   │         │
│  │ 스키마      │ On-Write    │ On-Read     │         │
│  │ 비용        │ 높음        │ 낮음        │         │
│  │ 유연성      │ 낮음        │ 높음        │         │
│  │ 쿼리 속도   │ 빠름        │ 상대적 느림 │         │
│  └─────────────┴─────────────┴─────────────┘         │
│                                                        │
└────────────────────────────────────────────────────────┘

Ⅳ. 실무 적용 방안

**데이터 레이크 (Data Lake)**의 실무 적용 시나리오와 고려사항.


Ⅴ. 기대 효과 및 결론

효과 영역내용정량적 목표
비즈니스 혁신디지털 전환 가속화 및 신규 비즈니스 모델 창출시장 출시 시간(TTM) 50% 단축
운영 효율AI·자동화로 수작업 제거 및 의사결정 지원 강화운영 비용 30~40% 절감
경쟁력 강화최신 기술 도입으로 시장 경쟁 우위 확보고객 만족도(CSAT) 20점 향상

결론

**데이터 레이크 (Data Lake)**은(는) ICT 융합 기술은 AI-First 전략, 탄소 중립(Net Zero) 목표, EU AI Act 등 글로벌 규제 환경에 대응하면서 기술적 혁신과 사회적 책임을 동시에 실현하는 방향으로 발전하고 있다.

※ 참고 표준: NIST AI RMF 1.0, EU AI Act(2024), ISO/IEC 42001(AI 관리 시스템), 과기정통부 AI 기본법


어린이를 위한 종합 설명

데이터 레이크를 쉽게 이해해보자!

정형/비정형 데이터를 원본 형태 그대로 저장하는 중앙화된 저장소. 스키마 온 리드(Schema-on-Read) 방식. 빅데이터 분석과 ML의 기반 인프라.

왜 필요할까?
  기존 방식의 한계를 넘기 위해

어떻게 동작하나?
  복잡한 문제 → 데이터 레이크 적용 → 더 빠르고 안전한 결과!

핵심 한 줄:
  데이터 레이크 = 똑똑하게 문제를 해결하는 방법

비유: 데이터 레이크은 마치 요리사가 레시피를 따르는 것과 같아. 혼란스러운 재료들을 정해진 순서대로 조합하면 → 맛있는 요리(최적 결과)가 나오지! 🍳