핵심 인사이트 (3줄 요약)
- 본질: 빅데이터 플랫폼 아키텍처는 데이터 수집(Ingestion) → 저장(Storage) → 처리(Processing) → 분석(Analysis) → 서빙(Serving)의 전체 파이프라인을 통합하여 엔터프라이즈 수준의 확장성·안정성·거버넌스를 동시에 제공하는 시스템 설계 체계다.
- 가치: 클라우드 네이티브 빅데이터 플랫폼은 온프레미스 Hadoop 클러스터 대비 유연한 확장, 종량제 비용 모델, 관리형 서비스(Managed Service) 활용으로 총소유비용(TCO, Total Cost of Ownership)을 50~70% 절감하면서 처리 성능을 향상시킨다.
- 판단 포인트: 플랫폼 선택의 핵심은 배치·스트리밍 통합 여부, 데이터 거버넌스 성숙도, 클라우드 종속성 허용 범위이며, 단일 플랫폼 종속(Vendor Lock-in)보다 오픈소스 표준 기반의 이식성 확보가 장기 전략이다.
Ⅰ. 개요 및 필요성
빅데이터 플랫폼은 단일 기술이 아닌 여러 컴포넌트의 통합 생태계다. 데이터가 발생하는 순간부터 의사결정에 사용될 때까지의 전체 여정을 커버해야 한다.
빅데이터 플랫폼 없이 발생하는 문제:
-
사일로(Silo): 부서별 독립 시스템 → 중복 저장, 데이터 불일치
-
확장성 부재: 데이터 증가 시 단순 스케일업으로 한계 도달
-
분석 병목: OLTP DB에서 직접 분석 쿼리 실행 → 운영 시스템 장애
-
📢 섹션 요약 비유: 빅데이터 플랫폼은 '공장의 제조 라인' 과 같습니다. 원자재(Raw Data)가 들어와 컨베이어 벨트(파이프라인)를 거쳐 완성품(인사이트)이 나오는 전체 생산 라인을 설계하는 것입니다.
Ⅱ. 아키텍처 및 핵심 원리
1. 현대 빅데이터 플랫폼 레이어
빅데이터 플랫폼 레이어드 아키텍처
┌─────────────────────────────────────────────────────────┐
│ 서빙 레이어 (Serving) │
│ API 서버 · BI 도구 · ML 추론 엔드포인트 │
└──────────────────────┬──────────────────────────────────┘
│
┌──────────────────────▼──────────────────────────────────┐
│ 분석 레이어 (Analytics) │
│ 데이터 웨어하우스 (Redshift/BigQuery/Snowflake) │
│ 데이터 마트 · OLAP 큐브 │
└──────────────────────┬──────────────────────────────────┘
│
┌──────────────────────▼──────────────────────────────────┐
│ 처리 레이어 (Processing) │
│ 배치: Apache Spark / Hive │
│ 스트리밍: Apache Flink / Kafka Streams │
└──────────────────────┬──────────────────────────────────┘
│
┌──────────────────────▼──────────────────────────────────┐
│ 저장 레이어 (Storage) │
│ 데이터 레이크 (S3/HDFS) + 레이크하우스 (Delta/Iceberg) │
└──────────────────────┬──────────────────────────────────┘
│
┌──────────────────────▼──────────────────────────────────┐
│ 수집 레이어 (Ingestion) │
│ 배치: Sqoop · dbt · Airbyte │
│ 스트리밍: Kafka · Kinesis · Pub/Sub │
└─────────────────────────────────────────────────────────┘
2. 클라우드 빅데이터 플랫폼 비교
| 클라우드 | 저장소 | 처리 엔진 | DW | 스트리밍 |
|---|---|---|---|---|
| AWS | S3 | EMR (Spark/Hadoop) | Redshift | Kinesis |
| GCP | GCS | Dataproc / Dataflow | BigQuery | Pub/Sub |
| Azure | ADLS | HDInsight / Synapse | Synapse Analytics | Event Hubs |
| 멀티클라우드 | 오픈소스 기반 | Spark on K8s | Trino/Presto | Kafka |
- 📢 섹션 요약 비유: 클라우드 빅데이터 플랫폼은 '건물을 짓는 대신 임대하는 것' 입니다. 직접 서버를 사고 설치하는 대신, 필요한 만큼 빌려 쓰고 안 쓰면 반납합니다. TCO는 낮지만 벤더 종속 위험이 있습니다.
Ⅲ. 비교 및 연결
온프레미스 Hadoop vs. 클라우드 플랫폼
| 구분 | 온프레미스 Hadoop | 클라우드 관리형 서비스 |
|---|---|---|
| 초기 비용 | 서버 구매비 (수억~수십억) | 없음 (종량제) |
| 운영 부담 | 전담 인력 필요 | 관리형으로 최소화 |
| 확장성 | 하드웨어 추가 필요 (리드타임) | 즉시 자동 확장 |
| 데이터 이전 | 용이 | 이그레스 비용 발생 |
| 보안·규제 | 자체 통제 | 클라우드 공동 책임 |
- 📢 섹션 요약 비유: 온프레미스는 '직접 땅 사서 집 짓기', 클라우드는 '월세 아파트' 입니다. 소유권 vs. 유연성의 트레이드오프입니다.
Ⅳ. 실무 적용 및 기술사 판단
플랫폼 선택 의사결정 기준
| 요구사항 | 권장 접근 |
|---|---|
| 실시간 + 배치 통합 | 레이크하우스 (Delta Lake + Kafka) |
| 비용 최소화 | 클라우드 관리형 (BigQuery, Snowflake) |
| 데이터 주권 (보안 규제) | 온프레미스 또는 프라이빗 클라우드 |
| 멀티클라우드 이식성 | 오픈소스 스택 (Spark + Iceberg + Trino) |
안티패턴
ETL 파이프라인 스파게티: 시스템마다 직접 연결하는 Point-to-Point ETL은 소스 스키마 변경 시 모든 파이프라인 수정이 필요하다. 데이터 카탈로그와 CDC(Change Data Capture) 기반 단일 데이터 허브를 구성해야 한다.
- 📢 섹션 요약 비유: ETL 스파게티는 '모든 가전제품을 직접 콘센트에 꽂는 것' 입니다. 콘센트 하나가 빠지면 어디가 문제인지 모릅니다. 분전반(데이터 허브)을 하나 두어야 합니다.
Ⅴ. 기대효과 및 결론
현대 빅데이터 플랫폼은 데이터의 민주화(Data Democratization) 를 실현한다. 데이터 엔지니어만 접근 가능했던 분석이 비즈니스 사용자도 셀프서비스(Self-service Analytics)로 접근 가능해진다.
미래 방향: ① 데이터 메시(Data Mesh)로의 분산 소유권 전환, ② Zero-ETL(직접 연동) 아키텍처 확산, ③ AI 기반 자동 데이터 파이프라인 생성.
- 📢 섹션 요약 비유: 빅데이터 플랫폼은 '전기 인프라' 와 같습니다. 발전소(데이터 소스)에서 생산된 전기(데이터)가 송전망(파이프라인)을 통해 각 가정(비즈니스 팀)에 공급되어, 각자 원하는 전자제품(분석 도구)을 쓸 수 있게 됩니다.
📌 관련 개념 맵
| 개념 | 연결 포인트 |
|---|---|
| 레이크하우스 | 저장 레이어의 핵심; 데이터 레이크 + DW 장점 통합 |
| Apache Kafka | 수집·스트리밍 레이어의 핵심; 실시간 이벤트 파이프라인 |
| dbt (data build tool) | 변환 레이어 표준; SQL 기반 데이터 파이프라인 관리 |
| 데이터 카탈로그 | 거버넌스 레이어; 메타데이터 관리·발견 |
| Trino (구 PrestoSQL) | 멀티소스 통합 쿼리 엔진; 레이크하우스 분석 |
📈 관련 키워드 및 발전 흐름도
RDBMS 단일 DB → 데이터 폭발
│
▼
온프레미스 Hadoop (HDFS + MapReduce)
│
▼
클라우드 관리형 (EMR, Dataproc, HDInsight)
│
▼
데이터 레이크 (S3/GCS) + 처리 분리
│
▼
레이크하우스 (Delta Lake, Iceberg, Hudi)
│
▼
데이터 메시 / Zero-ETL / AI 파이프라인 자동화
👶 어린이를 위한 3줄 비유 설명
- 빅데이터 플랫폼은 '데이터 공장' 이에요. 원재료(데이터)가 공장 문으로 들어와서(수집), 창고에 쌓이고(저장), 기계로 가공되어(처리), 완성품(인사이트)으로 나오는 전체 공정이에요!
- 예전에는 공장을 직접 지어야(온프레미스) 했지만, 지금은 클라우드 공장을 시간당 빌려 쓸 수 있어서 필요할 때만 돈을 내면 돼요.
- 데이터 레이크하우스는 창고(저장)와 공장(처리)을 합쳐놓은 것처럼, 저장하자마자 바로 분석도 할 수 있는 현대식 스마트 공장이에요!