09. 빅데이터 플랫폼 아키텍처

핵심 인사이트 (3줄 요약)

본질: 빅데이터 플랫폼 아키텍처는 데이터 수집(Ingestion) → 저장(Storage) → 처리(Processing) → 분석(Analysis) → 서빙(Serving)의 전체 파이프라인을 통합하여 엔터프라이즈 수준의 확장성·안정성·거버넌스를 동시에 제공하는 시스템 설계 체계다.

가치: 클라우드 네이티브 빅데이터 플랫폼은 온프레미스 Hadoop 클러스터 대비 유연한 확장, 종량제 비용 모델, 관리형 서비스(Managed Service) 활용으로 총소유비용(TCO, Total Cost of Ownership)을 50~70% 절감하면서 처리 성능을 향상시킨다.

판단 포인트: 플랫폼 선택의 핵심은 배치·스트리밍 통합 여부, 데이터 거버넌스 성숙도, 클라우드 종속성 허용 범위이며, 단일 플랫폼 종속(Vendor Lock-in)보다 오픈소스 표준 기반의 이식성 확보가 장기 전략이다.

Ⅰ. 개요 및 필요성

빅데이터 플랫폼은 단일 기술이 아닌 여러 컴포넌트의 통합 생태계다. 데이터가 발생하는 순간부터 의사결정에 사용될 때까지의 전체 여정을 커버해야 한다.

빅데이터 플랫폼 없이 발생하는 문제:

사일로(Silo): 부서별 독립 시스템 → 중복 저장, 데이터 불일치
확장성 부재: 데이터 증가 시 단순 스케일업으로 한계 도달
분석 병목: OLTP DB에서 직접 분석 쿼리 실행 → 운영 시스템 장애
📢 섹션 요약 비유: 빅데이터 플랫폼은 '공장의 제조 라인' 과 같습니다. 원자재(Raw Data)가 들어와 컨베이어 벨트(파이프라인)를 거쳐 완성품(인사이트)이 나오는 전체 생산 라인을 설계하는 것입니다.

Ⅱ. 아키텍처 및 핵심 원리

1. 현대 빅데이터 플랫폼 레이어

빅데이터 플랫폼 레이어드 아키텍처

  ┌─────────────────────────────────────────────────────────┐
  │  서빙 레이어 (Serving)                                    │
  │  API 서버 · BI 도구 · ML 추론 엔드포인트                   │
  └──────────────────────┬──────────────────────────────────┘
                         │
  ┌──────────────────────▼──────────────────────────────────┐
  │  분석 레이어 (Analytics)                                  │
  │  데이터 웨어하우스 (Redshift/BigQuery/Snowflake)           │
  │  데이터 마트 · OLAP 큐브                                  │
  └──────────────────────┬──────────────────────────────────┘
                         │
  ┌──────────────────────▼──────────────────────────────────┐
  │  처리 레이어 (Processing)                                 │
  │  배치: Apache Spark / Hive                               │
  │  스트리밍: Apache Flink / Kafka Streams                  │
  └──────────────────────┬──────────────────────────────────┘
                         │
  ┌──────────────────────▼──────────────────────────────────┐
  │  저장 레이어 (Storage)                                    │
  │  데이터 레이크 (S3/HDFS) + 레이크하우스 (Delta/Iceberg)   │
  └──────────────────────┬──────────────────────────────────┘
                         │
  ┌──────────────────────▼──────────────────────────────────┐
  │  수집 레이어 (Ingestion)                                  │
  │  배치: Sqoop · dbt · Airbyte                             │
  │  스트리밍: Kafka · Kinesis · Pub/Sub                     │
  └─────────────────────────────────────────────────────────┘

2. 클라우드 빅데이터 플랫폼 비교

클라우드	저장소	처리 엔진	DW	스트리밍
AWS	S3	EMR (Spark/Hadoop)	Redshift	Kinesis
GCP	GCS	Dataproc / Dataflow	BigQuery	Pub/Sub
Azure	ADLS	HDInsight / Synapse	Synapse Analytics	Event Hubs
멀티클라우드	오픈소스 기반	Spark on K8s	Trino/Presto	Kafka

📢 섹션 요약 비유: 클라우드 빅데이터 플랫폼은 '건물을 짓는 대신 임대하는 것' 입니다. 직접 서버를 사고 설치하는 대신, 필요한 만큼 빌려 쓰고 안 쓰면 반납합니다. TCO는 낮지만 벤더 종속 위험이 있습니다.

Ⅲ. 비교 및 연결

온프레미스 Hadoop vs. 클라우드 플랫폼

구분	온프레미스 Hadoop	클라우드 관리형 서비스
초기 비용	서버 구매비 (수억~수십억)	없음 (종량제)
운영 부담	전담 인력 필요	관리형으로 최소화
확장성	하드웨어 추가 필요 (리드타임)	즉시 자동 확장
데이터 이전	용이	이그레스 비용 발생
보안·규제	자체 통제	클라우드 공동 책임

📢 섹션 요약 비유: 온프레미스는 '직접 땅 사서 집 짓기', 클라우드는 '월세 아파트' 입니다. 소유권 vs. 유연성의 트레이드오프입니다.

Ⅳ. 실무 적용 및 기술사 판단

플랫폼 선택 의사결정 기준

요구사항	권장 접근
실시간 + 배치 통합	레이크하우스 (Delta Lake + Kafka)
비용 최소화	클라우드 관리형 (BigQuery, Snowflake)
데이터 주권 (보안 규제)	온프레미스 또는 프라이빗 클라우드
멀티클라우드 이식성	오픈소스 스택 (Spark + Iceberg + Trino)

안티패턴

ETL 파이프라인 스파게티: 시스템마다 직접 연결하는 Point-to-Point ETL은 소스 스키마 변경 시 모든 파이프라인 수정이 필요하다. 데이터 카탈로그와 CDC(Change Data Capture) 기반 단일 데이터 허브를 구성해야 한다.

📢 섹션 요약 비유: ETL 스파게티는 '모든 가전제품을 직접 콘센트에 꽂는 것' 입니다. 콘센트 하나가 빠지면 어디가 문제인지 모릅니다. 분전반(데이터 허브)을 하나 두어야 합니다.

Ⅴ. 기대효과 및 결론

현대 빅데이터 플랫폼은 데이터의 민주화(Data Democratization) 를 실현한다. 데이터 엔지니어만 접근 가능했던 분석이 비즈니스 사용자도 셀프서비스(Self-service Analytics)로 접근 가능해진다.

미래 방향: ① 데이터 메시(Data Mesh)로의 분산 소유권 전환, ② Zero-ETL(직접 연동) 아키텍처 확산, ③ AI 기반 자동 데이터 파이프라인 생성.

📢 섹션 요약 비유: 빅데이터 플랫폼은 '전기 인프라' 와 같습니다. 발전소(데이터 소스)에서 생산된 전기(데이터)가 송전망(파이프라인)을 통해 각 가정(비즈니스 팀)에 공급되어, 각자 원하는 전자제품(분석 도구)을 쓸 수 있게 됩니다.

📌 관련 개념 맵

개념	연결 포인트
레이크하우스	저장 레이어의 핵심; 데이터 레이크 + DW 장점 통합
Apache Kafka	수집·스트리밍 레이어의 핵심; 실시간 이벤트 파이프라인
dbt (data build tool)	변환 레이어 표준; SQL 기반 데이터 파이프라인 관리
데이터 카탈로그	거버넌스 레이어; 메타데이터 관리·발견
Trino (구 PrestoSQL)	멀티소스 통합 쿼리 엔진; 레이크하우스 분석

📈 관련 키워드 및 발전 흐름도

RDBMS 단일 DB → 데이터 폭발
    │
    ▼
온프레미스 Hadoop (HDFS + MapReduce)
    │
    ▼
클라우드 관리형 (EMR, Dataproc, HDInsight)
    │
    ▼
데이터 레이크 (S3/GCS) + 처리 분리
    │
    ▼
레이크하우스 (Delta Lake, Iceberg, Hudi)
    │
    ▼
데이터 메시 / Zero-ETL / AI 파이프라인 자동화

👶 어린이를 위한 3줄 비유 설명

빅데이터 플랫폼은 '데이터 공장' 이에요. 원재료(데이터)가 공장 문으로 들어와서(수집), 창고에 쌓이고(저장), 기계로 가공되어(처리), 완성품(인사이트)으로 나오는 전체 공정이에요!
예전에는 공장을 직접 지어야(온프레미스) 했지만, 지금은 클라우드 공장을 시간당 빌려 쓸 수 있어서 필요할 때만 돈을 내면 돼요.
데이터 레이크하우스는 창고(저장)와 공장(처리)을 합쳐놓은 것처럼, 저장하자마자 바로 분석도 할 수 있는 현대식 스마트 공장이에요!