175. 빅데이터 플랫폼 선택 기준 (Big Data Platform Selection Criteria)

핵심 인사이트 (3줄 요약)

본질: 빅데이터 플랫폼 선택은 특정 벤더를 고르는 일이 아니라, 데이터 규모·지연 요구·동시성·거버넌스·팀 운영 역량에 맞는 플랫폼 패밀리를 고르는 설계 문제다.

가치: 같은 분석 요구라도 서버리스 웨어하우스, 관리형 클러스터, 레이크하우스, 온프레미스 플랫폼의 운영 방식이 다르므로, 초기에 선택 기준을 세우면 과도한 투자와 재구축 비용을 줄일 수 있다.

판단 포인트: 단일 벤치마크 성능보다 3~5년 Total Cost of Ownership (TCO), 데이터 주권, 벤더 종속, 출구 전략까지 함께 봐야 실제로 오래 버티는 선택이 된다.

Ⅰ. 개요 및 필요성

빅데이터 플랫폼 선택은 "무엇이 가장 유명한가"가 아니라 "무엇이 우리 워크로드와 운영 모델에 맞는가"를 묻는 문제다. 하루 수 기가바이트 규모의 배치 분석과, 수백 테라바이트 규모의 다중 사용자 Business Intelligence (BI) 분석은 요구 조건이 전혀 다르다. 여기에 데이터 주권, 개인정보 규제, 야간 운영 인력, 머신러닝 (Machine Learning, ML) 실험 빈도, 글로벌 사용자 수까지 얹히면 플랫폼 선택은 곧 비용 구조와 조직 구조를 동시에 결정한다.

잘못된 선택의 대가는 크다. 너무 큰 플랫폼을 고르면 유휴 인프라와 전문 인력 비용이 쌓이고, 너무 작은 플랫폼을 고르면 확장 시점마다 재구축이 반복된다. 특히 데이터 플랫폼은 한번 쌓이면 Data Gravity가 생겨 애플리케이션, 대시보드, 모델 학습 파이프라인이 함께 붙기 때문에, 초기에 선택한 저장 형식과 운영 모델이 장기 방향을 크게 좌우한다.

아래 그림은 플랫폼 선택을 흔드는 핵심 축을 정리한 것이다.

┌──────────────────────────────────────────────────────────────────────┐
│                   Five forces in platform selection                 │
├──────────────────────────────────────────────────────────────────────┤
│ data volume │ latency │ concurrency │ governance │ team operations  │
└──────────────────────────────────────────────────────────────────────┘

즉 플랫폼 선택은 기술 성능 비교표 한 장으로 끝나지 않는다. 비즈니스 속도, 규제 강도, 조직 역량, 비용 방식이 동시에 교차하는 의사결정이다.

📢 섹션 요약 비유: 집을 고를 때 방이 넓은지만 보면 안 되고, 가족 수, 출퇴근 거리, 관리비, 동네 규칙까지 함께 봐야 하듯이, 빅데이터 플랫폼도 성능 하나만으로 고르면 나중에 생활비가 더 크게 든다.

Ⅱ. 아키텍처 및 핵심 원리

좋은 플랫폼 선택 프레임워크는 보통 두 단계로 간다. 먼저 필수 조건을 통과시킨다. 데이터가 특정 국가 안에 있어야 하는지, Service Level Agreement (SLA)를 몇 초로 요구하는지, 24x7 운영팀이 있는지 같은 조건은 탈락 기준이다. 그다음 후보 플랫폼 패밀리를 좁힌 뒤, 비용·성능·운영 난이도·이식성 같은 비교 항목을 가중치로 평가한다.

아래 그림은 실무적으로 많이 쓰는 선택 흐름이다.

┌──────────────────────────────────────────────────────────────────────┐
│                   Platform selection funnel                         │
├──────────────────────────────────────────────────────────────────────┤
│ 1) hard constraints: residency / security / SLA                     │
│              │                                                       │
│              ▼                                                       │
│ 2) workload shape: batch / BI / streaming / ML                      │
│              │                                                       │
│              ▼                                                       │
│ 3) shortlist platform family                                         │
│    - self-managed cluster                                            │
│    - managed cluster                                                 │
│    - serverless warehouse                                            │
│    - lakehouse platform                                              │
│              │                                                       │
│              ▼                                                       │
│ 4) weighted score: cost + ops + fit + portability + performance     │
└──────────────────────────────────────────────────────────────────────┘

플랫폼 패밀리	강점	약점	잘 맞는 상황
Self-managed Cluster	제어력 높음, 규제 대응 유리, 세밀한 튜닝 가능	운영 부담 큼, 확장 느림	강한 규제, 예측 가능한 대용량, 숙련 운영팀 보유
Managed Cluster	Spark/Flink 같은 엔진 유연성, 운영 부담 일부 절감	여전히 클러스터 개념 이해 필요	커스텀 파이프라인이 많고 완전 서버리스는 부족할 때
Serverless Warehouse	빠른 시작, Structured Query Language (SQL) 친화, 탄력 과금	엔진 제어력 낮음, 특정 워크로드에 비용 급증 가능	분석팀 중심, 동시 사용자 많음, 운영팀 작음
Lakehouse Platform	개방형 스토리지 + Atomicity, Consistency, Isolation, Durability (ACID) + 다중 엔진 연계	메타데이터·카탈로그 설계가 중요	BI, 데이터 과학, 스트리밍을 한 저장 계층에 묶고 싶을 때

핵심 원리는 "저장과 계산을 어떻게 결합할 것인가"에 있다. 전통 Hadoop은 저장과 계산이 강하게 묶여 Data Locality에 강했고, 클라우드 웨어하우스와 레이크하우스는 Object Storage 위에 계산을 분리해 탄력성과 다중 엔진 활용성을 높였다. 따라서 같은 비용 문제라도 고정 대용량이면 예약 인스턴스나 전용 클러스터가 유리할 수 있고, 피크 변동이 크면 서버리스 과금이 더 합리적일 수 있다.

플랫폼 선정 시 함께 봐야 할 세부 축은 다음과 같다.

평가 축	질문
데이터 규모	기가바이트 (GB), 테라바이트 (TB), 페타바이트 (PB) 중 어디에 있고 3년 후 얼마나 커질 것인가
지연 요구	일 배치인지, 분 단위 마이크로배치인지, 초 단위 스트리밍인지
동시성	SQL 사용자 수와 대시보드 피크가 얼마나 되는가
거버넌스	메타데이터 카탈로그, 권한, 감사 추적을 어디까지 요구하는가
팀 적합도	Spark/Flink 운영 경험이 있는지, SQL 중심 조직인지
이식성	Parquet, Apache Iceberg, Delta Lake 같은 개방 포맷을 쓸 것인지

즉 플랫폼은 엔진 선택만이 아니라, 저장 형식, 메타데이터, 운영 주체까지 포함한 전체 아키텍처 선택이다.

📢 섹션 요약 비유: 자동차를 고를 때 차체만 보는 것이 아니라 연비, 정비망, 운전 실력, 짐의 양을 함께 보는 것과 같다. 스포츠카가 멋져 보여도 배달 일에는 밴이 더 맞을 수 있다.

Ⅲ. 비교 및 연결

플랫폼 선택은 보통 네 가지 패밀리 사이 비교로 귀결된다. 온프레미스나 Self-managed는 통제력과 예측 가능성이 강점이고, Managed Cluster는 엔진 자유도를 유지하면서 운영 부담을 줄인다. Serverless Warehouse는 SQL 생산성이 높고, Lakehouse는 저장 형식 통합과 다중 워크로드 수용성이 장점이다. 중요한 것은 "어느 것이 최고인가"가 아니라 "어떤 요구를 우선순위로 두는가"다.

우선 요구	우선 고려 플랫폼	연결 개념
빠른 BI 시작, 작은 운영팀	Serverless Warehouse	SQL 중심, 동시성, 탄력 과금
복잡한 Spark/Flink 잡, 커스텀 처리	Managed Cluster	엔진 유연성, 스케줄링, 세밀한 리소스 제어
강한 규제와 데이터 주권	Self-managed / Hybrid	데이터 위치 통제, 망 분리, 감사 대응
BI + ML + 스트리밍 통합	Lakehouse Platform	개방 포맷, ACID, Feature Pipeline 연계
멀티클라우드/출구 전략 중시	Open Table Format 기반 설계	Apache Iceberg, Parquet, Federation

또 하나 중요한 연결은 벤더 종속과 개방 포맷의 관계다. 플랫폼을 바꾸기 어려운 이유는 계산 엔진보다 데이터 저장 형식과 메타데이터가 묶이기 때문이다. 그래서 Databricks, Snowflake, BigQuery, Amazon EMR (Elastic MapReduce) 같은 구체 서비스명을 비교하더라도, 결국 질문은 "데이터를 어떤 포맷으로 남길 것인가", "카탈로그와 권한을 얼마나 분리 가능한가"로 귀결된다.

이 비교는 Data Lakehouse, Data Mesh, Federated Query와도 이어진다. 플랫폼 하나가 모든 문제를 해결하는 시대라기보다, 저장 계층은 통합하고 계산 계층은 여러 엔진이 공유하는 방향으로 진화하고 있기 때문이다. 따라서 플랫폼 선택 보고서에는 현재 요구뿐 아니라 향후 엔진 다변화 가능성도 포함되어야 한다.

📢 섹션 요약 비유: 운동팀에서 공격수, 수비수, 골키퍼 중 누가 최고인지 따지는 것은 의미가 없다. 팀에 지금 무엇이 부족한지에 따라 우선 영입 대상이 달라지듯이, 플랫폼도 부족한 능력에 맞춰 골라야 한다.

Ⅳ. 실무 적용 및 기술사 판단

실무에서는 벤더 발표 자료보다 우리 워크로드의 대표 시나리오를 먼저 정해야 한다. 매일 새벽 추출·변환·적재 (Extract, Transform, Load, ETL), 오전 대시보드 피크, 실시간 이상 탐지, 월말 대용량 재처리처럼 서로 다른 사용 패턴을 섞어 놓고 평가해야 한다. 단일 쿼리 벤치마크에서 이긴 플랫폼이 전체 운영에서도 유리하다는 보장은 없다.

아래 흐름은 현장에서 자주 쓰는 판단 순서다.

┌──────────────────────────────────────────────────────────────────────┐
│                  Practical selection decision flow                  │
├──────────────────────────────────────────────────────────────────────┤
│ strong regulation or residency lock?                                 │
│   ├─ yes -> self-managed or hybrid first                             │
│   └─ no                                                              │
│        real-time under seconds?                                      │
│        ├─ yes -> streaming-first + lakehouse consideration           │
│        └─ no                                                         │
│             SQL-heavy and small ops team?                            │
│             ├─ yes -> serverless warehouse                           │
│             └─ custom engines / heavy ML -> managed cluster/lakehouse│
└──────────────────────────────────────────────────────────────────────┘

판단 항목	채택 신호	회피 신호
Serverless Warehouse	분석가 중심, 동시 사용자 많음, 빠른 시작 필요	장시간 커스텀 처리, 엔진 세밀 제어 필요
Managed Cluster	Spark/Flink 자산 보유, 커스텀 파이프라인 다수	24x7 운영 인력 부족, 클러스터 관리 기피
Self-managed	규제 강함, 네트워크 분리 필요, 워크로드 예측 가능	갑작스런 확장 요구, 인프라 자동화 역량 부족
Lakehouse	BI·ML·스트리밍 통합 필요, 개방 포맷 선호	카탈로그/거버넌스 설계 여력 부족

또한 3~5년 TCO는 반드시 항목별로 쪼개서 계산해야 한다. Compute 비용, Storage 비용, Egress 비용, 라이선스, 운영 인력, 교육 비용, 마이그레이션 비용, 유휴 자원 비용을 따로 봐야 한다. 처음에는 싸 보이는 종량제도 장시간 고정 워크로드에서는 비싸질 수 있고, 반대로 온프레미스의 낮은 단가도 초기 투자와 운영 인력까지 합치면 불리해질 수 있다.

기술사 답안에서는 다음 세 가지가 중요하다. 첫째, CapEx (Capital Expenditure) vs OpEx (Operational Expenditure) 차이를 기술·재무 관점에서 설명할 것. 둘째, 데이터 주권과 벤더 종속을 성능보다 상위 제약으로 볼 것. 셋째, 출구 전략을 명시할 것. Parquet, Apache Iceberg, Trino 같은 개방형 기술을 일부라도 남겨 두면 나중에 재배치 비용을 줄일 수 있다.

안티패턴도 분명하다. 아직 500GB 수준인데 PB급 분산 플랫폼을 먼저 들이는 것, 반대로 실시간 이벤트 처리가 핵심인데 단순 배치 웨어하우스만 보는 것, 개념 검증 (Proof of Concept, POC)에서 한 쿼리만 빠른 제품을 전체 표준으로 정하는 것, Egress 비용과 인력 비용을 무시하는 것이 대표적이다.

📢 섹션 요약 비유: 학교 급식을 맡길 때도 메뉴 시식 한 번만 보고 계약하지 않는다. 학생 수, 주방 인력, 알레르기 규정, 방학 기간 비용까지 따져야 오래 문제없이 운영할 수 있다.

Ⅴ. 기대효과 및 결론

올바른 플랫폼을 선택하면 단순히 쿼리가 빨라지는 것을 넘어, 데이터 적재부터 분석, 머신러닝, 거버넌스까지 전체 리드타임이 줄어든다. 운영팀은 자신이 감당할 수 있는 복잡도 안에서 서비스를 유지하고, 데이터팀은 도구 대신 문제 해결에 시간을 더 쓸 수 있다. 또한 개방 포맷과 출구 전략을 함께 설계하면 향후 기술 변화에도 훨씬 유연하게 대응할 수 있다.

물론 완벽한 플랫폼은 없다. 서버리스는 편하지만 제어력이 낮고, Self-managed는 강력하지만 운영비가 크며, Lakehouse는 유연하지만 메타데이터 설계 부담이 있다. 따라서 선택의 목표는 "최강 플랫폼"이 아니라, 현재 요구를 충족하면서 미래 선택지를 과하게 닫지 않는 플랫폼이어야 한다.

결국 빅데이터 플랫폼 선택은 기술 구매가 아니라 운영 모델 설계다. 데이터의 크기, 속도, 규제, 팀 역량, 경제성을 한 장의 의사결정표로 정리해 보는 순간, 어떤 플랫폼이 우리 조직에 맞는지가 훨씬 선명해진다.

📢 섹션 요약 비유: 좋은 신발은 세상에서 가장 비싼 신발이 아니라, 내 발과 내가 걷는 길에 맞는 신발이다. 빅데이터 플랫폼도 조직의 걸음걸이에 맞아야 오래 편하다.

📌 관련 개념 맵

개념	연결 포인트
TCO (Total Cost of Ownership)	인프라, 라이선스, 인력, 마이그레이션까지 포함한 장기 비용 판단 기준이다.
Data Gravity	데이터가 쌓일수록 애플리케이션과 분석이 그 위치에 묶이는 현상이다.
Data Sovereignty	플랫폼 배치 위치와 규제 준수 판단의 상위 제약 조건이다.
Lakehouse	데이터 레이크의 유연성과 웨어하우스의 관리성을 결합한 패밀리다.
Open Table Format	Apache Iceberg, Delta Lake, Hudi 같은 저장 포맷이 출구 전략과 연결된다.
Federated Query	플랫폼을 하나로 통일하지 못할 때도 조회 계층을 묶어 주는 연결 기술이다.
Serverless Analytics	작은 운영팀이 빠르게 시작할 수 있게 해 주는 대표 운영 모델이다.

📈 관련 키워드 및 발전 흐름도

Hard constraints: regulation and SLA
    │
    ▼
Workload classification: batch / BI / streaming / ML
    │
    ▼
Platform-family comparison
    │
    ▼
TCO + team-fit + portability evaluation
    │
    ▼
Phased adoption with exit strategy

👶 어린이를 위한 3줄 비유 설명

빅데이터 플랫폼을 고르는 일은 우리 반에 맞는 교실을 고르는 것처럼 학생 수와 수업 방식에 맞춰야 해요.
큰 교실이 항상 좋은 것도 아니고, 작은 교실이 항상 싼 것도 아니에요. 관리비와 사용 방법까지 같이 봐야 해요.
그래서 지금 필요한 것뿐 아니라 앞으로 얼마나 커질지도 생각하고 고르는 거예요.