182. 서버리스 빅데이터 (Serverless Big Data) — Amazon Athena/Google BigQuery/Amazon Redshift Serverless

핵심 인사이트 (3줄 요약)

본질: 서버리스 빅데이터 (Serverless Big Data)는 저장소는 지속적으로 유지하되 분석 계산 자원은 질의 시점에만 할당받아, 클러스터 상시 운영 없이 대규모 데이터를 다루는 분석 모델이다.

가치: 쿼리량이 들쑥날쑥한 조직은 유휴 클러스터 비용과 운영 부담을 크게 줄이면서도, 필요할 때는 대규모 병렬 처리를 즉시 끌어올릴 수 있다.

판단 포인트: 성공의 핵심은 서비스 이름보다 데이터 배치 방식에 있으며, 컬럼형 포맷·파티셔닝·비용 거버넌스가 없으면 서버리스의 편의성이 곧 예측 불가능한 과금으로 돌아온다.

Ⅰ. 개요 및 필요성

서버리스 빅데이터는 분석 시스템을 위해 서버를 전혀 쓰지 않는다는 뜻이 아니다. 사용자가 직접 클러스터 크기, 노드 수, 패치 주기를 관리하지 않고도, 질의나 작업이 들어올 때만 계산 자원을 임시로 할당받아 쓰는 운영 모델을 뜻한다. 따라서 핵심 변화는 기술 스택의 부재가 아니라 운영 책임의 이동이다.

이 모델이 중요해진 배경은 두 가지다. 첫째, 데이터는 오브젝트 스토리지와 레이크하우스에 오래 머물지만, 분석 수요는 시간대별로 크게 출렁인다. 둘째, 많은 팀이 매일 24시간 꽉 찬 분석 클러스터가 아니라, 오전 보고서·주간 탐색·월말 집계처럼 산발적이고 예측이 어려운 작업을 수행한다. 이런 환경에서 상시 켜 둔 클러스터는 성능보다 유휴 비용이 더 큰 문제가 된다.

그래서 서버리스 모델은 "필요할 때만 계산을 빌려 쓴다"는 점에서 경제성이 높다. 다만 모든 워크로드에 맞는 것은 아니다. 매우 일정하고 지속적인 대량 처리라면 예약 슬롯이나 전용 클러스터가 더 싸고 빠를 수 있다. 즉 서버리스는 클러스터의 반대말이 아니라, 변동성이 큰 분석 수요에 맞춘 계산 조달 방식이다.

아래 그림은 전용 클러스터와 서버리스 분석의 비용 구조 차이를 보여 준다.

┌──────────────────────────────────────────────────────────────────────────┐
│ Provisioned vs serverless analytics                                     │
├──────────────────────────────────────────────────────────────────────────┤
│ Provisioned cluster : fixed nodes alive 24x7                            │
│ Serverless query   : compute appears only when query arrives            │
│ Result             : lower idle cost, but query efficiency matters      │
└──────────────────────────────────────────────────────────────────────────┘

이 그림의 핵심은 서버리스가 무조건 싸다는 뜻이 아니라, 유휴 비용을 줄이는 대신 개별 쿼리의 비효율이 바로 과금으로 드러난다는 점이다.

📢 섹션 요약 비유: 서버리스 빅데이터는 자가용보다 택시에 가깝다. 매일 오래 타면 자가용이 나을 수 있지만, 들쑥날쑥하게 이동할 때는 필요할 때만 부르는 편이 훨씬 경제적이다.

Ⅱ. 아키텍처 및 핵심 원리

서버리스 분석 엔진은 보통 저장 계층, 메타데이터 계층, 질의 계획 계층, 일시적 실행 계층, 결과 캐시와 비용 계층으로 구성된다. 데이터는 오브젝트 스토리지나 관리형 웨어하우스에 상주하고, 카탈로그가 스키마와 파티션 정보를 들고 있으며, 질의가 들어오면 플래너가 필요한 파일과 컬럼만 골라 임시 실행 풀에 작업을 배치한다. 사용자는 노드를 예약하지 않지만, 엔진 내부에서는 여전히 대규모 분산 실행이 일어난다.

계층	역할	비용·성능에 미치는 영향
저장 계층	원본·정제 데이터 보관	파일 크기와 포맷이 스캔량을 결정
카탈로그	테이블, 스키마, 파티션 관리	메타데이터 정확성이 프루닝 성능을 좌우
플래너	질의 해석, 푸시다운, 조인 계획	쿼리 형태가 병렬도와 비용을 바꿈
실행 계층	온디맨드 계산 자원	동시성, 콜드 스타트, 큐잉에 영향
결과 계층	캐시, 임시 결과, 물리화 뷰	반복 질의 비용 절감
거버넌스 계층	예산, 쿼리 한도, 사용량 추적	서버리스 비용 폭주를 제어

아래 구조는 서버리스 빅데이터 엔진의 공통 흐름을 요약한다.

┌──────────────────────────────────────────────────────────────────────────┐
│ Serverless query path                                                   │
├──────────────────────────────────────────────────────────────────────────┤
│ SQL -> planner -> catalog -> ephemeral compute -> storage scan         │
│                    │                         │                           │
│                    └─ partition metadata     └─ result + cost record    │
└──────────────────────────────────────────────────────────────────────────┘

서비스별 특징은 과금 단위와 강한 사용 시나리오에서 갈린다.

서비스	주요 과금 단위	강한 시나리오	주의점
Amazon Athena	스캔 데이터 양	오브젝트 스토리지 기반 애드혹 SQL (Structured Query Language) 분석	파일 포맷과 파티션 설계가 비용을 크게 좌우
Google BigQuery	온디맨드 스캔 또는 슬롯 예약	높은 동시성, 대규모 조직 분석, Machine Learning 연계	지속 사용 시 예약 모델과 비교 필요
Amazon Redshift Serverless	RPU (Redshift Processing Unit) 시간	기존 Redshift 생태계 연계, 웨어하우스 중심 분석	장시간 지속 부하에서는 프로비저닝과 비용 비교 필요

같은 데이터라도 배치 방식에 따라 비용은 크게 달라진다. 예를 들어 1테라바이트의 CSV 파일 전체를 읽는 질의와, 같은 데이터를 컬럼형 포맷으로 변환하고 날짜 파티션을 잘라 100기가바이트만 읽는 질의는 결과가 같아도 청구 기준은 약 10분의 1 수준으로 달라질 수 있다. 그래서 서버리스 환경에서는 인프라 튜닝보다 데이터 레이아웃 튜닝이 먼저다.

또한 서버리스라고 해서 지연시간이 항상 짧은 것은 아니다. 첫 질의의 콜드 스타트, 지나치게 많은 작은 파일, 메타데이터 과다, 비효율적인 조인이 응답시간을 늘릴 수 있다. 즉 서버리스는 운영을 감춰 주지만, 물리적 비용을 없애 주지는 않는다.

📢 섹션 요약 비유: 서버리스 분석 엔진은 도서관 자동 서고와 같다. 필요한 책장을 빠르게 꺼내 주지만, 책이 아무 분류 없이 섞여 있으면 자동화가 있어도 찾는 데 오래 걸리고 비용도 더 든다.

Ⅲ. 비교 및 연결

서버리스 빅데이터를 이해하려면 서비스 간 차이와 전용 클러스터와의 경계를 함께 봐야 한다. Amazon Athena는 데이터 레이크 위에 바로 질의하는 감각이 강하고, Google BigQuery는 완전 관리형 웨어하우스와 서버리스 분석의 결합이 강하며, Amazon Redshift Serverless는 전통적 데이터 웨어하우스 경험을 서버리스로 완화한 형태에 가깝다.

비교 축	Amazon Athena	Google BigQuery	Amazon Redshift Serverless
기본 철학	레이크 위 질의	관리형 분석 플랫폼	웨어하우스 경험의 서버리스화
비용 민감 요소	스캔량	스캔량 또는 슬롯	실행 시간과 RPU
잘 맞는 데이터	오브젝트 스토리지 중심 데이터 레이크	조직 전반의 공유 분석 데이터	정형 분석과 기존 Redshift 자산
강점	간단한 시작, 레이크 친화성	높은 동시성, 풍부한 관리 기능	SQL 웨어하우스 친숙성
주의점	`SELECT *`와 잘못된 파티션 설계에 취약	지속 부하 시 요금 모델 재검토 필요	24x7 고정 부하라면 다른 모델이 유리할 수 있음

전용 클러스터와 비교하면 차이는 더 명확하다.

항목	서버리스 분석	전용 클러스터
초기 운영 부담	낮음	높음
유휴 비용	낮음	상시 발생
지속적 고부하 효율	불리할 수 있음	유리할 수 있음
성능 제어권	제한적	높음
적합한 패턴	버스트성, 탐색형, 팀별 변동 수요	예측 가능하고 연속적인 대량 처리

이 비교는 레이크하우스, 오픈 테이블 포맷, FinOps (Financial Operations)와도 연결된다. Iceberg, Delta Lake 같은 포맷은 파티션 관리와 메타데이터 효율을 개선해 서버리스 분석과 궁합이 좋다. 반대로 비용 거버넌스가 약하면 서버리스는 편리함 때문에 무분별한 전체 스캔을 부르기 쉽다. 즉 서버리스는 인프라를 단순화하지만, 데이터 모델링과 비용 문화의 중요성은 오히려 더 키운다.

📢 섹션 요약 비유: 서버리스와 전용 클러스터의 차이는 배달앱 주방과 전용 식당 주방의 차이와 같다. 손님이 들쑥날쑥하면 배달앱 주방이 편하지만, 하루 종일 손님이 몰리면 자기 주방을 갖춘 식당이 더 효율적일 수 있다.

Ⅳ. 실무 적용 및 기술사 판단

실무에서는 "어떤 엔진이 더 좋나"보다 "우리 쿼리 패턴이 어떤가"를 먼저 봐야 한다. 데이터가 이미 Amazon S3 (Simple Storage Service) 같은 오브젝트 스토리지에 있고 팀이 애드혹 분석 위주라면 Athena가 빠른 선택일 수 있다. 조직 전체 분석과 높은 동시성, 데이터 과학 연계가 중요하면 BigQuery가 강하다. 기존 Redshift 모델과 정형 리포팅 경험을 유지하고 싶다면 Redshift Serverless가 자연스럽다.

상황	우선 검토 서비스	판단 이유
데이터 레이크 위 가벼운 SQL 탐색	Amazon Athena	별도 클러스터 없이 바로 시작 가능
다수 분석가와 대규모 조직 공용 분석	Google BigQuery	동시성·관리형 기능·분석 생태계 강점
기존 웨어하우스 자산과 운영 경험 활용	Amazon Redshift Serverless	익숙한 SQL 모델과 서버리스 완충
24x7 예측 가능한 대량 ETL (Extract, Transform, Load)	전용 클러스터 또는 예약 모델 비교	서버리스보다 고정 자원이 경제적일 수 있음

실무 체크리스트는 다음과 같다.

CSV 대신 Parquet 같은 컬럼형 포맷을 우선 사용했는가?
날짜·테넌트·리전처럼 자주 거르는 축으로 파티셔닝했는가?
SELECT * 대신 필요한 컬럼만 읽도록 쿼리 습관을 잡았는가?
드라이런, 워크그룹, 예산 알림, 예약 슬롯 등 비용 가드레일을 설정했는가?
수많은 작은 파일을 병합해 메타데이터 과부하를 줄였는가?
반복 조회는 물리화 뷰나 결과 캐시로 흡수하고 있는가?

안티패턴도 분명하다. 첫째, 서버리스라는 이유만으로 모든 배치 파이프라인을 그대로 이전하는 것이다. 둘째, 파일 포맷과 파티션을 바꾸지 않은 채 비용이 많이 나온다고 엔진만 탓하는 것이다. 셋째, 팀별 비용 추적이 없어 누가 전체 스캔을 일으키는지 모르는 것이다. 넷째, 항상 켜진 대시보드와 초저지연 리포트를 서버리스 단일 해법으로만 보려는 것이다.

결국 서버리스 빅데이터의 의사결정은 기술보다 운영 모델 선택에 가깝다. "클러스터를 안 만져도 된다"는 편의성에만 집중하면 실패하고, "데이터를 어떻게 놓고 누가 얼마를 쓰는가"까지 함께 설계하면 강력한 분석 플랫폼이 된다.

📢 섹션 요약 비유: 서버리스 빅데이터 운영은 법인카드로 택시를 타는 것과 비슷하다. 편하고 빠르지만, 목적지와 사용 기록을 잘 관리하지 않으면 비용이 금방 불어난다.

Ⅴ. 기대효과 및 결론

서버리스 빅데이터의 가장 큰 효과는 분석 시작 장벽을 낮춘다는 점이다. 클러스터 용량 계획, 노드 패치, 야간 유휴 비용 때문에 분석을 망설이던 팀도 필요한 순간에 바로 질의할 수 있다. 그 결과 실험 속도, 셀프서비스 분석, 데이터 접근성이 좋아진다.

하지만 대가도 분명하다. 비용은 개별 쿼리에 더 직접적으로 노출되고, 성능 제어권은 전용 클러스터보다 낮다. 특히 데이터 레이아웃이 나쁘면 운영이 쉬운 대신 청구서가 복잡해진다. 따라서 서버리스 전환의 핵심은 도구 도입이 아니라 데이터 모델 표준화와 비용 가드레일 정착이다.

앞으로는 오픈 테이블 포맷, 자동 통계 수집, 인공지능 기반 쿼리 추천이 결합되면서 서버리스 분석이 더 정교해질 가능성이 높다. 그럼에도 기억해야 할 본질은 같다. 서버리스 빅데이터는 마법처럼 무료인 분석이 아니라, 잘 정리된 데이터를 전제로 계산 자원을 순간적으로 빌려 쓰는 경제적 아키텍처다.

📢 섹션 요약 비유: 서버리스 빅데이터는 공유 주방과 같다. 주방을 직접 소유하지 않아도 훌륭한 요리를 만들 수 있지만, 재료를 제멋대로 쌓아 두면 빌리는 시간마다 돈만 더 들게 된다.

📌 관련 개념 맵

개념	연결 포인트
오브젝트 스토리지	서버리스 분석이 데이터를 오래 보관하는 기본 저장 계층
카탈로그	스키마와 파티션 정보를 통해 스캔 범위를 줄이는 메타데이터 계층
파티션 프루닝 (Partition Pruning)	필요한 데이터 조각만 읽게 해 비용을 줄이는 핵심 최적화
컬럼형 포맷	필요한 열만 읽게 해 스캔량을 크게 줄임
슬롯 예약	BigQuery류 서비스에서 지속 부하 비용을 안정화하는 방법
RPU (Redshift Processing Unit)	Redshift Serverless의 계산 자원 단위
FinOps (Financial Operations)	서버리스 분석 비용을 팀 단위로 추적·제어하는 운영 체계

📈 관련 키워드 및 발전 흐름도

Managed cluster analytics
    │
    ▼
Serverless query engine
    │
    ├─ scan-based pricing
    ├─ slot / RPU pricing
    └─ lakehouse metadata optimization
    │
    ▼
FinOps and governance guardrails
    │
    ▼
Open table formats and intelligent query optimization

이 흐름은 클러스터 관리 중심 분석이 온디맨드 계산 모델로 이동하고, 이후 비용 통제와 메타데이터 최적화가 핵심 경쟁력으로 부상하는 과정을 보여 준다.

👶 어린이를 위한 3줄 비유 설명

서버리스 빅데이터는 필요한 시간만 큰 계산 기계를 빌려 쓰는 방식이에요.
파일을 날짜별로 잘 정리해 두면 필요한 것만 빨리 찾아서 돈도 덜 들어요.
하지만 아무거나 한꺼번에 다 읽으면 기계는 편해도 요금표가 금방 길어져요.