핵심 인사이트 (3줄 요약)
- 본질: ETL(추출-변환-적재)은 데이터를 저장하기 전 외부에서 변환하는 전통 방식이고, ELT(추출-적재-변환)는 데이터를 먼저 저장한 후 저장소의 컴퓨팅 파워로 변환하는 클라우드 방식이다.
- 가치: ELT는 클라우드 데이터 웨어하우스(DW)의 강력한 성능을 활용하여 적재 속도를 획기적으로 높이고, 원본 데이터를 그대로 보존하여 분석의 유연성을 확보한다.
- 판단 포인트: 데이터 양이 방대하고 클라우드 인프라(BigQuery, Snowflake 등)를 사용한다면 ELT를, 보안이나 정제가 저장 전 필수라면 ETL을 선택한다.
Ⅰ. 개요 및 필요성
과거에는 데이터 저장 공간이 비싸고 DB 엔진 성능이 약했다. 그래서 데이터를 DW에 넣기 전에 밖에서 미리 다 깎고 다듬어서(Transform) 꼭 필요한 것만 넣었다(ETL). 하지만 클라우드 시대가 오면서 저장 공간이 싸지고 엔진 성능이 엄청나게 좋아졌다. 이제는 굳이 밖에서 고생하지 말고 일단 다 쏟아부은 다음(Load), 필요할 때마다 DW 안에서 강력한 화력으로 변환(Transform)하는 방식(ELT)이 대세가 되었다.
📢 섹션 요약 비유: ETL은 '요리해서 배달하기'다. 주방에서 다 만들어서 그릇에 담아 보내는 것이다. ELT는 '재료 배달 후 현장 요리'다. 재료를 몽땅 보내고 손님 집의 화력 좋은 가스레인지(클라우드 엔진)로 직접 요리하는 것이다.
Ⅱ. 아키텍처 및 핵심 원리
1. ETL (전통적인 방식)
- 과정: Source -> Staging Area(변환) -> DW
- 특징: DW 부하를 줄이기 위해 별도의 ETL 서버에서 변환을 수행한다.
- 단점: 변환 로직이 바뀌면 데이터를 다시 추출해야 하고, 대량 데이터 처리에 시간이 오래 걸린다.
2. ELT (현대적인 방식)
- 과정: Source -> DW(Raw Data 적재) -> DW(내부 변환)
- 특징: 데이터를 원본 그대로 먼저 넣는다(Schema-on-read).
- 장점: 적재 속도가 매우 빠르고, 나중에 어떤 분석을 할지 몰라도 원본이 남아있어 유연하다.
[ ETL ] : Extract ──▶ Transform (Server) ──▶ Load (Target)
[ ELT ] : Extract ──▶ Load (Target) ──▶ Transform (Target)
📢 섹션 요약 비유: ETL은 '다 깎은 과일'을 가져가는 것이고, ELT는 '과일 박스'째로 가져가서 먹기 직전에 깎는 것이다. 박스째 가져가면 나중에 껍질까지 활용할 수 있는 유연함이 생긴다.
Ⅲ. 비교 및 연결
ETL vs ELT 비교
| 비교 항목 | ETL (Extract-Transform-Load) | ELT (Extract-Load-Transform) |
|---|---|---|
| 변환 위치 | 외부 ETL 전용 서버 | 대상 데이터 저장소 (DW/Lake) |
| 변환 시점 | 적재 전 (Loading 전) | 적재 후 (Loading 후) |
| 데이터 크기 | 중소규모에 적합 | 대규모 빅데이터에 최적화 |
| 유연성 | 낮음 (정해진 대로만 적재) | 매우 높음 (원본 보존) |
| 인프라 비용 | ETL 도구 및 서버 비용 발생 | 클라우드 DW 리소스 사용 |
| 주요 도구 | Informatica, DataStage | Snowflake, BigQuery, dbt |
📢 섹션 요약 비유: ETL은 집에서 정성껏 '도시락'을 싸오는 것이고, ELT는 '밀키트'를 배달시켜서 고성능 인덕션으로 즉석에서 조리해 먹는 차이다.
Ⅳ. 실무 적용 및 기술사 판단
기술사 핵심 포인트:
- 클라우드 네이티브: Snowflake, Databricks 등 현대적인 플랫폼은 ELT에 최적화되어 있다.
- dbt (data build tool): ELT 환경에서 SQL만으로 데이터 변환을 관리하는
dbt같은 도구를 언급하면 전문성이 돋보인다. - 개인정보 보호: ELT는 일단 데이터를 다 넣기 때문에, 민감 정보가 DW에 그대로 노출될 위험이 있다. 이를 위해 적재 단계에서 마스킹하는 하이브리드 전략이 필요하다.
📢 섹션 요약 비유: ELT는 데이터 파이프라인의 '고속도로'다. 중간 검문소(변환)를 없애고 일단 목적지까지 차(데이터)를 빠르게 보낸 뒤, 거기서 주차하고 짐을 정리하는 전략이다.
Ⅴ. 기대효과 및 결론
데이터 파이프라인의 패러다임이 ETL에서 ELT로 이동하고 있다. 이는 하드웨어의 한계를 소프트웨어의 지혜로 극복하던 시대에서, 강력한 하드웨어(클라우드)를 믿고 유연성을 극대화하는 시대로의 변화를 의미한다. 기술사 시험에서는 단순 순서 차이를 넘어, 왜 클라우드 환경에서 ELT가 필수적인지 인프라 관점에서 논리적으로 전개하는 것이 중요하다.
📢 섹션 요약 비유: ELT는 데이터 공정의 '혁명'이다. 미리 다 결정해두고 움직이는 관료제(ETL)에서, 일단 실행하고 현장에서 최적화하는 애자일(ELT) 방식으로의 변화와 같다.
📌 관련 개념 맵
| 개념 | 연관 키워드 | 관계 |
|---|---|---|
| dbt | SQL 변환, ELT 도구 | ELT의 'Transform' 단계를 자동화하는 도구 |
| Schema-on-read | 읽을 때 정의, 유연성 | ELT와 데이터 레이크의 핵심 저장 철학 |
| Data Lake | Raw Data, S3 | ELT가 주로 시작되는 거대한 원천 데이터 저장소 |
| MPP | 분산 처리, DW 엔진 | ELT의 강력한 변환 성능을 뒷받침하는 기술 |
👶 어린이를 위한 3줄 비유 설명
- 도시락을 미리 예쁘게 싸오는 것(ETL)과, 재료만 가져가서 도착해서 요리하는 것(ELT)의 차이에요.
- 클라우드라는 아주 힘센 요리 기계가 생겨서, 현장에서 요리하는 게 훨씬 빨라졌답니다.
- 재료를 그대로 가져가니까, 나중에 다른 요리를 하고 싶을 때도 마음대로 할 수 있어 좋아요.