핵심 인사이트 (3줄 요약)

  1. 본질: 데이터 리니지 (Data Lineage)는 데이터가 어디서 왔고, 어떤 변환을 거쳐 어디로 갔는지 추적하는 족보 지도다.
  2. 가치: 오류 원인 분석과 영향도 분석을 빠르게 해 주어, 스키마 변경이나 ETL 오류의 파급 범위를 즉시 파악하게 한다.
  3. 판단 포인트: 메타데이터, SQL 파서, ETL 로그, 데이터 카탈로그가 함께 있어야 자동 리니지가 실용적이다.

Ⅰ. 개요 및 필요성

데이터가 여러 시스템을 거치면 숫자의 출처를 사람이 기억하기 어렵다. 리니지가 없으면 대시보드 숫자가 왜 바뀌었는지, 어떤 스크립트가 잘못됐는지, 어떤 다운스트림이 영향을 받는지 추적하기 힘들다.

그래서 데이터 리니지는 데이터 신뢰성과 운영 안정성의 핵심이 된다. 특히 데이터 플랫폼이 커질수록 "이 숫자는 어디서 왔나"를 설명할 수 있어야 한다.

  • 📢 섹션 요약 비유: 데이터 리니지는 물이 어느 샘에서 시작해 어느 관을 지나 수도꼭지로 왔는지 알려주는 수질 지도와 같다.

Ⅱ. 아키텍처 및 핵심 원리

리니지는 데이터 흐름을 DAG (Directed Acyclic Graph)로 본다. 소스 테이블, 변환 로직, 타깃 테이블의 연결을 추적하면 역방향으로 원인을 찾고, 순방향으로 영향 범위를 찾을 수 있다.

┌──────────────────────────────────────────────────────────────┐
│                    Data Lineage Flow                        │
├──────────────────────────────────────────────────────────────┤
│ Source DB → ETL/ELT → Staging → Mart → Dashboard            │
│     ▲                                         │             │
│     └──────────── Backward / Forward Trace ───┘             │
└──────────────────────────────────────────────────────────────┘
구성 요소역할포인트
Source원천 데이터출발점
Transformation변환 로직SQL, 파이프라인, 스크립트
Target소비 데이터대시보드, 마트
Metadata설명 데이터스키마, 소유자, 태그
Catalog탐색 인터페이스검색과 영향도 분석

리니지는 단순 기록이 아니라 운영 도구다. 컬럼 타입을 바꾸거나 테이블을 삭제하기 전에 downstream을 확인해야 하고, 이상한 숫자가 보이면 upstream을 따라가 원인을 찾아야 한다.

  • 📢 섹션 요약 비유: 리니지는 강의 노트의 목차다. 끝에서 문제를 발견하면 앞쪽으로 거슬러 올라가 어디서 잘못됐는지 바로 찾을 수 있다.

Ⅲ. 비교 및 연결

리니지는 데이터 카탈로그, 메타데이터 관리, 데이터 품질, 데이터 오브저버빌리티와 연결된다. 카탈로그가 "무엇이 있는가"를 보여준다면, 리니지는 "어디서 왔는가"를 보여준다.

항목데이터 카탈로그메타데이터데이터 리니지
질문무엇이 있는가무슨 의미인가어디서 왔고 어디로 가는가
목적탐색이해추적
가치발견성해석력원인/영향 분석

또한 리니지는 규제 대응과 직결된다. 금융, 의료, 공공 영역에서는 민감 데이터가 어디로 퍼지는지 설명해야 하므로, 리니지 그래프가 사실상 필수다.

  • 📢 섹션 요약 비유: 카탈로그는 도서관 책 목록, 리니지는 그 책이 어느 서고에서 어떤 경로로 내 손에 왔는지 적은 운송장이다.

Ⅳ. 실무 적용 및 기술사 판단

실무에서는 SQL 파싱, ETL 도구, 워크플로 엔진, 데이터 카탈로그를 연결해 리니지를 자동 수집한다. 그리고 스키마 변경 전에 영향도를 확인하고, 장애가 나면 역추적을 통해 원인을 찾는다.

체크리스트

  1. 소스-변환-타깃 관계가 자동 수집되는가?
  2. 스키마 변경 영향도를 미리 볼 수 있는가?
  3. 민감 데이터 태그와 접근 경로가 연결되는가?
  4. 비즈니스 사용자가 읽을 수 있는 형태로 제공되는가?

안티패턴

  • 문서만 있고 자동 추적이 없는 경우
  • SQL 로그를 못 읽어 리니지가 끊기는 경우
  • 기술팀만 보고 비즈니스 사용자는 못 보는 경우

기술사 관점에서는 리니지를 "데이터 거버넌스의 관측성"으로 설명하면 좋다. 데이터가 왜 틀렸는지, 어디가 영향을 받는지, 누가 책임지는지를 한눈에 보여주는 체계다.

  • 📢 섹션 요약 비유: 데이터 리니지는 택배 추적 번호와 같다. 어디서 출발했고 어디를 거쳤는지 알 수 있어야 분실도 빨리 찾는다.

Ⅴ. 기대효과 및 결론

데이터 리니지가 있으면 원인 분석과 영향도 분석이 빨라지고, 규제 대응과 변경 관리가 쉬워진다. 데이터 품질과 신뢰성이 높아져 결국 분석과 AI의 결과도 좋아진다.

즉 리니지는 데이터 플랫폼의 안전벨트다. 보이지 않지만 장애와 오해를 줄여 준다.

  • 📢 섹션 요약 비유: 데이터 리니지는 족보 책이다. 누가 누구에게서 왔는지 알아야 책임도 추적할 수 있다.

📌 관련 개념 맵

개념연결 포인트
메타데이터데이터 설명 정보
데이터 카탈로그탐색 도구
ETL/ELT변환 경로
영향도 분석다운스트림 파악
RCA업스트림 원인 추적

📈 관련 키워드 및 발전 흐름도

원본 데이터
    │
    ▼
ETL / ELT
    │
    ▼
Staging / Mart
    │
    ▼
Dashboard / Report
    │
    ▼
Lineage / Catalog / Governance

이 흐름은 데이터가 소비되기까지의 변환 족보를 시각화하는 과정을 보여준다.

👶 어린이를 위한 3줄 비유 설명

  1. 데이터 리니지는 "이 숫자가 어디서 왔어?"에 답해 주는 지도예요.
  2. 숫자가 이상하면 지도를 따라 거꾸로 올라가면 돼요.
  3. 그래서 문제를 빨리 찾고, 미리 망가질 곳도 알 수 있어요.