핵심 인사이트 (3줄 요약)
- 본질: 데이터 리니지(Data Lineage)는 데이터의 탄생(원천)부터 가공, 이동, 폐기에 이르는 전체 생애 주기를 시각화하고 추적하는 기술이다.
- 가치: 데이터 오류 발생 시 근본 원인(Root Cause)을 빠르게 파악하고, 특정 컬럼 수정 시 영향을 받는 하위 시스템을 예측(Impact Analysis)하여 데이터 무결성을 보장한다.
- 판단 포인트: 데이터 신뢰도가 생명인 금융권이나 규제가 엄격한 산업군에서 데이터 거버넌스의 핵심 요소로 도입한다.
Ⅰ. 개요 및 필요성
"이 보고서에 나온 '총 매출액' 숫자가 왜 지난주랑 다르죠?"라는 질문에 답하기 위해 엔지니어는 수많은 코드를 뒤져야 한다. 데이터 리니지는 이러한 고통을 해결하기 위해 데이터의 '족보'를 만든다. 데이터가 어떤 시스템에서 추출되어 어떤 SQL 로직을 거쳐 현재의 테이블에 도달했는지 한눈에 보여준다. 이는 데이터 정합성 확보뿐만 아니라 개인정보 흐름 파악 등 컴플라이언스 대응을 위해서도 필수적이다.
📢 섹션 요약 비유: 데이터 리니지는 '식품 이력 추적제'와 같다. 우리가 먹는 빵이 어떤 밀가루를 썼고, 어느 공장에서 구워졌는지 역으로 추적할 수 있게 해주는 데이터 안심 시스템이다.
Ⅱ. 아키텍처 및 핵심 원리
1. 주요 기능
- 근본 원인 분석 (Root Cause Analysis): 데이터 수치가 이상할 때 상류(Upstream)의 어디서부터 틀어졌는지 추적.
- 영향도 분석 (Impact Analysis): 특정 테이블 구조 변경 시 하류(Downstream)의 어떤 대시보드가 깨질지 미리 확인.
- 거버넌스 및 감사: 데이터의 이동 경로를 증명하여 법적/규제적 요구사항 충족.
2. 수집 방식
- 정적 분석 (Static): SQL 쿼리문이나 스크립트 코드를 파싱하여 관계를 도출.
- 동적 분석 (Dynamic): 실제 데이터가 흐를 때 로그를 수집하여 관계를 파악.
[원천 DB] ──(ETL)──▶ [데이터 레이크] ──(SQL)──▶ [데이터 웨어하우스] ──(BI)──▶ [매출 보고서]
│ │ │ │
└───────────────── ( Lineage 추적 레이어 ) ──────────────────────┘
📢 섹션 요약 비유: 데이터 리니지는 '데이터 가계도'다. 할아버지(원본)부터 아버지(가공 테이블), 자식(보고서)까지 이어지는 혈통을 기록하여 가문의 내력을 증명하는 것과 같다.
Ⅲ. 비교 및 연결
데이터 카탈로그 vs 데이터 리니지
| 비교 항목 | 데이터 카탈로그 (Catalog) | 데이터 리니지 (Lineage) |
|---|---|---|
| 핵심 질문 | "어떤 데이터가 어디에 있는가?" | "데이터가 어떻게 변해왔는가?" |
| 정보 성격 | 데이터의 속성, 정의, 위치 | 데이터의 흐름, 관계, 히스토리 |
| 주요 용도 | 데이터 탐색 및 검색 (Discovery) | 장애 대응 및 영향도 분석 |
| 관계 | 리니지는 카탈로그의 핵심 기능 중 하나로 포함됨 |
📢 섹션 요약 비유: 데이터 카탈로그가 백화점의 '층별 안내도'라면, 데이터 리니지는 각 상품의 '제조 공정 기록'과 같다.
Ⅳ. 실무 적용 및 기술사 판단
기술사 핵심 포인트:
- 자동화의 중요성: 수동으로 리니지를 그리는 것은 불가능하므로,
OpenLineage같은 표준 프로토콜이나DataHub,Amundsen같은 자동화 도구 언급이 필수다. - 무결성 보장: 데이터 리니지는 단순히 그림을 그리는 것이 아니라, 단계별 데이터 건수 검증(Check-sum) 등과 결합하여 데이터 정합성을 증명하는 수단이 되어야 한다.
- 컴플라이언스: GDPR, ISMS-P 등에서 요구하는 개인정보 흐름도 관리를 위한 자동화 솔루션으로서 가치를 부여한다.
📢 섹션 요약 비유: 데이터 리니지는 데이터의 'CCTV'다. 데이터가 어디서 들어와서 어디로 나갔는지 한순간도 놓치지 않고 기록하여 사고 예방과 사후 분석을 돕기 때문이다.
Ⅴ. 기대효과 및 결론
데이터 리니지는 '데이터 민주화'와 '데이터 신뢰'를 잇는 다리다. 사용자가 데이터를 의심하지 않고 쓸 수 있게 만드는 강력한 증거가 된다. 기술사 시험에서는 데이터 거버넌스의 3대 요소(카탈로그, 리니지, 품질) 중 하나로 리니지를 정의하고, 특히 복잡한 클라우드 환경에서 분산된 데이터 흐름을 어떻게 통제할 것인지에 대한 해답으로 제시하는 것이 좋다.
📢 섹션 요약 비유: 데이터 리니지는 IT 세상의 '블록체인식 장부'와 같다. 데이터의 모든 이동 이력을 투명하게 공개하여 누구도 속일 수 없는 데이터 진실을 보장한다.
📌 관련 개념 맵
| 개념 | 연관 키워드 | 관계 |
|---|---|---|
| Upstream / Downstream | 데이터 원천 / 활용처 | 리니지가 추적하는 방향성 |
| Impact Analysis | 영향도 분석 | 리니지 정보를 활용한 사고 예방 작업 |
| Metadata | 기술/비즈니스 메타 | 리니지를 구성하는 핵심 정보 성분 |
| OpenLineage | 표준 프로토콜 | 리니지 수집 도구 간의 데이터 호환성 표준 |
👶 어린이를 위한 3줄 비유 설명
- 내가 먹은 사과가 어느 농장에서 왔고, 어떤 트럭을 타고 우리 집까지 왔는지 알려주는 지도예요.
- 만약 배가 아프면(데이터 오류), 이 지도를 보고 "아, 저기 농장에서 문제가 있었구나!" 하고 금방 찾아낼 수 있어요.
- 정보들이 이동하는 길을 하나하나 다 적어두는 꼼꼼한 기록장이라고 생각하면 된답니다.