364. 데이터 리니지 (Data Lineage)
핵심 인사이트 (3줄 요약)
- 임원의 BI 보고서 대시보드 매출 수치 하나가 틀렸을 때, 그것이 "A 부서 엑셀 오류인지, B 테이블 파이프라인 조인 버그인지" 역추적하기 위한 엔터프라이즈 데이터 계보(족보) 나침반 기술이다.
- 규제 방어(Compliance) 관점에서 민감한 개인정보(여권번호)가 어떤 서버로 어떻게 복사되어 이동하고 있는지 감사 증거(Audit Trail)를 제시하는 유일한 수단이다.
- 상업용 메타데이터 카탈로그 툴(Collibra 등)은 쿼리 엔진의 SQL 파서를 역분석(Parser Graph 탑재)해 인간이 짠 거대한 테이블 뷰(View)들의 종속 관계를 그래프로 자동 매핑해 낸다.
Ⅰ. 아키텍처 및 원리
[ 데이터 리니지의 시각화 계보 역추적망 ]
CRM DB(고객정보) -> [ Apache Airflow ETL ] -> 중앙 DW (View_C) -> [ Tableau BI ]
^ (에러 발생 시 리니지 툴이 이 화살표 종속성 그래프를 역방향 투영 진단함!)
Ⅱ. 실무 적용 및 결론
특정 컬럼 AGE 를 String 에서 Int 로 변경하려 할 때(스키마 마이그레이션), 리니지가 없으면 덜컥 변경했다가 이 데이터를 물고 있는 수십 개의 꼬리물기 파트너사 API가 당일 밤에 연쇄 폭파된다. 변경 영향도(Impact Analysis) 사전 평가를 위한 인프라 생명줄이다.