364. 데이터 리니지 (Data Lineage)

핵심 인사이트 (3줄 요약)

  1. 임원의 BI 보고서 대시보드 매출 수치 하나가 틀렸을 때, 그것이 "A 부서 엑셀 오류인지, B 테이블 파이프라인 조인 버그인지" 역추적하기 위한 엔터프라이즈 데이터 계보(족보) 나침반 기술이다.
  2. 규제 방어(Compliance) 관점에서 민감한 개인정보(여권번호)가 어떤 서버로 어떻게 복사되어 이동하고 있는지 감사 증거(Audit Trail)를 제시하는 유일한 수단이다.
  3. 상업용 메타데이터 카탈로그 툴(Collibra 등)은 쿼리 엔진의 SQL 파서를 역분석(Parser Graph 탑재)해 인간이 짠 거대한 테이블 뷰(View)들의 종속 관계를 그래프로 자동 매핑해 낸다.

Ⅰ. 아키텍처 및 원리

  [ 데이터 리니지의 시각화 계보 역추적망 ]
   CRM DB(고객정보) -> [ Apache Airflow ETL ] -> 중앙 DW (View_C) -> [ Tableau BI ]
          ^ (에러 발생 시 리니지 툴이 이 화살표 종속성 그래프를 역방향 투영 진단함!)

Ⅱ. 실무 적용 및 결론

특정 컬럼 AGEString 에서 Int 로 변경하려 할 때(스키마 마이그레이션), 리니지가 없으면 덜컥 변경했다가 이 데이터를 물고 있는 수십 개의 꼬리물기 파트너사 API가 당일 밤에 연쇄 폭파된다. 변경 영향도(Impact Analysis) 사전 평가를 위한 인프라 생명줄이다.