51. 데이터 카탈로그 (Data Catalog)

⚠️ 이 문서는 기업 내 수천 개의 데이터베이스와 데이터 레이크에 흩어진 테이블들이 어떤 의미를 담고 있고, 누가 만들었으며, 언제 마지막으로 업데이트되었는지에 대한 '데이터의 데이터(메타데이터)'를 긁어모아, **분석가와 현업 직원이 구글 검색하듯 사내 데이터를 쉽게 찾아 쓸 수 있게 해주는 '데이터 도서관의 색인(Index) 시스템'**을 다룹니다.

핵심 인사이트 (3줄 요약)

  1. 본질: "우리 회사에 20대 여성 고객의 최근 한 달 구매 이력 데이터가 있나? 있다면 어느 DB의 어떤 테이블에 있지?"라는 질문에 1초 만에 답을 찾아주는 지능형 데이터 탐색(Data Discovery) 포털이다.
  2. 가치: 데이터 엔지니어에게 "그 테이블 이름이 뭐예요?"라고 묻고 기다리는 엄청난 커뮤니케이션 낭비를 없애고, 버려진 쓰레기 데이터(Data Swamp)에 의미(Tag)를 부여해 가치 있는 '데이터 자산(Asset)'으로 탈바꿈시킨다.
  3. 기술 체계: 사내 모든 DB의 스키마를 봇(Crawler)이 주기적으로 훑어서 메타데이터를 자동 수집하고, 데이터의 출처와 가공 과정을 보여주는 혈통(Data Lineage), 민감 정보 마스킹 및 권한 통제(Data Governance) 기능이 결합되어 있다 (예: AWS Glue, Amundsen).

Ⅰ. 흩어진 데이터의 늪과 분석가의 고통

데이터가 많아질수록 아이러니하게도 데이터를 찾지 못하는 기현상이 벌어진다.

  1. 암호 같은 테이블 명과 파편화:
    • 회사 DB에 들어가 보면 TB_CUST_MST_2023_V2, TEMP_ORDER_DUMP 같은 암호문 수준의 테이블이 수만 개 쌓여 있다.
    • 마케팅 분석가는 이 테이블이 어떤 컬럼을 가졌는지, 어제 자 데이터가 반영된 최신 본인지 알 방법이 없어 결국 아는 엔지니어에게 메신저로 물어보느라 하루를 허비한다.
  2. 데이터 사일로와 신뢰도 하락:
    • 영업팀이 만든 고객 테이블과 마케팅팀이 만든 고객 테이블이 내용이 다르다. 어떤 데이터가 "회사 공식 인증" 데이터인지 알 수 없어 잘못된 분석 보고서가 사장님께 올라가는 대참사가 터진다.

📢 섹션 요약 비유: 세계 최대의 거대한 도서관(데이터 레이크)을 지어놓고 책을 산더미처럼 쌓아 놨지만, 책등에 제목도 없고 저자도 안 적혀 있으며 검색용 컴퓨터조차 없는 상황입니다. 책 하나를 찾으려면 사서(엔지니어)를 붙잡고 하루 종일 창고를 뒤져야 하는 끔찍한 미로와 같습니다.


Ⅱ. 데이터 카탈로그의 3대 핵심 기능

카탈로그는 단순한 엑셀 명세서가 아니라 살아 숨 쉬는 포털이다.

  1. 데이터 탐색 (Data Discovery) 및 메타데이터 자동화:
    • 검색창에 '매출액'이라고 치면 관련된 모든 사내 테이블이 나열된다.
    • 크롤러(예: AWS Glue Crawler)가 밤마다 사내망의 MySQL, S3, MongoDB를 돌아다니며 테이블 이름, 컬럼 타입, 로우(Row) 수 등 물리적 메타데이터를 자동으로 긁어와(Schema-on-read) 카탈로그를 갱신한다.
  2. 비즈니스 용어집 (Business Glossary)과 태깅:
    • 물리적 컬럼명 CUST_NM에 "고객의 실명"이라는 한글 비즈니스 설명을 매핑한다.
    • 개인정보가 포함된 컬럼에는 빨간색으로 [PII(개인정보) 경고] 태그를 달아 분석가가 무단으로 조회하지 못하게 시각적으로 통제한다.
  3. 데이터 리니지 (Data Lineage / 혈통 추적):
    • "이 훌륭한 대시보드 테이블은 도대체 원본 데이터가 어디서 온 거지?"
    • 데이터 카탈로그는 원본 DB -> 전처리 스크립트(ETL) -> 최종 마트 테이블까지 데이터가 어떤 파이프라인을 타고 흘러왔는지 지하철 노선도처럼 시각화하여 데이터의 투명성을 보장한다.

📢 섹션 요약 비유: 아무렇게나 쌓인 책들에 바코드를 붙여서 도서관 검색용 컴퓨터(카탈로그)를 만든 것입니다. "해리포터"를 검색하면 책의 위치(DB), 줄거리(비즈니스 용어), 이 책을 번역한 사람(리니지), 19세 미만 구독 불가(보안 태그) 딱지까지 한 화면에 완벽하게 보여주는 시스템입니다.


Ⅲ. 데이터 거버넌스의 척추 (Data Mesh와의 결합)

카탈로그 없이는 현대적 데이터 조직론이 성립할 수 없다.

  1. 규제 준수 (Compliance & Security):
    • 데이터 3법(개인정보보호법 등)이 강화되면서, 감사관이 "당신네 회사는 고객 주민번호가 어느 DB에 저장되어 있소?"라고 물을 때, 카탈로그가 없으면 대답할 수조차 없어 막대한 과징금을 맞는다. 카탈로그는 민감 정보의 중앙 통제소 역할을 한다.
  2. 데이터 메시 (Data Mesh)의 쇼핑몰 창구:
    • 데이터 메시 사상에서는 각 부서(도메인)가 데이터를 가공해 '상품(Product)'으로 내놓아야 한다고 했다.
    • 그 부서들이 만든 상품들을 예쁘게 진열해 놓고 전사 직원들이 장바구니에 담아(API 권한 신청) 가져다 쓸 수 있게 해 주는 거대한 아마존/쿠팡 쇼핑몰 같은 플랫폼 창구가 바로 데이터 카탈로그(Amundsen, Datahub 등)다.

📢 섹션 요약 비유: 데이터 카탈로그는 단순한 전화번호부가 아니라, 회사 내의 모든 정보 자산이 합법적으로 거래되고 교환되도록 보증하는 '정부 공인 부동산 등기소'이자, 흩어진 상인(부서)들의 물건을 한곳에 모아 파는 '디지털 오픈마켓 플랫폼'입니다.