51. 데이터 카탈로그 (Data Catalog)
⚠️ 이 문서는 기업 내 수천 개의 데이터베이스와 데이터 레이크에 흩어진 테이블들이 어떤 의미를 담고 있고, 누가 만들었으며, 언제 마지막으로 업데이트되었는지에 대한 '데이터의 데이터(메타데이터)'를 긁어모아, **분석가와 현업 직원이 구글 검색하듯 사내 데이터를 쉽게 찾아 쓸 수 있게 해주는 '데이터 도서관의 색인(Index) 시스템'**을 다룹니다.
핵심 인사이트 (3줄 요약)
- 본질: "우리 회사에 20대 여성 고객의 최근 한 달 구매 이력 데이터가 있나? 있다면 어느 DB의 어떤 테이블에 있지?"라는 질문에 1초 만에 답을 찾아주는 지능형 데이터 탐색(Data Discovery) 포털이다.
- 가치: 데이터 엔지니어에게 "그 테이블 이름이 뭐예요?"라고 묻고 기다리는 엄청난 커뮤니케이션 낭비를 없애고, 버려진 쓰레기 데이터(Data Swamp)에 의미(Tag)를 부여해 가치 있는 '데이터 자산(Asset)'으로 탈바꿈시킨다.
- 기술 체계: 사내 모든 DB의 스키마를 봇(Crawler)이 주기적으로 훑어서 메타데이터를 자동 수집하고, 데이터의 출처와 가공 과정을 보여주는 혈통(Data Lineage), 민감 정보 마스킹 및 권한 통제(Data Governance) 기능이 결합되어 있다 (예: AWS Glue, Amundsen).
Ⅰ. 흩어진 데이터의 늪과 분석가의 고통
데이터가 많아질수록 아이러니하게도 데이터를 찾지 못하는 기현상이 벌어진다.
- 암호 같은 테이블 명과 파편화:
- 회사 DB에 들어가 보면
TB_CUST_MST_2023_V2,TEMP_ORDER_DUMP같은 암호문 수준의 테이블이 수만 개 쌓여 있다. - 마케팅 분석가는 이 테이블이 어떤 컬럼을 가졌는지, 어제 자 데이터가 반영된 최신 본인지 알 방법이 없어 결국 아는 엔지니어에게 메신저로 물어보느라 하루를 허비한다.
- 회사 DB에 들어가 보면
- 데이터 사일로와 신뢰도 하락:
- 영업팀이 만든 고객 테이블과 마케팅팀이 만든 고객 테이블이 내용이 다르다. 어떤 데이터가 "회사 공식 인증" 데이터인지 알 수 없어 잘못된 분석 보고서가 사장님께 올라가는 대참사가 터진다.
📢 섹션 요약 비유: 세계 최대의 거대한 도서관(데이터 레이크)을 지어놓고 책을 산더미처럼 쌓아 놨지만, 책등에 제목도 없고 저자도 안 적혀 있으며 검색용 컴퓨터조차 없는 상황입니다. 책 하나를 찾으려면 사서(엔지니어)를 붙잡고 하루 종일 창고를 뒤져야 하는 끔찍한 미로와 같습니다.
Ⅱ. 데이터 카탈로그의 3대 핵심 기능
카탈로그는 단순한 엑셀 명세서가 아니라 살아 숨 쉬는 포털이다.
- 데이터 탐색 (Data Discovery) 및 메타데이터 자동화:
- 검색창에 '매출액'이라고 치면 관련된 모든 사내 테이블이 나열된다.
- 크롤러(예: AWS Glue Crawler)가 밤마다 사내망의 MySQL, S3, MongoDB를 돌아다니며 테이블 이름, 컬럼 타입, 로우(Row) 수 등 물리적 메타데이터를 자동으로 긁어와(Schema-on-read) 카탈로그를 갱신한다.
- 비즈니스 용어집 (Business Glossary)과 태깅:
- 물리적 컬럼명
CUST_NM에 "고객의 실명"이라는 한글 비즈니스 설명을 매핑한다. - 개인정보가 포함된 컬럼에는 빨간색으로
[PII(개인정보) 경고]태그를 달아 분석가가 무단으로 조회하지 못하게 시각적으로 통제한다.
- 물리적 컬럼명
- 데이터 리니지 (Data Lineage / 혈통 추적):
- "이 훌륭한 대시보드 테이블은 도대체 원본 데이터가 어디서 온 거지?"
- 데이터 카탈로그는 원본 DB -> 전처리 스크립트(ETL) -> 최종 마트 테이블까지 데이터가 어떤 파이프라인을 타고 흘러왔는지 지하철 노선도처럼 시각화하여 데이터의 투명성을 보장한다.
📢 섹션 요약 비유: 아무렇게나 쌓인 책들에 바코드를 붙여서 도서관 검색용 컴퓨터(카탈로그)를 만든 것입니다. "해리포터"를 검색하면 책의 위치(DB), 줄거리(비즈니스 용어), 이 책을 번역한 사람(리니지), 19세 미만 구독 불가(보안 태그) 딱지까지 한 화면에 완벽하게 보여주는 시스템입니다.
Ⅲ. 데이터 거버넌스의 척추 (Data Mesh와의 결합)
카탈로그 없이는 현대적 데이터 조직론이 성립할 수 없다.
- 규제 준수 (Compliance & Security):
- 데이터 3법(개인정보보호법 등)이 강화되면서, 감사관이 "당신네 회사는 고객 주민번호가 어느 DB에 저장되어 있소?"라고 물을 때, 카탈로그가 없으면 대답할 수조차 없어 막대한 과징금을 맞는다. 카탈로그는 민감 정보의 중앙 통제소 역할을 한다.
- 데이터 메시 (Data Mesh)의 쇼핑몰 창구:
- 데이터 메시 사상에서는 각 부서(도메인)가 데이터를 가공해 '상품(Product)'으로 내놓아야 한다고 했다.
- 그 부서들이 만든 상품들을 예쁘게 진열해 놓고 전사 직원들이 장바구니에 담아(API 권한 신청) 가져다 쓸 수 있게 해 주는 거대한 아마존/쿠팡 쇼핑몰 같은 플랫폼 창구가 바로 데이터 카탈로그(Amundsen, Datahub 등)다.
📢 섹션 요약 비유: 데이터 카탈로그는 단순한 전화번호부가 아니라, 회사 내의 모든 정보 자산이 합법적으로 거래되고 교환되도록 보증하는 '정부 공인 부동산 등기소'이자, 흩어진 상인(부서)들의 물건을 한곳에 모아 파는 '디지털 오픈마켓 플랫폼'입니다.