💡 핵심 인사이트
메타데이터(Metadata)는 데이터의 뼈대와 출처를 설명해 주는 **'데이터에 대한 데이터(Data about data)'**입니다.
그리고 회사 내에 흩어진 수천 개의 테이블과 메타데이터들을 한곳에 모아, 마치 도서관 검색대처럼 "이 데이터는 누가 만들었고 어떤 뜻이지?"를 한눈에 검색할 수 있게 해주는 포털이 **'데이터 카탈로그(Data Catalog)'**입니다.
Ⅰ. 메타데이터 (Metadata)의 개념
사진 파일을 마우스 우클릭해서 '속성'을 눌러보면 사진의 내용(강아지)이 아니라, 찍은 날짜, 해상도, 카메라 기종(아이폰) 등이 나옵니다. 이것이 메타데이터입니다.
기업 DB에서의 메타데이터는 3가지로 쪼개집니다.
- 기술적 메타데이터: IT 개발자용. "A 테이블의 'CUST_NM' 컬럼은 VARCHAR(20) 타입이고 PK가 걸려 있다." (DB 스키마 정보)
- 비즈니스 메타데이터: 현업 실무자용. "CUST_NM이라는 컬럼은 우리 영업팀에서 말하는 '우수 고객 이름'을 뜻하며, 최근 3개월간 10만 원 이상 결제한 사람만 의미한다." (용어 사전)
- 운영 메타데이터: "이 테이블은 매일 새벽 3시에 배치 프로그램에 의해 업데이트된다." (ETL 갱신 주기)
Ⅱ. 데이터 카탈로그 (Data Catalog)의 마법
과거 신입 데이터 분석가가 들어오면 엑셀 파일 수백 개를 열어보며 "대체 작년 매출액이 정리된 테이블이 어디에 박혀있는 거야?"라며 한 달을 허비했습니다. (데이터 늪 현상).
데이터 거버넌스 팀은 전사에 흩어진 모든 메타데이터를 수집하여 하나의 **구글 검색창 같은 사내 웹사이트(포털)**를 구축합니다. 이것이 데이터 카탈로그입니다.
데이터 카탈로그의 핵심 기능
- 통합 검색: 검색창에 'VIP 고객'이라고 치면, 회사 내 수십 개의 DB 중 VIP 고객 정보가 들어있는 테이블명(
TB_CUST_VIP)과 위치가 1초 만에 뜹니다. - 데이터 리니지 (Data Lineage, 데이터 족보): 데이터가 어디서 태어나서 어떤 가공(SQL 조인)을 거쳐 이 최종 보고서에 도착했는지 그 **'흐름(파이프라인)을 시각적인 가계도로 그려주는 기능'**입니다. 값이 틀렸을 때 원인을 추적하는 역추적(Traceability)의 핵심입니다.
- 품질 및 소유권 표시: "이 데이터는 신뢰도 95점짜리 클린 데이터이며, 궁금한 게 있으면 영업 1팀 홍길동 대리(데이터 스튜어드)에게 연락하세요"라는 명찰이 붙어있습니다.
Ⅲ. 도입 효과
데이터 카탈로그(예: Collibra, Alation 등 상용 솔루션)가 구축되면, 직원들은 더 이상 IT 팀에 "데이터 좀 뽑아주세요"라고 구걸할 필요가 없습니다. 스스로 포털에 접속해 데이터를 쇼핑하듯 검색하고 분석(Self-Service Analytics)할 수 있어 회사의 '데이터 민주화'가 달성됩니다.
📢 섹션 요약 비유: 메타데이터가 식료품 뒷면에 적힌 **'원산지/유통기한/성분표 라벨'**이라면, 데이터 카탈로그는 이 라벨들이 일목요연하게 정리된 **'초대형 마트의 무인 검색 키오스크'**입니다. 고객은 넓은 마트를 헤맬 필요 없이 검색창에 '호주산 소고기'만 치면 3층 신선 코너에 5팩이 남아있다는 것을 1초 만에 알 수 있습니다.