핵심 인사이트 (3줄 요약)
- 본질: MMS(Metadata Management System)는 데이터의 정의·구조·형식·관계·출처·변환 규칙 등 '데이터에 대한 데이터(메타데이터)'를 체계적으로 수집·저장·검색·관리하는 시스템이다.
- 가치: 데이터 레이크에 수백만 테이블이 있어도 "이 컬럼이 무슨 뜻이고 어디서 왔는지" 모르면 활용이 불가능하며, MMS가 데이터 사전·리니지·검색 기능을 제공하여 데이터 활용도를 극대화한다.
- 판단 포인트: 기술 메타데이터(스키마·타입)·비즈니스 메타데이터(용어 정의·담당자)·운영 메타데이터(ETL 이력·품질)를 구분하고, 데이터 카탈로그가 현대적 MMS의 대표 형태이다.
Ⅰ. 개요 및 필요성
┌───────────────────────────────────────────────────────┐
│ 메타데이터 유형 │
├───────────────────────────────────────────────────────┤
│ [기술 메타데이터] 스키마·컬럼·타입·인덱스 │
│ [비즈니스 메타데이터] 용어 정의·담당자·분류 │
│ [운영 메타데이터] ETL 실행 이력·데이터 품질·리니지│
│ │
│ → 데이터 카탈로그: 3가지 메타데이터를 통합 검색 │
└───────────────────────────────────────────────────────┘
- 📢 섹션 요약 비유: 메타데이터는 도서관의 카드 목록이다. 책(데이터) 자체가 아니라 "이 책이 어디에 있고, 누가 썼고, 무슨 내용인지"를 알려준다.
Ⅱ. 아키텍처 및 핵심 원리
데이터 카탈로그 핵심 기능
| 기능 | 설명 |
| 검색·디스커버리 | 키워드로 테이블·컬럼 검색 |
| 리니지 | 데이터 출처→변환→목적지 추적 |
| 데이터 사전 | 용어 정의·표준 관리 |
| 소유권 | 데이터 스튜어드·담당팀 |
| 품질 점수 | 테이블별 품질 지표 |
- 📢 섹션 요약 비유: 데이터 카탈로그는 넷플릭스의 검색 화면이다. 영화(데이터)를 쉽게 찾고, 감독·출연진(메타데이터)·줄거리(정의)를 확인할 수 있다.
Ⅲ. 비교 및 연결
| 비교 | MMS 없음 | MMS 적용 |
| 검색 | 담당자에게 질문 | 자체 검색 |
| 리니지 | 모름 | 출처 추적 |
| 표준 | 용어 불일치 | 데이터 사전 |
Ⅳ. 실무 적용 및 기술사 판단
대표 도구
- DataHub (LinkedIn): 오픈소스 메타데이터 플랫폼.
- Amundsen (Lyft): 오픈소스 데이터 디스커버리.
- Collibra: 엔터프라이즈 데이터 카탈로그.
- OpenMetadata: 오픈소스, 표준 API.
Ⅴ. 기대효과 및 결론
MMS/데이터 카탈로그는 데이터 거버넌스의 기술적 핵심이며, 데이터 메시 아키텍처에서 셀프서비스 데이터 플랫폼의 기반이 된다.
📌 관련 개념 맵
| 개념 | 연결 포인트 |
| 메타데이터 | 데이터에 대한 데이터 |
| 데이터 카탈로그 | 현대적 MMS |
| 데이터 리니지 | 출처→변환→목적지 추적 |
| 데이터 사전 | 용어·정의 표준 |
| 데이터 거버넌스 | MMS의 상위 관리 체계 |
📈 관련 키워드 및 발전 흐름도
[수동 데이터 사전 (엑셀, 2000s)]
│
▼
[메타데이터 리포지토리 (2010s)]
│
▼
[데이터 카탈로그 (DataHub/Amundsen, 2018~)]
│
▼
[Active Metadata (2022~) — 자동 메타데이터 수집·활용]
│
▼
[현재: AI 카탈로그 — 자연어로 데이터 검색·이해]
👶 어린이를 위한 3줄 비유 설명
- 메타데이터는 도서관의 카드 목록이에요. 책이 어디에 있고 무슨 내용인지 알려줘요.
- 카드 목록(MMS)이 없으면 수백만 권의 책 중에서 원하는 책을 찾을 수 없어요.
- 데이터 카탈로그 덕분에 "매출 테이블이 어디 있지?"를 바로 검색할 수 있답니다!