560. 데이터 패브릭(Data Fabric)과 지식 그래프(Knowledge Graph) 연동

⚠️ 이 문서는 전사적으로 흩어진 데이터베이스들을 물리적으로 복사하지 않고 논리적으로 연결하는 데이터 패브릭 아키텍처에서, 단순한 카탈로그 수준을 넘어 AI가 스스로 데이터 간의 숨겨진 관계를 찾아내어 지식 그래프로 구축하고, 사용자에게 구글 검색과 같은 '지능형 데이터 탐색(Data Discovery)'을 제공하는 메타 계층의 원리를 다룹니다.

핵심 인사이트 (3줄 요약)

  1. 본질: 데이터 패브릭의 뇌(Brain) 역할을 하는 기술이다. 수만 개의 테이블이 가진 메타데이터(컬럼명, 생성일, 권한 등)를 AI가 지속해서 읽어 들이고, 사람처럼 "이 데이터는 저 데이터와 의미상 연결되어 있다"라는 거미줄(지식 그래프)을 짠다.
  2. 가치: 분석가가 "고객의 최근 환불 이력"을 찾을 때, DB 스키마나 쿼리를 몰라도 자연어로 검색하면 지식 그래프가 가장 연관성 높고 품질이 검증된 테이블을 넷플릭스 영화 추천하듯 1초 만에 추천해 준다.
  3. 기술 체계: 액티브 메타데이터(Active Metadata) 수집 엔진과 시맨틱(의미론적) 연결 고리를 저장하는 **그래프 데이터베이스(Graph DB, 예: Neo4j)**가 결합하여 쿼리 라우팅과 권한 통제를 지능화한다.

Ⅰ. 수동 메타데이터의 한계: 죽어있는 카탈로그

데이터 카탈로그를 돈 들여 구축해도 사람들이 쓰지 않는 이유가 있다.

  1. 패시브(Passive) 메타데이터의 문제:
    • 기존의 데이터 카탈로그는 데이터 엔지니어가 수동으로 "이 테이블은 결제 내역임"이라고 설명을 적어놓는 방식이었다. (위키피디아 방식)
    • 데이터 구조는 매일 바뀌는데 설명은 1년 전 그대로라, 카탈로그를 보고 쿼리를 날렸다가 에러가 나는 일이 반복되며 신뢰를 잃었다.
  2. 사일로화된 맥락 (Missing Context):
    • A 테이블(고객)과 B 테이블(장바구니)이 존재한다는 사실은 카탈로그가 알려주지만, "A 테이블의 어떤 컬럼과 B 테이블의 어떤 컬럼을 조인(Join)해야 분석에 쓸 수 있는지"에 대한 '비즈니스적 연결 고리'는 카탈로그에 없다.
  3. 지능형 탐색의 필요성:
    • 결국 데이터 패브릭이 작동하려면, 시스템 스스로 쿼리 로그를 분석해 "사람들이 A와 B를 자주 조인해서 쓰네?"라는 맥락을 캡처하고 최신 상태를 유지하는 '살아 숨 쉬는 뇌'가 필요해졌다.

📢 섹션 요약 비유: 과거의 카탈로그가 도서관 구석에 있는 '먼지 쌓인 낡은 인덱스 카드함'이었다면, 데이터 패브릭의 지능형 탐색은 내가 무슨 책을 빌렸는지 분석하고 "이 책을 읽은 다른 사람들은 저 책도 읽었습니다"라고 즉석에서 추천해 주는 '아마존의 AI 추천 엔진'으로의 진화입니다.


Ⅱ. 액티브 메타데이터와 지식 그래프의 결합

데이터 패브릭은 데이터를 복사하는 대신 '데이터의 관계'를 그려낸다.

  1. 액티브 메타데이터 (Active Metadata):
    • 봇(Crawler)이 24시간 동안 전사 DB를 돌아다니며 스키마 변화를 감지할 뿐만 아니라, 사용자들의 SQL 쿼리 로그, 데이터 접근 빈도, 에러 발생률까지 모조리 수집한다.
  2. 지식 그래프 (Knowledge Graph) 구축:
    • 수집된 액티브 메타데이터를 그래프 데이터베이스(Graph DB)에 쏟아 넣는다.
    • 점(Node)에는 '테이블', '직원', '대시보드'를 배치하고, 선(Edge)에는 '조회함', '파생됨', '포함됨' 등의 관계를 그린다.
    • ┌─────────────────────────────────────────────────────────┐ │ [김대리(사용자)] --(자주 조회함)--> [TB_ORDER(테이블)] │ │ | (PK-FK 조인 관계) │ │ [매출 대시보드] <--(데이터 공급)---- [TB_PAYMENT(테이블)] │ └─────────────────────────────────────────────────────────┘
  3. 지능형 추천 및 라우팅:
    • 새로운 직원이 "매출 분석 데이터"를 검색하면, 지식 그래프가 작동하여 "당신과 같은 부서의 김 대리가 가장 많이 쓰는 TB_ORDERTB_PAYMENT를 조합해서 쓰세요"라고 최적의 경로(가상 뷰)를 즉시 제공한다.

📢 섹션 요약 비유: 하늘에 떠 있는 별(데이터)들을 그냥 바라보는 것(패시브)이 아니라, 별과 별 사이의 거리를 재고 그리스 신화의 이야기를 덧붙여 전갈자리, 오리온자리 같은 '의미 있는 별자리(지식 그래프)'로 연결해 두어야 사람들이 밤하늘에서 길을 쉽게 찾을 수 있는 원리입니다.


Ⅲ. 보안 및 거버넌스의 자동화 (Shift-Left)

지식 그래프는 단순히 검색만 돕는 것이 아니라 데이터 철통 방어망이 된다.

  1. 자동화된 태깅과 통제 (Automated Tagging):
    • AI가 지식 그래프를 훑어보다가 특정 테이블에 주민번호 패턴(예: 000000-0000000)이 등장하면, 사람이 시키지 않아도 자동으로 [PII: 개인 민감 정보] 태그를 달아버린다.
    • 이 태그가 붙는 순간, 데이터 패브릭의 권한 엔진이 작동하여 평사원이 해당 컬럼을 조회할 때 자동으로 별표(***) 처리(마스킹)를 해버린다.
  2. 영향도 분석 (Impact Analysis):
    • 개발자가 운영 DB의 테이블 구조를 변경하려 할 때, 지식 그래프를 조회하여 "이 테이블이 변경되면 하류(Downstream)에 있는 3개의 마케팅 대시보드가 먹통이 됩니다"라고 배포 전에 경고(Shift-Left)를 띄워준다.

📢 섹션 요약 비유: 지식 그래프는 도시의 완벽한 3D 정밀 지도와 같습니다. 길을 헤매는 사람에게는 최단 경로를 알려주고(추천), 도로 공사를 하려고 땅을 팔 때는 "거기 파면 수도관이 터져서 옆 동네 물이 끊깁니다"라고 미리 경고(영향도 분석)해 주는 도시 관제의 핵심 뇌입니다.