197. 데이터 메시 (Data Mesh) - 차세대 사일로 해결 모델

⚠️ 이 문서는 기업의 모든 데이터를 중앙의 거대한 데이터 레이크(Data Lake) 한곳에 몰아넣고 중앙 데이터팀 10명이 피똥 싸며 관리하던 중앙 집중형 병목을 혁파하기 위해, **마이크로서비스 아키텍처(MSA)가 서버를 쪼갰듯, 데이터의 소유권과 관리 책임 역시 '영업', '마케팅', '물류' 등 각 현장의 도메인 조직으로 완전히 분산(Decentralized)시키고, 그 데이터를 마치 API 상품(Data as a Product)처럼 취급하는 차세대 조직 및 기술 아키텍처인 '데이터 메시'**를 다룹니다.

핵심 인사이트 (3줄 요약)

  1. 본질: 기술이나 툴(Tool)의 이름이 아니다. "데이터를 모아서 관리하자"는 30년 된 거대 중앙 집중 철학(데이터 웨어하우스/레이크)을 박살 내고, "각 부서가 자기 데이터를 직접 책임지고 다듬어서 남들에게 표준화된 인터페이스로 제공하자"는 탈중앙화 패러다임 시프트다.
  2. 가치: 중앙의 데이터팀이 쏟아지는 수백 개의 부서별 데이터 파이프라인 수정 요청을 감당하지 못해 병목이 걸리고 프로젝트가 수개월씩 지연되던 문제를 해결하여, 대기업의 데이터 분석 속도를 애자일(Agile)하게 만들어준다.
  3. 기술 체계: 도메인 주도 소유권(Domain-driven Ownership), 데이터를 상품처럼 관리(Data as a Product), 자율적인 셀프 서비스 인프라 플랫폼, 그리고 흩어진 데이터를 묶어주는 연합 거버넌스(Federated Governance)라는 4대 원칙을 기반으로 돌아간다.

Ⅰ. 데이터 레이크(Data Lake)의 중앙 집중식 병목과 붕괴

모든 쓰레기를 한 호수에 던져 넣었더니 썩어가기 시작했다.

  1. 중앙 데이터팀의 고통:
    • 과거에는 영업팀, HR팀, 물류팀의 데이터를 하둡(Hadoop)이나 AWS S3 같은 거대한 중앙 데이터 레이크 하나로 몽땅 쏟아부었다.
    • 중앙에 있는 소수의 '데이터 엔지니어'들은 물류팀의 배송 로직도 모르고, HR팀의 인사 규정도 모른 채 그저 쏟아지는 엑셀 파일과 DB 덤프를 억지로 깨끗하게 씻어내어(ETL) 분석가들에게 바쳐야 하는 극한의 노가다(병목)에 시달렸다.
  2. 도메인 지식과 기술의 괴리:
    • 영업팀에서 "어? 저희 저번 달부터 '주문 번호' 양식을 ORD-123에서 O-123으로 바꿨는데 말 안 했나요?"라고 하면, 중앙 데이터 레이크의 파이프라인은 그날로 싹 다 터져버린다.
    • 중앙팀은 데이터의 '의미(Context)'를 모르고 파이프라인(기술)만 관리하므로 데이터 품질은 쓰레기(Garbage in, Garbage out)가 되고 만다.

📢 섹션 요약 비유: 전국에서 나오는 수만 가지의 재활용 쓰레기(데이터)를 서울 한가운데의 거대 소각장(데이터 레이크) 한 곳에 몽땅 갖다 부었습니다. 소각장 직원들(중앙 데이터팀)은 플라스틱인지 종이인지도 모른 채 밤을 새워 분류하다 쓰러지고, 재활용 속도는 한없이 느려지며, 동네 주민(각 부서)들은 분리수거에 아무런 책임감도 느끼지 않는 총체적 난국입니다.


Ⅱ. 데이터 메시의 혁명: 도메인 소유권과 상품화

네가 싼 똥(데이터)은 네가 직접 치워서 예쁜 상품으로 포장해라.

  1. 원칙 1: 도메인 주도 소유권 (Domain Ownership):
    • MSA(마이크로서비스)처럼 데이터 관리도 쪼갠다.
    • '고객 결제 이력 데이터'는 중앙팀이 아니라, 그 시스템을 가장 잘 아는 '결제 개발팀'이 직접 데이터 엔지니어를 고용해 관리하고 정제할 책임을 진다. 중앙 집중의 해체다.
  2. 원칙 2: 제품으로서의 데이터 (Data as a Product):
    • 결제팀은 자기 데이터를 대충 덤프 떠서 중앙에 던져주는 게 아니다.
    • 그 데이터를 누군가 사 갈 수 있는 **'예쁜 상품'**으로 만들어야 한다. 즉, API나 읽기 전용 뷰(View)를 만들고, "이 데이터는 매일 밤 12시에 업데이트되며, 개인정보는 마스킹되어 있습니다"라는 친절한 설명서(카탈로그)를 붙여 사내 마켓플레이스에 진열한다.
    • 마케팅팀은 결제팀의 데이터를 구걸할 필요 없이, 마켓에 가서 결제팀이 예쁘게 포장해 둔 데이터 상품을 그냥 가져다(API 구독) 쓴다.

📢 섹션 요약 비유: 쓰레기를 서울로 보내지 않습니다. 강남구, 서초구(각 도메인 부서)가 각자의 동네에서 나온 쓰레기를 알아서 세척하고 재가공합니다. 그리고 "강남구산 최고급 압축 플라스틱 100톤(데이터 상품)"이라고 예쁜 라벨을 붙여 전국 재활용 상점(데이터 카탈로그)에 올려놓으면, 필요한 공장이 직접 와서 사 가는 획기적인 지방 자치 데이터 생태계입니다.


Ⅲ. 통제를 위한 연합 거버넌스와 인프라 플랫폼

각자도생으로 찢어놓으면 무법지대가 되므로, 최소한의 국가 법률이 필요하다.

  1. 원칙 3: 셀프 서비스 데이터 인프라 (Self-Serve Platform):
    • 각 부서가 알아서 데이터를 정제하라고 했더니, 결제팀은 "우리 부서는 S3 쓸 줄 모르는데요?"라고 한다.
    • 그래서 전사의 클라우드 인프라 팀은, 버튼 하나만 누르면 AWS 권한, 데이터베이스, 스파크(Spark) 엔진이 자동으로 툭 튀어나오는 '자판기(셀프 서비스 플랫폼)'를 만들어 각 부서에 제공해야 한다.
  2. 원칙 4: 연합 거버넌스 (Federated Governance):
    • 각 부서가 자기 맘대로 데이터를 만들다 보면 포맷이 중구난방이 된다.
    • 중앙 거버넌스 위원회를 열어, "어느 부서든 데이터를 상품으로 올릴 때 날짜 포맷은 무조건 YYYY-MM-DD로 통일하고, 주민번호는 암호화(마스킹)해서 올려야 마켓에 등록시켜 준다"는 강력한 글로벌 법률(Standard)을 강제하여 데이터 메시 세계의 무질서를 통제한다.

📢 섹션 요약 비유: 각 동네(도메인)에 자치권을 줬지만, 깡패 동네가 되는 것을 막아야 합니다. 중앙 정부는 각 동네에 최신 쓰레기 압축기(셀프 서비스 인프라)를 공짜로 지급해 주고, 대신 "플라스틱은 무조건 투명 봉투(표준 포맷)에 담고, 위험물(개인정보)은 3중 포장해라"라는 강력한 연방 헌법(거버넌스)을 만들어 감시함으로써, 찢어져 있지만 완벽하게 하나처럼 돌아가는 선진국형 분권 시스템을 완성합니다.