61. 데이터 마이닝 (Data Mining) 프레임워크 - KDD와 CRISP-DM

⚠️ 이 문서는 기업에 쌓여있는 쓸모없는 쓰레기 데이터 산더미(Data Swamp) 속에서, 사람이 눈으로 봐서는 절대 알 수 없는 숨겨진 마케팅 규칙, 횡령 패턴 등 보석 같은 '지식(Knowledge)'을 인공지능과 통계학으로 캐내는 작업인 데이터 마이닝을, 주먹구구식이 아닌 철저한 과학적/경영학적 순서대로 수행하기 위해 고안된 양대 표준 프로세스인 KDD와 CRISP-DM 방법론을 다룹니다.

핵심 인사이트 (3줄 요약)

  1. 본질: "데이터 던져줄 테니 뭐라도 뽑아봐" 식의 무식한 분석은 100% 망한다. 마이닝은 알고리즘(AI)을 돌리는 코딩 작업 자체가 핵심이 아니라, 그 전 단계의 데이터 정제와 그 이후의 비즈니스 평가가 전체 공정의 80%를 차지하는 종합 프로젝트 관리 기법이다.
  2. 가치: 이 방법론을 따르면 분석가가 방향을 잃고 산으로 가는 짓을 막아주며, 추출해 낸 지식이 실제 회사 매출을 끌어올릴 수 있는 진짜 쓸모 있는 '액션 아이템'으로 변환될 확률을 극적으로 높여준다.
  3. 기술 체계: 데이터를 학문적, 통계학적 관점에서 철저히 정제하고 가공하는 순차적 공정인 **KDD (지식 탐색 프로세스)**와, 이것을 실제 비즈니스 문제 해결이라는 경영학적 톱니바퀴에 맞물려 순환시키는 CRISP-DM 모델이 데이터 분석계의 쌍벽을 이룬다.

Ⅰ. 데이터에서 금을 캐는 KDD (Knowledge Discovery in Databases)

학자들이 고안한 이 프로세스는 데이터의 변형(Transformation)에 광적으로 집착한다.

  1. KDD의 탄생과 철학:
    • KDD는 단순히 '데이터 마이닝(알고리즘 돌리기)'을 포함하는 더 거대한 전체 공정(End-to-end Process)을 의미한다. 원석을 캐서, 씻고, 다듬고, 세공하여 마지막 반지(지식)로 만드는 완벽한 5단계 공정이다.
  2. KDD 5단계 폭포수 프로세스:
    • ① 선택 (Selection): 회사 DB 전체를 다 보지 말고, 이번 분석 목적(예: 기저귀 판매량 예측)에 필요한 데이터 테이블과 속성만 핀셋으로 뽑아내어 '타겟 데이터(Target Data)'로 만든다.
    • ② 전처리 (Preprocessing): 가장 고통스럽고 80%의 시간이 드는 노가다. 데이터의 빈칸(Null)을 채우고, 튀는 값(이상치, 나이 500살)을 깎아내고 모순을 없애 깨끗한 물로 씻는다.
    • ③ 변환 (Transformation): 알고리즘이 씹어먹기 좋게 데이터를 요리한다. 성별 'M/F'를 '0/1'로 바꾸거나, 수입을 '상/중/하' 범주로 묶어 차원(Features)을 줄이는 가공 작업이다.
    • ④ 데이터 마이닝 (Data Mining): $\star$(가장 핵심) 드디어 씻어놓은 데이터에 연관 분석, 군집화, 의사결정 나무 등 AI 통계 알고리즘 기계를 맹렬하게 돌려서 숨겨진 '패턴(Pattern)'들을 수백 개 토해낸다.
    • ⑤ 해석 및 평가 (Interpretation/Evaluation): 기계가 뱉어낸 패턴 중 쓰레기는 버리고, "기저귀와 맥주를 같이 산다"는 진짜 유용한 결과만 인간의 뇌로 필터링하여 찬란한 '지식(Knowledge)'으로 확정 짓는다.

📢 섹션 요약 비유: KDD는 진흙투성이 원석(DB)을 캐서 흙을 씻어내고(전처리), 조각하기 좋게 자르고(변환), 레이저 커터기(마이닝)로 예쁘게 세공한 뒤, 마지막에 감정사(해석)가 돋보기로 보고 "이건 10억짜리 진짜 다이아몬드(지식)네!"라고 증명서를 발급해 주는 완벽한 보석 가공 공장입니다.


Ⅱ. 비즈니스를 정조준하는 CRISP-DM 방법론

하지만 KDD의 치명적 단점은 '돈을 벌어줄 생각'이 부족하다는 것이었다.

  1. 비즈니스 중심의 반격 (CRISP-DM):
    • "다이아몬드를 예쁘게 깎았는데, 우리 회사는 지금 금괴가 필요한 거면 어쩔 건데?"
    • 1996년 유럽 기업들이 주도해 만든 이 모델(Cross-Industry Standard Process for Data Mining)은, 분석의 출발점을 데이터가 아니라 무조건 **'비즈니스 문제(Business Understanding)'**에 두고, 일직선이 아니라 뱅글뱅글 도는 애자일(Agile) 순환 구조를 만들었다.
  2. CRISP-DM 6단계 순환 프로세스:
    • ① 비즈니스 이해: 사장님이 뭘 원하는가? (예: 이탈하는 VIP 고객을 잡고 싶다.)
    • ② 데이터 이해: 우리 DB에 VIP 이탈을 잡을 만한 흔적 데이터가 존재하긴 하는가 탐색(EDA).
    • ③ 데이터 준비: KDD의 선택, 전처리, 변환을 합친 빡센 노가다 단계.
    • ④ 모델링: 머신러닝/통계 알고리즘 적용 (마이닝).
    • ⑤ 평가 (Evaluation): $\star$ 여기가 KDD와 다르다. 기계가 뱉은 모델이 수학적으로 얼마나 정확한지가 중요한 게 아니라, **"이 모델이 1단계에서 사장님이 원했던 비즈니스 목표(VIP 이탈 방지)를 해결해 줄 수 있는가?"**를 경영학적 잣대로 냉혹하게 평가한다. 아니면 다시 1단계로 되돌아간다(순환).
    • ⑥ 전개 (Deployment): 합격한 모델을 일회성 보고서로 끝내지 않고, 실제 회사 운영 서버(CRM 등)에 박아 넣어서 실시간으로 돈을 벌어오게 시스템화한다 (현재의 MLOps 개념).

📢 섹션 요약 비유: KDD가 "우리 동네 흙(데이터)을 팠더니 우연히 신기한 공룡 뼈(패턴)가 나왔어! 대박이지?"라는 순수 학자의 호기심 발굴이라면, CRISP-DM은 "사장님이 지금 온천 개발 사업(비즈니스 목표)을 하라니까, 온천수(정답)가 터질 때까지 땅의 위치를 바꿔가며 뱅글뱅글 파보고, 온천이 터지면 즉시 대중목욕탕(전개/배포)을 지어 돈을 쓸어 담자!"는 철저한 자본주의적 사업 기획서입니다.


Ⅲ. 두 방법론의 비교와 현대 데이터 사이언스에의 적용

결국 분석가들은 이 두 가지를 짬짜면처럼 섞어 쓴다.

  1. 무엇이 다른가? (Top-down vs Bottom-up):
    • KDD는 데이터에서 출발해 지식으로 끝난다 (Bottom-up 방식). 데이터 엔지니어나 연구원(Researcher)의 관점이 강하다.
    • CRISP-DM은 비즈니스 목표에서 출발해, 현장 배포(Deploy)로 끝난다 (Top-down 방식). 컨설턴트나 비즈니스 데이터 분석가(Data Analyst)의 관점이 강하다.
  2. 현대 MLOps와의 연결고리:
    • 오늘날의 캐글(Kaggle) 대회나 사내 AI 프로젝트는 100% 이 CRISP-DM의 사상을 그대로 물려받아 돌아가고 있다.
    • 모델을 아무리 예쁘게 깎아도 6단계 '전개(Deployment)'가 막혀 서버에 못 올리면 쓰레기라는 철학은, 현대의 핫 트렌드인 **MLOps (머신러닝 운영 파이프라인 자동화)**로 완벽하게 계승되어 진화하고 있다.

📢 섹션 요약 비유: 아무리 훌륭한 알고리즘(마이닝 로봇)을 사 와도, KDD라는 '식재료 다듬기 매뉴얼'과 CRISP-DM이라는 '레스토랑 창업 및 운영 매뉴얼'을 따르지 않으면 그 로봇은 고철 덩어리에 불과합니다. 두 방법론은 4차 산업혁명 시대의 데이터 셰프들이 반드시 머릿속에 박아두어야 할 요리 학교 교과서입니다.