데이터 마이닝 & CRISP-DM
별점: ★★★★★ | 기본 필수
답안.
Ⅰ. 개요
레이블 있는 데이터 학습 → 새 데이터 분류 알고리즘: 의사결정트리, SVM, 랜덤포레스트, XGBoost 예) 이탈 고객 예측, 스팸 분류, 신용 평가
Ⅱ. 핵심 구성요소
[분류 (Classification)]
레이블 있는 데이터 학습 → 새 데이터 분류
알고리즘: 의사결정트리, SVM, 랜덤포레스트, XGBoost
예) 이탈 고객 예측, 스팸 분류, 신용 평가
[군집 (Clustering)]
레이블 없이 유사 그룹 발견
알고리즘: K-Means, DBSCAN, 계층적 군집화
예) 고객 세그먼트, 이상 탐지
[연관 규칙 (Association Rules)]
함께 구매되는 아이템 발견
Apriori, FP-Growth
지표:
지지도(Support) = P(A∩B)
신뢰도(Confidence) = P(B|A)
향상도(Lift) = Confidence / P(B)
예) 기저귀 → 맥주 (마트 유명 사례)
[회귀 (Regression)]
연속 값 예측
선형 회귀, 리지, 라쏘, XGBoost
예) 집값 예측, 수요 예측
[6단계 프로세스]
1. 비즈니스 이해 (Business Understanding):
목표 정의, 성공 기준
해당 키워드의 기술적 구성요소와 동작 원리를 서술한다.
### Ⅲ. 특징 및 비교
핵심 기술의 장단점과 유사 기술과의 차이를 분석한다.
### Ⅳ. 적용 사례
실무 환경에서의 적용 사례와 기대효과를 제시한다.
### Ⅴ. 전망
최신 기술 동향과 향후 발전 방향을 서술한다.