핵심 인사이트 (3줄 요약)
- 본질: GMM(Gaussian Mixture Model)은 데이터가 K개의 가우시안(정규) 분포의 가중 합으로 생성되었다고 가정하고, 각 데이터 포인트가 어느 가우시안에 속하는지 **확률적으로 추정(소프트 클러스터링)**하는 확률 생성 모델이다.
- 가치: K-Means가 각 데이터를 **하나의 클러스터에 확정(하드 할당)**하는 반면, GMM은 "이 데이터는 A 클러스터에 70%, B에 30%"처럼 소속 확률을 제공하여 경계 모호성을 표현할 수 있다.
- 판단 포인트: GMM의 파라미터(평균·공분산·혼합 계수)는 EM(Expectation-Maximization) 알고리즘으로 추정하며, 클러스터 수 K는 BIC(Bayesian Information Criterion)로 선택한다.
Ⅰ. 개요 및 필요성
┌───────────────────────────────────────────────────────┐
│ K-Means (하드) vs GMM (소프트) 클러스터링 │
├───────────────────────────────────────────────────────┤
│ [K-Means] [GMM] │
│ ○○○ ●●● ○○◐ ◐●● │
│ 확정 할당 확률적 할당 │
│ "A 아니면 B" "A에 70%, B에 30%" │
│ 원형 클러스터만 타원형 클러스터 가능 │
└───────────────────────────────────────────────────────┘
- 📢 섹션 요약 비유: K-Means는 학생을 "반드시 A반 또는 B반"에 배정하는 것이고, GMM은 "A반에 70% 속하고 B반에도 30% 속한다"고 확률적으로 표현하는 것이다.
Ⅱ. 아키텍처 및 핵심 원리
EM 알고리즘 2단계
| 단계 | 작업 | 비유 |
| E-step (Expectation) | 현재 파라미터로 각 데이터의 소속 확률(Responsibility) 계산 | 학생이 각 반에 속할 확률 계산 |
| M-step (Maximization) | 소속 확률로 가중 평균·공분산·혼합 계수 재추정 | 확률 기반으로 반 중심·크기 재조정 |
| 반복 | E→M 반복 → 수렴 | 최적의 반 배정 완성 |
GMM 파라미터
| 파라미터 | 의미 |
| $\mu_k$ | k번째 가우시안의 평균 (중심) |
| $\Sigma_k$ | k번째 가우시안의 공분산 (모양·방향) |
| $\pi_k$ | k번째 가우시안의 혼합 계수 (비중) |
- 📢 섹션 요약 비유: EM은 눈을 가리고 과녁을 맞추는 궁수가, 화살을 쏘고(E) → 눈가리개를 살짝 올려 위치를 조정(M)하는 반복 훈련이다.
Ⅲ. 비교 및 연결
| 비교 | K-Means | GMM |
| 할당 | 하드 (0 or 1) | 소프트 (확률) |
| 클러스터 형태 | 원형 | 타원형 (공분산) |
| 알고리즘 | 거리 기반 | 확률 기반 (EM) |
| 속도 | 빠름 | 느림 |
| 이상치 | 민감 | 확률로 흡수 |
Ⅳ. 실무 적용 및 기술사 판단
활용 시나리오
- 고객 세분화: 경계 모호한 고객 그룹 (VIP와 일반 사이) 확률적 분류.
- 이상 탐지: 정상 분포를 GMM으로 모델링 → 낮은 확률 데이터 = 이상치.
- 음성 인식: 음소별 확률 분포 모델링 (HMM-GMM).
Ⅴ. 기대효과 및 결론
GMM은 K-Means의 확률적 일반화이며, 클러스터 경계가 모호하거나 타원형 분포를 갖는 데이터에서 우수한 성능을 보인다. Variational Inference·Bayesian GMM으로 확장되어 자동 클러스터 수 결정도 가능하다.
📌 관련 개념 맵
| 개념 | 연결 포인트 |
| K-Means | GMM의 하드 클러스터링 특수 케이스 |
| EM 알고리즘 | GMM 파라미터 추정 방법 |
| BIC / AIC | 최적 클러스터 수 K 선택 기준 |
| HMM | GMM을 방출 확률로 사용하는 시퀀스 모델 |
| Bayesian GMM | 클러스터 수 자동 결정 |
📈 관련 키워드 및 발전 흐름도
[K-Means (1957) — 하드 클러스터링]
│
▼
[EM 알고리즘 (1977, Dempster) — 불완전 데이터 MLE]
│
▼
[GMM + EM (1990s) — 소프트 클러스터링 표준]
│
▼
[Bayesian GMM (2000s) — 자동 K 결정]
│
▼
[현재: VAE·Flow — 심층 생성 모델이 GMM을 대체/확장]
👶 어린이를 위한 3줄 비유 설명
- K-Means는 학생을 **"반드시 A반!"**이라고 정하는 거예요.
- GMM은 **"A반에 70%, B반에 30%"**처럼 어느 반에 더 가까운지 확률로 말해줘요.
- 세상에는 딱 나눌 수 없는 것이 많으니까, GMM처럼 확률로 표현하는 게 더 정확하답니다!