114. 가우시안 혼합 모델 (GMM, Gaussian Mixture Model) - EM 알고리즘·소프트 클러스터링

핵심 인사이트 (3줄 요약)

본질: GMM(Gaussian Mixture Model)은 데이터가 K개의 가우시안(정규) 분포의 가중 합으로 생성되었다고 가정하고, 각 데이터 포인트가 어느 가우시안에 속하는지 **확률적으로 추정(소프트 클러스터링)**하는 확률 생성 모델이다.

가치: K-Means가 각 데이터를 **하나의 클러스터에 확정(하드 할당)**하는 반면, GMM은 "이 데이터는 A 클러스터에 70%, B에 30%"처럼 소속 확률을 제공하여 경계 모호성을 표현할 수 있다.

판단 포인트: GMM의 파라미터(평균·공분산·혼합 계수)는 EM(Expectation-Maximization) 알고리즘으로 추정하며, 클러스터 수 K는 BIC(Bayesian Information Criterion)로 선택한다.

Ⅰ. 개요 및 필요성

┌───────────────────────────────────────────────────────┐
│    K-Means (하드) vs GMM (소프트) 클러스터링           │
├───────────────────────────────────────────────────────┤
│  [K-Means]              [GMM]                         │
│   ○○○ ●●●               ○○◐ ◐●●                     │
│   확정 할당              확률적 할당                   │
│   "A 아니면 B"           "A에 70%, B에 30%"           │
│   원형 클러스터만         타원형 클러스터 가능          │
└───────────────────────────────────────────────────────┘

📢 섹션 요약 비유: K-Means는 학생을 "반드시 A반 또는 B반"에 배정하는 것이고, GMM은 "A반에 70% 속하고 B반에도 30% 속한다"고 확률적으로 표현하는 것이다.

Ⅱ. 아키텍처 및 핵심 원리

EM 알고리즘 2단계

단계	작업	비유
E-step (Expectation)	현재 파라미터로 각 데이터의 소속 확률(Responsibility) 계산	학생이 각 반에 속할 확률 계산
M-step (Maximization)	소속 확률로 가중 평균·공분산·혼합 계수 재추정	확률 기반으로 반 중심·크기 재조정
반복	E→M 반복 → 수렴	최적의 반 배정 완성

GMM 파라미터

파라미터	의미
$\mu_k$	k번째 가우시안의 평균 (중심)
$\Sigma_k$	k번째 가우시안의 공분산 (모양·방향)
$\pi_k$	k번째 가우시안의 혼합 계수 (비중)

📢 섹션 요약 비유: EM은 눈을 가리고 과녁을 맞추는 궁수가, 화살을 쏘고(E) → 눈가리개를 살짝 올려 위치를 조정(M)하는 반복 훈련이다.

Ⅲ. 비교 및 연결

비교	K-Means	GMM
할당	하드 (0 or 1)	소프트 (확률)
클러스터 형태	원형	타원형 (공분산)
알고리즘	거리 기반	확률 기반 (EM)
속도	빠름	느림
이상치	민감	확률로 흡수

Ⅳ. 실무 적용 및 기술사 판단

활용 시나리오

고객 세분화: 경계 모호한 고객 그룹 (VIP와 일반 사이) 확률적 분류.
이상 탐지: 정상 분포를 GMM으로 모델링 → 낮은 확률 데이터 = 이상치.
음성 인식: 음소별 확률 분포 모델링 (HMM-GMM).

Ⅴ. 기대효과 및 결론

GMM은 K-Means의 확률적 일반화이며, 클러스터 경계가 모호하거나 타원형 분포를 갖는 데이터에서 우수한 성능을 보인다. Variational Inference·Bayesian GMM으로 확장되어 자동 클러스터 수 결정도 가능하다.

📌 관련 개념 맵

개념	연결 포인트
K-Means	GMM의 하드 클러스터링 특수 케이스
EM 알고리즘	GMM 파라미터 추정 방법
BIC / AIC	최적 클러스터 수 K 선택 기준
HMM	GMM을 방출 확률로 사용하는 시퀀스 모델
Bayesian GMM	클러스터 수 자동 결정

📈 관련 키워드 및 발전 흐름도

[K-Means (1957) — 하드 클러스터링]
    │
    ▼
[EM 알고리즘 (1977, Dempster) — 불완전 데이터 MLE]
    │
    ▼
[GMM + EM (1990s) — 소프트 클러스터링 표준]
    │
    ▼
[Bayesian GMM (2000s) — 자동 K 결정]
    │
    ▼
[현재: VAE·Flow — 심층 생성 모델이 GMM을 대체/확장]

👶 어린이를 위한 3줄 비유 설명

K-Means는 학생을 **"반드시 A반!"**이라고 정하는 거예요.
GMM은 **"A반에 70%, B반에 30%"**처럼 어느 반에 더 가까운지 확률로 말해줘요.
세상에는 딱 나눌 수 없는 것이 많으니까, GMM처럼 확률로 표현하는 게 더 정확하답니다!