4. KL 다이버전스 (KL Divergence, Kullback-Leibler Divergence) — 분포 차이

핵심 인사이트 (3줄 요약)

본질: KL (Kullback-Leibler) 다이버전스 D_KL(P‖Q)는 분포 P를 Q로 근사할 때 치르는 정보 비용 — 두 분포가 가까울수록 0에 수렴한다.

가치: 비대칭성(D_KL(P‖Q) ≠ D_KL(Q‖P))이 핵심 설계 선택이 되며, VAE (Variational Autoencoder) 손실, 변분 추론, 모델 비교 등에서 방향 선택이 결과를 바꾼다.

판단 포인트: 크로스 엔트로피 = H(P) + D_KL(P‖Q) — MLE 학습은 크로스 엔트로피 최소화 = KL 최소화이며, P를 고정하면 완전히 동치다.

Ⅰ. 개요 및 필요성

두 확률 분포 P와 Q가 주어졌을 때, P를 Q로 얼마나 잘 근사할 수 있는가를 측정하는 척도가 KL (Kullback-Leibler) 다이버전스다:

D_KL(P‖Q) = Σ_{x} P(x) · log₂(P(x) / Q(x))   [bits]

연속 분포:

D_KL(P‖Q) = ∫ p(x) · log(p(x)/q(x)) dx

핵심 성질

성질	내용
비음수	D_KL(P‖Q) ≥ 0 (깁스 부등식, Gibbs Inequality)
동일 시 0	D_KL(P‖Q) = 0 ⟺ P = Q
비대칭	D_KL(P‖Q) ≠ D_KL(Q‖P) (거리 메트릭 아님)
삼각 부등식 없음	메트릭 공간을 이루지 않음

📢 섹션 요약 비유: KL 다이버전스는 "번역 오류 비용"이다 — P를 Q 언어로 번역할 때 생기는 정보 손실을 측정하며, 어느 방향으로 번역하느냐에 따라 오류 비용이 다르다.

Ⅱ. 아키텍처 및 핵심 원리

정보량 관계 전체 구조

       H(P)          D_KL(P‖Q)
    ┌─────────┐    ┌─────────────┐
    │ 엔트로피 │ +  │ KL 다이버전스│ = H(P,Q) 크로스 엔트로피
    └─────────┘    └─────────────┘
       (고정)          (최소화 대상)

크로스 엔트로피 H(P,Q) = H(P) + D_KL(P‖Q)
P가 실제 분포, Q가 모델 분포 → 학습은 D_KL 최소화 = 크로스 엔트로피 최소화 (H(P) 고정)

순방향 vs 역방향 KL

순방향 KL (Forward KL): D_KL(P‖Q)
"P가 있는 곳에 Q도 있어야 한다"
→ Q가 P의 모든 모드를 커버 (zero-avoiding)
→ 평균 탐색 (mean-seeking)

역방향 KL (Reverse KL): D_KL(Q‖P)
"Q가 있는 곳에 P도 있어야 한다"
→ Q가 P의 한 모드에 집중 (zero-forcing)
→ 모드 탐색 (mode-seeking)

분포 P (다봉)   분포 Q (단봉 가우시안)
   ┌──┐  ┌──┐
   │  │  │  │           Q₁ (순방향 KL)   Q₂ (역방향 KL)
   │  │  │  │        ┌──────────────┐   ┌────┐
   │  │  │  │        │  넓게 커버   │   │한모│
   └──┘  └──┘        └──────────────┘   └────┘
    모드1  모드2          평균 탐색         모드 탐색

깁스 부등식 증명 요약

Jensen 부등식 + log의 오목성 (concavity):

-D_KL(P‖Q) = Σ P log(Q/P) ≤ log(Σ P · Q/P) = log(Σ Q) ≤ log(1) = 0

따라서 D_KL(P‖Q) ≥ 0.

📢 섹션 요약 비유: 순방향 vs 역방향 KL은 "모든 팬 vs 핵심 팬"과 같다 — 순방향은 가수의 모든 팬을 포함하려 하고(평균 탐색), 역방향은 가장 열정적인 팬 그룹 하나에 집중한다(모드 탐색).

Ⅲ. 비교 및 연결

분포 유사도 척도 비교

척도	수식	대칭	범위	용도
KL 다이버전스	Σ P log(P/Q)	❌	[0, ∞)	VAE, 변분 추론
JS 다이버전스	(KL(P‖M)+KL(Q‖M))/2	✅	[0, 1]	GAN 이론적 분석
헬링거 거리	√(Σ(√p-√q)²/2)	✅	[0, 1]	통계 검정
전변동 거리	½Σ\|p-q\|	✅	[0, 1]	통계 검정
와서스테인 거리	Earth Mover Distance	✅	[0, ∞)	WGAN

JS (Jensen-Shannon) 다이버전스: KL의 대칭화 버전, 중간 분포 M = (P+Q)/2 사용
GAN (Generative Adversarial Network) 에서 최적 판별자 = JS 다이버전스 최소화

VAE에서의 KL 다이버전스

VAE (Variational Autoencoder) 손실:

L = E[log p(x|z)]  -  D_KL(q(z|x) ‖ p(z))
     재구성 손실          KL 정규화 항

q(z|x): 인코더 (근사 사후 분포)
p(z): 사전 분포 (표준 정규분포 N(0,I))
KL 항이 잠재 공간을 정규분포에 가깝게 강제 → 매끄러운 잠재 공간

가우시안 q, p에 대해 해석적 공식:

D_KL(N(μ,σ²) ‖ N(0,1)) = ½(σ² + μ² - 1 - log σ²)

📢 섹션 요약 비유: VAE의 KL 항은 "캐릭터 압축 품질 관리"다 — 원본 캐릭터(x)를 압축(z)하고 복원할 때, KL 항은 압축 공간이 너무 제멋대로 뭉치지 않도록 정규화한다.

Ⅳ. 실무 적용 및 기술사 판단

변분 추론 (Variational Inference)

베이즈 추론에서 사후 분포 p(z|x)가 계산 불가능할 때:

최적화: q*(z) = argmin_{q∈Q} D_KL(q(z) ‖ p(z|x))

역방향 KL 사용 → q가 p의 한 모드에 집중하는 경향 (모드 붕괴).

지식 증류 (Knowledge Distillation)

교사 모델 T, 학생 모델 S의 소프트 레이블 분포 간 KL 최소화:

L_KD = D_KL(T ‖ S) = Σ T(x)·log(T(x)/S(x))

온도 τ로 소프트 레이블 조정: p_i = exp(z_i/τ) / Σ exp(z_j/τ)

A/B 테스트에서의 KL

두 실험군의 클릭 분포 P_A, P_B 비교:

D_KL(P_A ‖ P_B) 크면 → 두 군의 행동 분포가 유의미하게 다름

📢 섹션 요약 비유: 지식 증류의 KL 최소화는 "제자가 스승 흉내 내기"다 — 학생(S)이 스승(T)의 답변 패턴을 최대한 따라 하도록 학습하는 것이 KL 최소화다.

Ⅴ. 기대효과 및 결론

KL 다이버전스는 확률론적 ML의 중심 손실 개념이다. 비대칭성을 이해하고 방향을 올바르게 선택하는 것이 실무 설계의 핵심:

D_KL(P‖Q): P(실제)를 기준으로 Q(모델)를 평가 → MLE와 동치
D_KL(Q‖P): 변분 추론, 모드 집중 원할 때

"KL 다이버전스 ≥ 0"인 깁스 부등식은 단순하지만 정보이론 전체 부등식 체계의 기반이 된다.

📢 섹션 요약 비유: KL 다이버전스는 "번역 점수"다 — P라는 언어를 Q로 번역하는 비용이며, 방향이 바뀌면 비용도 달라지는 비대칭 언어 장벽이다.

📌 관련 개념 맵

개념	관계	비고
KL 다이버전스 D_KL(P‖Q)	크로스 엔트로피 = H(P) + KL	핵심 관계
JS 다이버전스	KL의 대칭화	GAN 이론
VAE 손실	재구성 + KL 정규화	생성 모델
변분 추론	D_KL(q‖p) 최소화	역방향 KL
지식 증류	D_KL(T‖S) 최소화	모델 압축

📈 관련 키워드 및 발전 흐름도

[:---]
    │
    ▼
[KL 다이버전스 D_KL(P‖Q)]
    │
    ▼
[JS 다이버전스]
    │
    ▼
[VAE 손실]
    │
    ▼
[변분 추론]
    │
    ▼
[지식 증류]

이 흐름도는 :---에서 출발해 지식 증류까지 이어지며, 중간 단계가 기초 개념을 실무 구조로 발전시키는 과정을 보여준다.

👶 어린이를 위한 3줄 비유 설명

KL 다이버전스는 "지도의 오차": 실제 지형(P)을 모형 지도(Q)로 만들 때, 지도가 틀릴수록 KL이 커진다.
비대칭성은 "오해의 방향": 내가 너를 오해하는 정도(P→Q)와 네가 나를 오해하는 정도(Q→P)는 다를 수 있다.
KL=0이면 "완벽한 복사본": 두 분포가 완전히 같으면 정보 손실이 전혀 없다.