3. 상호 정보량 (Mutual Information) — 공유 정보 측정

핵심 인사이트 (3줄 요약)

본질: 상호 정보량 I(X;Y)는 X와 Y가 공유하는 정보의 양 — Y를 알면 X의 불확실성이 얼마나 줄어드는지를 측정한다.

가치: I(X;Y) = 0이면 완전 독립, 클수록 강한 상관 — 비선형 의존성까지 포착하며 피어슨 상관계수로 잡을 수 없는 관계도 발견한다.

판단 포인트: 채널 용량 C = max I(X;Y), ML 특성 선택, 클러스터링 평가(NMI) — 실무 세 곳에서 동시에 쓰이므로 수식과 해석을 함께 암기하라.

Ⅰ. 개요 및 필요성

두 확률변수 X, Y가 얼마나 서로 의존하는지를 정량화하는 척도가 상호 정보량 (Mutual Information, MI) 이다.

I(X;Y) = H(X) - H(X|Y)
       = H(Y) - H(Y|X)
       = H(X) + H(Y) - H(X,Y)
       = D_KL(P(X,Y) || P(X)P(Y))

네 가지 동치 표현은 각각 다른 직관을 제공한다:

H(X) - H(X|Y): Y를 알고 나서 줄어든 X의 불확실성
H(X) + H(Y) - H(X,Y): 두 엔트로피의 합에서 결합 엔트로피를 뺀 "중복분"
D_KL(...): 결합 분포가 독립 분포에서 얼마나 벗어났는지

핵심 성질

성질	내용
비음수	I(X;Y) ≥ 0
독립 조건	I(X;Y) = 0 ⟺ X와 Y 독립
대칭성	I(X;Y) = I(Y;X)
상한	I(X;Y) ≤ min(H(X), H(Y))

📢 섹션 요약 비유: 상호 정보량은 "벤 다이어그램의 겹치는 부분"이다 — X의 원과 Y의 원이 많이 겹칠수록 서로 많은 정보를 공유하고 있다.

Ⅱ. 아키텍처 및 핵심 원리

엔트로피 벤 다이어그램

     ┌──────────────────────────────────┐
     │            H(X,Y)                │
     │  ┌───────────────┐               │
     │  │    H(X)       │               │
     │  │  ┌────────────┼────────┐      │
     │  │  │  I(X;Y)   │ H(Y)   │      │
     │  │  │            │        │      │
     │  │H(X|Y)        │H(Y|X)  │      │
     │  │  └────────────┼────────┘      │
     │  └───────────────┘               │
     └──────────────────────────────────┘

I(X;Y): X와 Y 원의 교집합 (공유 정보)
H(X|Y): X 원에서 교집합을 뺀 부분 (Y를 알고도 남은 X의 불확실성)
H(X,Y): 두 원의 합집합 (전체 결합 엔트로피)

채널 용량과의 연결

채널 용량 (Channel Capacity) C는 입력 분포 P(X)를 최적화하여 얻는 최대 상호 정보량:

C = max_{P(X)} I(X;Y)   [bits/channel use]

정보를 전달하는 채널에서 I(X;Y)는 실제 전달된 정보량을 나타낸다.

조건부 상호 정보량

I(X;Y|Z) = H(X|Z) - H(X|Y,Z)

Z가 주어졌을 때 Y가 X에 대해 추가로 제공하는 정보량.

📢 섹션 요약 비유: 채널 용량은 "파이프의 최대 처리량"이다 — 어떤 입력 분포를 써야 파이프를 가장 효율적으로 사용하는지를 상호 정보량 최대화로 계산한다.

Ⅲ. 비교 및 연결

NMI (Normalized Mutual Information) — 클러스터링 평가

MI는 클러스터 수가 많아지면 인위적으로 커지므로, 정규화 상호 정보량 (NMI, Normalized Mutual Information) 을 사용:

NMI(X;Y) = 2·I(X;Y) / (H(X) + H(Y))   ∈ [0, 1]

값	해석
0	완전 독립 (클러스터 불일치)
1	완전 동일 (완벽한 클러스터 매칭)

상관계수 vs 상호 정보량

척도	측정 범위	비선형 의존성
피어슨 상관계수 r	선형 의존성만	❌ 미탐지
스피어만 상관계수 ρ	단조 의존성	⚠️ 부분적
상호 정보량 I(X;Y)	모든 의존성	✅ 탐지 가능

예: X ~ Uniform(-1,1), Y = X² → r ≈ 0이지만 I(X;Y) > 0

특성 선택 (Feature Selection) 에서의 활용

MRMR (Minimum Redundancy Maximum Relevance): 타깃과의 MI 최대화 + 특성 간 MI 최소화
Relief 계열, HSIC (Hilbert-Schmidt Independence Criterion) 의 커널 MI 확장

📢 섹션 요약 비유: 상호 정보량은 "비선형 형사"다 — 선형 상관계수가 놓치는 복잡한 연관관계도 잡아낸다, 마치 단순한 목격자 진술 외에 행동 패턴까지 분석하는 것처럼.

Ⅳ. 실무 적용 및 기술사 판단

머신러닝 특성 선택 파이프라인

원시 특성
    │
    ▼
I(특성ᵢ ; 타깃 Y) 계산
    │
    ▼
높은 MI 특성 선택        중복 특성 제거
(relevance ↑)    ───►   (redundancy ↓)
    │
    ▼
MRMR 선택된 특성 부분집합
    │
    ▼
모델 학습

실무 시나리오: 고객 이탈 예측

100개 특성 중 이탈(Y)과 MI 계산
상위 20개 선택 (I ≥ 0.05 bits)
특성 간 NMI로 중복 제거 → 최종 12개 특성
결과: 모델 정확도 유지하면서 학습 시간 40% 단축

의료 영상에서 등록 (Registration)

두 영상 I₁, I₂가 정확히 정렬되었을 때 상호 정보량 최대화:

maximize I(I₁ ; I₂) over transformation parameters

MRI-CT 다중 모달 영상 정합에 널리 사용.

📢 섹션 요약 비유: NMI 클러스터 평가는 "지도 대조"와 같다 — 예측한 클러스터 지도와 실제 정답 지도가 얼마나 일치하는지를 0~1 사이로 표현한다.

Ⅴ. 기대효과 및 결론

상호 정보량은 분포 간 의존성의 가장 범용적인 척도다. 선형 회귀의 피어슨 상관계수가 한계에 부딪힐 때, MI는 비선형·비단조 의존성을 모두 포착한다.

실무적으로 중요한 세 축:

채널 용량: I(X;Y)를 최대화하면 최적 통신 전략 도출
특성 선택: 높은 MI 특성 → 모델 성능 vs 복잡도 균형
클러스터링 평가: NMI로 레이블 없는 평가 가능

양자 정보이론에서는 양자 상호 정보량 (Quantum Mutual Information) 이 고전 MI의 대응물로, 양자 얽힘 측정에 활용된다.

📢 섹션 요약 비유: 상호 정보량은 "공통 어휘의 크기"와 같다 — 두 사람이 많은 어휘를 공유할수록 의사소통이 쉽듯, I(X;Y)가 클수록 X와 Y 사이에 공유되는 정보가 많다.

📌 관련 개념 맵

개념	수식	연결
상호 정보량 I(X;Y)	H(X) - H(X\|Y)	채널 용량, 특성 선택
NMI	2I/(H(X)+H(Y))	클러스터링 평가
채널 용량 C	max_{P(X)} I(X;Y)	섀넌 채널 한계
KL 다이버전스	D_KL(P(X,Y)\|\|P(X)P(Y))	I(X;Y)의 KL 표현
MRMR	max I(f;Y) - mean I(f;fⱼ)	최적 특성 집합 선택

📈 관련 키워드 및 발전 흐름도

[:---]
    │
    ▼
[상호 정보량 I(X;Y)]
    │
    ▼
[NMI]
    │
    ▼
[채널 용량 C]
    │
    ▼
[KL 다이버전스]
    │
    ▼
[MRMR]

이 흐름도는 :---에서 출발해 KL 다이버전스까지 이어지며, 중간 단계가 기초 개념을 실무 구조로 발전시키는 과정을 보여준다.

👶 어린이를 위한 3줄 비유 설명

상호 정보량은 "비밀 공유 개수": 친구가 많은 비밀을 나눌수록(MI 높음) 더 많은 것을 함께 알고 있다.
NMI는 "퍼즐 맞춤 점수": 내가 만든 퍼즐 조각 배열과 원본이 얼마나 같은지를 0~1로 나타낸다.
MI가 0이면 "완전한 남": 서로 아무 정보도 공유하지 않는, 완전히 독립적인 사이다.