핵심 인사이트 (3줄 요약)
- 본질: 상호 정보량 I(X;Y)는 X와 Y가 공유하는 정보의 양 — Y를 알면 X의 불확실성이 얼마나 줄어드는지를 측정한다.
- 가치: I(X;Y) = 0이면 완전 독립, 클수록 강한 상관 — 비선형 의존성까지 포착하며 피어슨 상관계수로 잡을 수 없는 관계도 발견한다.
- 판단 포인트: 채널 용량 C = max I(X;Y), ML 특성 선택, 클러스터링 평가(NMI) — 실무 세 곳에서 동시에 쓰이므로 수식과 해석을 함께 암기하라.
Ⅰ. 개요 및 필요성
두 확률변수 X, Y가 얼마나 서로 의존하는지를 정량화하는 척도가 상호 정보량 (Mutual Information, MI) 이다.
I(X;Y) = H(X) - H(X|Y)
= H(Y) - H(Y|X)
= H(X) + H(Y) - H(X,Y)
= D_KL(P(X,Y) || P(X)P(Y))
네 가지 동치 표현은 각각 다른 직관을 제공한다:
- H(X) - H(X|Y): Y를 알고 나서 줄어든 X의 불확실성
- H(X) + H(Y) - H(X,Y): 두 엔트로피의 합에서 결합 엔트로피를 뺀 "중복분"
- D_KL(...): 결합 분포가 독립 분포에서 얼마나 벗어났는지
핵심 성질
| 성질 | 내용 |
|---|---|
| 비음수 | I(X;Y) ≥ 0 |
| 독립 조건 | I(X;Y) = 0 ⟺ X와 Y 독립 |
| 대칭성 | I(X;Y) = I(Y;X) |
| 상한 | I(X;Y) ≤ min(H(X), H(Y)) |
📢 섹션 요약 비유: 상호 정보량은 "벤 다이어그램의 겹치는 부분"이다 — X의 원과 Y의 원이 많이 겹칠수록 서로 많은 정보를 공유하고 있다.
Ⅱ. 아키텍처 및 핵심 원리
엔트로피 벤 다이어그램
┌──────────────────────────────────┐
│ H(X,Y) │
│ ┌───────────────┐ │
│ │ H(X) │ │
│ │ ┌────────────┼────────┐ │
│ │ │ I(X;Y) │ H(Y) │ │
│ │ │ │ │ │
│ │H(X|Y) │H(Y|X) │ │
│ │ └────────────┼────────┘ │
│ └───────────────┘ │
└──────────────────────────────────┘
- I(X;Y): X와 Y 원의 교집합 (공유 정보)
- H(X|Y): X 원에서 교집합을 뺀 부분 (Y를 알고도 남은 X의 불확실성)
- H(X,Y): 두 원의 합집합 (전체 결합 엔트로피)
채널 용량과의 연결
채널 용량 (Channel Capacity) C는 입력 분포 P(X)를 최적화하여 얻는 최대 상호 정보량:
C = max_{P(X)} I(X;Y) [bits/channel use]
정보를 전달하는 채널에서 I(X;Y)는 실제 전달된 정보량을 나타낸다.
조건부 상호 정보량
I(X;Y|Z) = H(X|Z) - H(X|Y,Z)
Z가 주어졌을 때 Y가 X에 대해 추가로 제공하는 정보량.
📢 섹션 요약 비유: 채널 용량은 "파이프의 최대 처리량"이다 — 어떤 입력 분포를 써야 파이프를 가장 효율적으로 사용하는지를 상호 정보량 최대화로 계산한다.
Ⅲ. 비교 및 연결
NMI (Normalized Mutual Information) — 클러스터링 평가
MI는 클러스터 수가 많아지면 인위적으로 커지므로, 정규화 상호 정보량 (NMI, Normalized Mutual Information) 을 사용:
NMI(X;Y) = 2·I(X;Y) / (H(X) + H(Y)) ∈ [0, 1]
| 값 | 해석 |
|---|---|
| 0 | 완전 독립 (클러스터 불일치) |
| 1 | 완전 동일 (완벽한 클러스터 매칭) |
상관계수 vs 상호 정보량
| 척도 | 측정 범위 | 비선형 의존성 |
|---|---|---|
| 피어슨 상관계수 r | 선형 의존성만 | ❌ 미탐지 |
| 스피어만 상관계수 ρ | 단조 의존성 | ⚠️ 부분적 |
| 상호 정보량 I(X;Y) | 모든 의존성 | ✅ 탐지 가능 |
예: X ~ Uniform(-1,1), Y = X² → r ≈ 0이지만 I(X;Y) > 0
특성 선택 (Feature Selection) 에서의 활용
- MRMR (Minimum Redundancy Maximum Relevance): 타깃과의 MI 최대화 + 특성 간 MI 최소화
- Relief 계열, HSIC (Hilbert-Schmidt Independence Criterion) 의 커널 MI 확장
📢 섹션 요약 비유: 상호 정보량은 "비선형 형사"다 — 선형 상관계수가 놓치는 복잡한 연관관계도 잡아낸다, 마치 단순한 목격자 진술 외에 행동 패턴까지 분석하는 것처럼.
Ⅳ. 실무 적용 및 기술사 판단
머신러닝 특성 선택 파이프라인
원시 특성
│
▼
I(특성ᵢ ; 타깃 Y) 계산
│
▼
높은 MI 특성 선택 중복 특성 제거
(relevance ↑) ───► (redundancy ↓)
│
▼
MRMR 선택된 특성 부분집합
│
▼
모델 학습
실무 시나리오: 고객 이탈 예측
- 100개 특성 중 이탈(Y)과 MI 계산
- 상위 20개 선택 (I ≥ 0.05 bits)
- 특성 간 NMI로 중복 제거 → 최종 12개 특성
- 결과: 모델 정확도 유지하면서 학습 시간 40% 단축
의료 영상에서 등록 (Registration)
두 영상 I₁, I₂가 정확히 정렬되었을 때 상호 정보량 최대화:
maximize I(I₁ ; I₂) over transformation parameters
MRI-CT 다중 모달 영상 정합에 널리 사용.
📢 섹션 요약 비유: NMI 클러스터 평가는 "지도 대조"와 같다 — 예측한 클러스터 지도와 실제 정답 지도가 얼마나 일치하는지를 0~1 사이로 표현한다.
Ⅴ. 기대효과 및 결론
상호 정보량은 분포 간 의존성의 가장 범용적인 척도다. 선형 회귀의 피어슨 상관계수가 한계에 부딪힐 때, MI는 비선형·비단조 의존성을 모두 포착한다.
실무적으로 중요한 세 축:
- 채널 용량: I(X;Y)를 최대화하면 최적 통신 전략 도출
- 특성 선택: 높은 MI 특성 → 모델 성능 vs 복잡도 균형
- 클러스터링 평가: NMI로 레이블 없는 평가 가능
양자 정보이론에서는 양자 상호 정보량 (Quantum Mutual Information) 이 고전 MI의 대응물로, 양자 얽힘 측정에 활용된다.
📢 섹션 요약 비유: 상호 정보량은 "공통 어휘의 크기"와 같다 — 두 사람이 많은 어휘를 공유할수록 의사소통이 쉽듯, I(X;Y)가 클수록 X와 Y 사이에 공유되는 정보가 많다.
📌 관련 개념 맵
| 개념 | 수식 | 연결 |
|---|---|---|
| 상호 정보량 I(X;Y) | H(X) - H(X|Y) | 채널 용량, 특성 선택 |
| NMI | 2I/(H(X)+H(Y)) | 클러스터링 평가 |
| 채널 용량 C | max_{P(X)} I(X;Y) | 섀넌 채널 한계 |
| KL 다이버전스 | D_KL(P(X,Y)||P(X)P(Y)) | I(X;Y)의 KL 표현 |
| MRMR | max I(f;Y) - mean I(f;fⱼ) | 최적 특성 집합 선택 |
📈 관련 키워드 및 발전 흐름도
[:---]
│
▼
[상호 정보량 I(X;Y)]
│
▼
[NMI]
│
▼
[채널 용량 C]
│
▼
[KL 다이버전스]
│
▼
[MRMR]
이 흐름도는 :---에서 출발해 KL 다이버전스까지 이어지며, 중간 단계가 기초 개념을 실무 구조로 발전시키는 과정을 보여준다.
👶 어린이를 위한 3줄 비유 설명
- 상호 정보량은 "비밀 공유 개수": 친구가 많은 비밀을 나눌수록(MI 높음) 더 많은 것을 함께 알고 있다.
- NMI는 "퍼즐 맞춤 점수": 내가 만든 퍼즐 조각 배열과 원본이 얼마나 같은지를 0~1로 나타낸다.
- MI가 0이면 "완전한 남": 서로 아무 정보도 공유하지 않는, 완전히 독립적인 사이다.