핵심 인사이트 (3줄 요약)
- 본질: 섀넌 엔트로피 H(X)는 확률변수 X의 평균 불확실성 — 결과를 모를 때 평균적으로 몇 비트가 필요한지를 정량화한다.
- 가치: H(X)는 압축 하한(평균 코드 길이 ≥ H), 의사결정 트리의 분기 기준(정보이득), 물리적 엔트로피와의 수학적 동형성을 동시에 가진다.
- 판단 포인트: 분포가 균등할수록 엔트로피 최대, 결정론적일수록 0 — 이 단순한 사실이 ML 손실함수 설계와 데이터 압축 이론 전체를 관통한다.
Ⅰ. 개요 및 필요성
섀넌 엔트로피 (Shannon Entropy) H(X)는 확률변수 X의 평균 자기정보량이다.
H(X) = -Σ_{x∈X} p(x)·log₂p(x) [단위: bit]
정의에서 0·log₂0 = 0으로 처리한다 (극한값으로 정의).
직관적 이해
- 확실한 결과 (p=1인 사건만 존재): H = 0 — 아무 정보도 필요 없음
- 동전 던지기 (p=0.5, 0.5): H = 1 bit — "앞/뒤" 하나 물어보면 충분
- 공정한 6면체 주사위: H = log₂6 ≈ 2.585 bits
엔트로피 한계
0 ≤ H(X) ≤ log₂|X|
- 하한 0: 결정론적 분포
- 상한 log₂|X|: 균등 분포일 때 최대 (최대 불확실성)
📢 섹션 요약 비유: 엔트로피는 "상자 안 결과의 예측 불가능성 온도계"다 — 온도가 높을수록(엔트로피 클수록) 결과가 더 다양하고, 낮을수록(0에 가까울수록) 결과가 빤히 보인다.
Ⅱ. 아키텍처 및 핵심 원리
엔트로피 vs 확률 그래프 (이진 분포)
이진 확률변수 X ∈ {0, 1}, P(X=1) = p일 때:
H(p)
1.0 │ *
│ * *
0.8 │ * *
│ * *
0.6 │* *
│ *
0.4 │ *
0.2 │ *
0 └─────────────────────────►
0 0.1 0.3 0.5 0.7 0.9 1.0 p
p = 0.5일 때 H = 1 (최대), p → 0 또는 p → 1일 때 H → 0.
결합 엔트로피와 조건부 엔트로피
| 개념 | 수식 | 의미 |
|---|---|---|
| 결합 엔트로피 (Joint Entropy) | H(X,Y) = -Σ p(x,y)·log₂p(x,y) | X와 Y를 동시에 기술하는 데 필요한 비트 수 |
| 조건부 엔트로피 (Conditional Entropy) | H(X|Y) = H(X,Y) - H(Y) | Y를 알 때 X에 대한 남은 불확실성 |
| 연쇄 법칙 (Chain Rule) | H(X,Y) = H(X) + H(X|Y) | 결합 = 하나 + 나머지 |
연쇄 법칙 확장
H(X₁, X₂, ..., Xₙ) = Σᵢ H(Xᵢ | X₁,...,Xᵢ₋₁)
정보이득 (Information Gain) — 의사결정 트리
IG(A) = H(부모 노드) - Σ_v [|Sv|/|S| · H(Sv)]
- ID3 (Iterative Dichotomiser 3) 알고리즘이 정보이득을 기준으로 분기 속성 선택
- C4.5는 분기 수가 많은 속성 편향을 막기 위해 이득 비율 (Gain Ratio) 사용
분기 전: [++++++----] H = 1.0 bit
분기 속성 A
/ \
[+++---] [++--]
H = 1.0 H = 1.0
IG = 1.0 - (6/10·1.0 + 4/10·1.0) = 0.0 ← 정보이득 없음
분기 속성 B
/ \
[+++++] [-----]
H = 0.0 H = 0.0
IG = 1.0 - (5/10·0.0 + 5/10·0.0) = 1.0 ← 완벽 분리
📢 섹션 요약 비유: 정보이득은 "정렬 효과"와 같다 — 분기 후 양쪽이 더 순수하게 나뉠수록(정보이득 클수록) 더 좋은 분기 기준이다.
Ⅲ. 비교 및 연결
다양한 엔트로피 종류 비교
| 종류 | 수식 | 용도 |
|---|---|---|
| 섀넌 엔트로피 | H(X) = -Σ p log₂p | 정보량 측정, 압축 |
| 크로스 엔트로피 (Cross-Entropy) | H(P,Q) = -Σ P log Q | 분류 손실함수 |
| KL 다이버전스 | D_KL(P||Q) = H(P,Q) - H(P) | 두 분포 차이 |
| 조건부 엔트로피 | H(X|Y) = H(X,Y) - H(Y) | 의사결정 트리 |
| 상호 정보량 | I(X;Y) = H(X) - H(X|Y) | 특성 선택, 채널 용량 |
엔트로피와 물리학 연결
볼츠만 (Boltzmann) 엔트로피: S = k_B · ln(W)
섀넌 엔트로피: H = -Σ p_i · log p_i
같은 수학 구조 — 섀넌이 의도적으로 폰 노이만 (von Neumann)의 조언을 따라 같은 이름을 채택했다.
📢 섹션 요약 비유: 섀넌 엔트로피와 볼츠만 엔트로피는 "쌍둥이"다 — 열역학은 분자 배열의 무질서를, 정보이론은 메시지의 불확실성을 같은 수식으로 잰다.
Ⅳ. 실무 적용 및 기술사 판단
머신러닝에서의 엔트로피 활용
| 알고리즘 | 엔트로피 역할 |
|---|---|
| ID3, C4.5 의사결정 트리 | 분기 기준: 정보이득 최대화 |
| 랜덤 포레스트 | 각 트리의 분기 기준 |
| 최대 엔트로피 분류기 | 제약 조건 하 최대 엔트로피 분포 추정 |
| 자연어처리 언어모델 | 퍼플렉시티 (Perplexity) = 2^H |
퍼플렉시티 (Perplexity) — 언어모델 평가
PP(X) = 2^{H(X)} = 2^{-1/N · Σlog₂p(xᵢ)}
- 언어모델이 얼마나 "헷갈려 하는가"를 나타내는 지표
- PP=1이면 완벽 예측, PP=|V|(어휘 크기)이면 완전 무작위
압축과의 연결
| 코딩 방법 | 평균 코드 길이 L̄ |
|---|---|
| 이론적 최솟값 | H(X) ≤ L̄ |
| 허프만 코드 | H(X) ≤ L̄ < H(X) + 1 |
| 산술 부호화 | H(X) ≤ L̄ < H(X) + ε |
📢 섹션 요약 비유: 엔트로피는 "최소 포장재 무게"와 같다 — 아무리 효율적으로 포장해도 내용물(정보)의 불확실성만큼의 포장지(비트)는 반드시 필요하다.
Ⅴ. 기대효과 및 결론
섀넌 엔트로피는 다음 세 가지를 동시에 달성한다:
- 정량화: 불확실성을 수치로 표현 → 알고리즘 비교 가능
- 하한 제시: 압축 불가능한 최솟값을 이론적으로 보장
- 설계 기준: 머신러닝 손실함수, 특성 선택 기준 제공
균등 분포가 최대 엔트로피를 가진다는 사실은 최대 엔트로피 원리 (Maximum Entropy Principle) — "사전 지식이 없을 때 가장 공정한 분포는 균등 분포"— 의 기초다. 이는 베이즈 추론과 정보이론의 교차점을 형성한다.
📢 섹션 요약 비유: 엔트로피 최대화 원리는 "공정한 재판관"과 같다 — 증거(제약 조건)가 없으면 모든 가능성에 동등한 확률을 부여하는 것이 가장 편향 없는 판단이다.
📌 관련 개념 맵
| 개념 | 연결 개념 | 비고 |
|---|---|---|
| 섀넌 엔트로피 H(X) | 자기정보, 크로스 엔트로피 | 기본 불확실성 척도 |
| 결합 엔트로피 H(X,Y) | 조건부 엔트로피 H(X|Y) | 연쇄 법칙으로 분해 |
| 정보이득 IG | 의사결정 트리 (ID3, C4.5) | 분기 속성 선택 기준 |
| 퍼플렉시티 PP | 언어 모델 평가 | PP = 2^H |
| 최대 엔트로피 원리 | 베이즈 추론, 정규화 분포 | 균등분포가 최대 |
📈 관련 키워드 및 발전 흐름도
[섀넌 엔트로피 H(X)]
│
▼
[결합 엔트로피 H(X,Y)]
│
▼
[정보이득 IG]
│
▼
[퍼플렉시티 PP]
│
▼
[최대 엔트로피 원리]
이 흐름도는 섀넌 엔트로피 H(X)에서 출발해 최대 엔트로피 원리까지 이어지며, 중간 단계가 기초 개념을 실무 구조로 발전시키는 과정을 보여준다.
👶 어린이를 위한 3줄 비유 설명
- 엔트로피는 "예측의 어려움": 주사위 결과는 예측이 어렵고(엔트로피 높음), 연속으로 같은 값이 나오는 불공정한 주사위는 예측이 쉽다(엔트로피 낮음).
- 최대 엔트로피는 "공정한 주사위": 모든 면이 나올 확률이 똑같을 때 가장 많은 정보를 얻는다.
- 정보이득은 "좋은 질문 찾기": 퀴즈에서 최대한 많은 가능성을 한 번에 줄이는 질문이 좋은 질문이듯, 정보이득이 큰 속성이 좋은 분기 기준이다.