2. 엔트로피 (Shannon Entropy) — H(X) = -Σ p·log₂p

핵심 인사이트 (3줄 요약)

본질: 섀넌 엔트로피 H(X)는 확률변수 X의 평균 불확실성 — 결과를 모를 때 평균적으로 몇 비트가 필요한지를 정량화한다.

가치: H(X)는 압축 하한(평균 코드 길이 ≥ H), 의사결정 트리의 분기 기준(정보이득), 물리적 엔트로피와의 수학적 동형성을 동시에 가진다.

판단 포인트: 분포가 균등할수록 엔트로피 최대, 결정론적일수록 0 — 이 단순한 사실이 ML 손실함수 설계와 데이터 압축 이론 전체를 관통한다.

Ⅰ. 개요 및 필요성

섀넌 엔트로피 (Shannon Entropy) H(X)는 확률변수 X의 평균 자기정보량이다.

H(X) = -Σ_{x∈X} p(x)·log₂p(x)   [단위: bit]

정의에서 0·log₂0 = 0으로 처리한다 (극한값으로 정의).

직관적 이해

확실한 결과 (p=1인 사건만 존재): H = 0 — 아무 정보도 필요 없음
동전 던지기 (p=0.5, 0.5): H = 1 bit — "앞/뒤" 하나 물어보면 충분
공정한 6면체 주사위: H = log₂6 ≈ 2.585 bits

엔트로피 한계

0 ≤ H(X) ≤ log₂|X|

하한 0: 결정론적 분포
상한 log₂|X|: 균등 분포일 때 최대 (최대 불확실성)

📢 섹션 요약 비유: 엔트로피는 "상자 안 결과의 예측 불가능성 온도계"다 — 온도가 높을수록(엔트로피 클수록) 결과가 더 다양하고, 낮을수록(0에 가까울수록) 결과가 빤히 보인다.

Ⅱ. 아키텍처 및 핵심 원리

엔트로피 vs 확률 그래프 (이진 분포)

이진 확률변수 X ∈ {0, 1}, P(X=1) = p일 때:

H(p)
1.0 │        *
    │      *   *
0.8 │    *       *
    │  *           *
0.6 │*               *
    │                  *
0.4 │                    *
0.2 │                      *
  0 └─────────────────────────►
  0  0.1  0.3  0.5  0.7  0.9  1.0  p

p = 0.5일 때 H = 1 (최대), p → 0 또는 p → 1일 때 H → 0.

결합 엔트로피와 조건부 엔트로피

개념	수식	의미
결합 엔트로피 (Joint Entropy)	H(X,Y) = -Σ p(x,y)·log₂p(x,y)	X와 Y를 동시에 기술하는 데 필요한 비트 수
조건부 엔트로피 (Conditional Entropy)	H(X\|Y) = H(X,Y) - H(Y)	Y를 알 때 X에 대한 남은 불확실성
연쇄 법칙 (Chain Rule)	H(X,Y) = H(X) + H(X\|Y)	결합 = 하나 + 나머지

연쇄 법칙 확장

H(X₁, X₂, ..., Xₙ) = Σᵢ H(Xᵢ | X₁,...,Xᵢ₋₁)

정보이득 (Information Gain) — 의사결정 트리

IG(A) = H(부모 노드) - Σ_v [|Sv|/|S| · H(Sv)]

ID3 (Iterative Dichotomiser 3) 알고리즘이 정보이득을 기준으로 분기 속성 선택
C4.5는 분기 수가 많은 속성 편향을 막기 위해 이득 비율 (Gain Ratio) 사용

분기 전:   [++++++----]     H = 1.0 bit
           분기 속성 A
          /             \
[+++---]               [++--]
H = 1.0                H = 1.0
IG = 1.0 - (6/10·1.0 + 4/10·1.0) = 0.0   ← 정보이득 없음

분기 속성 B
          /             \
[+++++]               [-----]
H = 0.0                H = 0.0
IG = 1.0 - (5/10·0.0 + 5/10·0.0) = 1.0   ← 완벽 분리

📢 섹션 요약 비유: 정보이득은 "정렬 효과"와 같다 — 분기 후 양쪽이 더 순수하게 나뉠수록(정보이득 클수록) 더 좋은 분기 기준이다.

Ⅲ. 비교 및 연결

다양한 엔트로피 종류 비교

종류	수식	용도
섀넌 엔트로피	H(X) = -Σ p log₂p	정보량 측정, 압축
크로스 엔트로피 (Cross-Entropy)	H(P,Q) = -Σ P log Q	분류 손실함수
KL 다이버전스	D_KL(P\|\|Q) = H(P,Q) - H(P)	두 분포 차이
조건부 엔트로피	H(X\|Y) = H(X,Y) - H(Y)	의사결정 트리
상호 정보량	I(X;Y) = H(X) - H(X\|Y)	특성 선택, 채널 용량

엔트로피와 물리학 연결

볼츠만 (Boltzmann) 엔트로피: S = k_B · ln(W)

섀넌 엔트로피: H = -Σ p_i · log p_i

같은 수학 구조 — 섀넌이 의도적으로 폰 노이만 (von Neumann)의 조언을 따라 같은 이름을 채택했다.

📢 섹션 요약 비유: 섀넌 엔트로피와 볼츠만 엔트로피는 "쌍둥이"다 — 열역학은 분자 배열의 무질서를, 정보이론은 메시지의 불확실성을 같은 수식으로 잰다.

Ⅳ. 실무 적용 및 기술사 판단

머신러닝에서의 엔트로피 활용

알고리즘	엔트로피 역할
ID3, C4.5 의사결정 트리	분기 기준: 정보이득 최대화
랜덤 포레스트	각 트리의 분기 기준
최대 엔트로피 분류기	제약 조건 하 최대 엔트로피 분포 추정
자연어처리 언어모델	퍼플렉시티 (Perplexity) = 2^H

퍼플렉시티 (Perplexity) — 언어모델 평가

PP(X) = 2^{H(X)} = 2^{-1/N · Σlog₂p(xᵢ)}

언어모델이 얼마나 "헷갈려 하는가"를 나타내는 지표
PP=1이면 완벽 예측, PP=|V|(어휘 크기)이면 완전 무작위

압축과의 연결

코딩 방법	평균 코드 길이 L̄
이론적 최솟값	H(X) ≤ L̄
허프만 코드	H(X) ≤ L̄ < H(X) + 1
산술 부호화	H(X) ≤ L̄ < H(X) + ε

📢 섹션 요약 비유: 엔트로피는 "최소 포장재 무게"와 같다 — 아무리 효율적으로 포장해도 내용물(정보)의 불확실성만큼의 포장지(비트)는 반드시 필요하다.

Ⅴ. 기대효과 및 결론

섀넌 엔트로피는 다음 세 가지를 동시에 달성한다:

정량화: 불확실성을 수치로 표현 → 알고리즘 비교 가능
하한 제시: 압축 불가능한 최솟값을 이론적으로 보장
설계 기준: 머신러닝 손실함수, 특성 선택 기준 제공

균등 분포가 최대 엔트로피를 가진다는 사실은 최대 엔트로피 원리 (Maximum Entropy Principle) — "사전 지식이 없을 때 가장 공정한 분포는 균등 분포"— 의 기초다. 이는 베이즈 추론과 정보이론의 교차점을 형성한다.

📢 섹션 요약 비유: 엔트로피 최대화 원리는 "공정한 재판관"과 같다 — 증거(제약 조건)가 없으면 모든 가능성에 동등한 확률을 부여하는 것이 가장 편향 없는 판단이다.

📌 관련 개념 맵

개념	연결 개념	비고
섀넌 엔트로피 H(X)	자기정보, 크로스 엔트로피	기본 불확실성 척도
결합 엔트로피 H(X,Y)	조건부 엔트로피 H(X\|Y)	연쇄 법칙으로 분해
정보이득 IG	의사결정 트리 (ID3, C4.5)	분기 속성 선택 기준
퍼플렉시티 PP	언어 모델 평가	PP = 2^H
최대 엔트로피 원리	베이즈 추론, 정규화 분포	균등분포가 최대

📈 관련 키워드 및 발전 흐름도

[섀넌 엔트로피 H(X)]
    │
    ▼
[결합 엔트로피 H(X,Y)]
    │
    ▼
[정보이득 IG]
    │
    ▼
[퍼플렉시티 PP]
    │
    ▼
[최대 엔트로피 원리]

이 흐름도는 섀넌 엔트로피 H(X)에서 출발해 최대 엔트로피 원리까지 이어지며, 중간 단계가 기초 개념을 실무 구조로 발전시키는 과정을 보여준다.

👶 어린이를 위한 3줄 비유 설명

엔트로피는 "예측의 어려움": 주사위 결과는 예측이 어렵고(엔트로피 높음), 연속으로 같은 값이 나오는 불공정한 주사위는 예측이 쉽다(엔트로피 낮음).
최대 엔트로피는 "공정한 주사위": 모든 면이 나올 확률이 똑같을 때 가장 많은 정보를 얻는다.
정보이득은 "좋은 질문 찾기": 퀴즈에서 최대한 많은 가능성을 한 번에 줄이는 질문이 좋은 질문이듯, 정보이득이 큰 속성이 좋은 분기 기준이다.