09. 정보 이론 (Information Theory)

핵심 인사이트 (3줄 요약)

본질: 정보 이론(Information Theory)은 클로드 섀넌(Claude Shannon)이 1948년 창시한 이론으로, 정보의 양을 수학적으로 정량화하고 최적의 데이터 압축·전송 한계를 규정한다.

가치: 엔트로피(Entropy)·상호 정보량(Mutual Information)·KL 발산(KL-Divergence)은 머신러닝의 의사결정 트리·VAE·GANs·Transformer 등 핵심 알고리즘의 수학적 기반이다.

판단 포인트: 엔트로피는 불확실성(무질서도)의 척도이며, 엔트로피가 낮을수록 정보를 더 효율적으로 압축할 수 있다.

Ⅰ. 개요 및 핵심 개념

1. 정보량 (Self-Information)

사건 x가 발생할 확률이 p(x)일 때:
정보량 I(x) = -log₂ p(x)  [단위: bit]

예: 동전 앞면(p=0.5) → I = -log₂(0.5) = 1 bit
    P(0.01) 사건 → I = -log₂(0.01) ≈ 6.64 bit
    → 희귀한 사건일수록 더 많은 정보를 담음

2. 엔트로피 (Shannon Entropy)

H(X) = -Σ p(xᵢ) · log₂ p(xᵢ)

예: 공정한 동전 (p=0.5, 0.5)
    H = -(0.5·log₂0.5 + 0.5·log₂0.5) = 1 bit  [최대 불확실성]

    편향된 동전 (p=0.9, 0.1)
    H ≈ 0.469 bit  [낮은 불확실성 = 예측 가능]

3. KL 발산 (Kullback-Leibler Divergence)

D_KL(P ‖ Q) = Σ P(x) · log(P(x)/Q(x))

의미: 실제 분포 P 대신 Q를 사용할 때의 추가 bit 비용
특성: 비대칭 (D_KL(P‖Q) ≠ D_KL(Q‖P))
활용: VAE의 손실 함수, LLM의 RLHF 정책 업데이트 제한

4. 교차 엔트로피 (Cross-Entropy)

H(P, Q) = H(P) + D_KL(P ‖ Q)
         = -Σ P(x) · log Q(x)

딥러닝 분류 손실 함수로 가장 많이 사용:
Loss = -Σ yᵢ · log(ŷᵢ)   (정답 y, 예측 ŷ)

📢 섹션 요약 비유: 엔트로피는 '서랍 정리 정도' 와 같습니다. 양말·셔츠·바지가 무작위로 섞인 서랍(높은 엔트로피 = 높은 불확실성)과, 종류별로 딱 정리된 서랍(낮은 엔트로피 = 예측 가능)의 차이입니다.

Ⅱ. 정보 이론의 주요 정리

섀넌의 소스 코딩 정리 (데이터 압축)

최적 압축의 한계: 평균 코드 길이 ≥ H(X)
→ 엔트로피가 낮을수록 더 많이 압축 가능
→ 허프만 코딩(Huffman Coding): 엔트로피에 근접한 최적 가변 길이 코드

섀넌의 채널 용량 정리 (데이터 전송)

채널 용량 C = max_P(X) I(X;Y)

임의로 낮은 오류율로 통신 가능한 최대 전송 속도 = 채널 용량
→ 실제 시스템(4G/5G)의 이론적 상한선이 채널 용량

상호 정보량 (Mutual Information)

I(X;Y) = H(X) + H(Y) - H(X,Y)

의미: X를 알면 Y에 대한 불확실성이 얼마나 감소하는가?
활용: 특성 선택 (Feature Selection) — 레이블과의 상호 정보량이 높은 특성 선택

Ⅲ. 비교 및 연결

개념	수식	ML 활용
엔트로피 H(X)	-Σ p log p	결정 트리 분기 기준 (Gini vs. Entropy)
교차 엔트로피	-Σ y log ŷ	분류 손실 함수
KL 발산	Σ p log(p/q)	VAE 정규화, RLHF 정책 제한
상호 정보량	H(X)+H(Y)-H(X,Y)	특성 선택, 독립성 측정

📢 섹션 요약 비유: KL 발산은 '목적지를 잘못 알고 갔을 때 추가로 걸어야 하는 거리' 입니다. 실제 지도(P)와 잘못된 지도(Q)의 차이가 KL 발산이고, 차이가 클수록 더 많이 돌아가야 합니다.

Ⅳ. 기대효과 및 결론

정보 이론은 ML/AI의 수학적 언어다. 교차 엔트로피 손실은 모든 분류 모델의 훈련 목표이고, KL 발산은 생성 모델(VAE·GAN)과 RLHF의 핵심 제약이다.

정보 이론은 "통신 이론"에서 시작했지만, "AI가 불확실성을 다루는 수학적 기반" 으로 확장된 것이다.

📌 관련 개념 맵

개념	연결 포인트
허프만 코딩	엔트로피 기반 최적 가변 길이 압축 코드
교차 엔트로피 손실	분류 모델 훈련의 표준 손실 함수
KL 발산	VAE 정규화 / RLHF PPO의 정책 업데이트 제한
결정 트리 분기 기준	정보 이득(IG) = 엔트로피 감소량
채널 코딩 (Shannon)	통신 시스템의 이론적 용량 한계

📈 관련 키워드 및 발전 흐름도

섀넌 정보 이론 (1948)
    │
    ├─► 소스 코딩: 허프만·LZW·산술 코딩 (데이터 압축)
    ├─► 채널 코딩: 채널 용량 (무선 통신 한계)
    │
    ▼
머신러닝 연결
    ├─► 교차 엔트로피 손실 → 분류 모델 훈련
    ├─► KL 발산 → VAE · GAN · RLHF
    └─► 상호 정보량 → 특성 선택 · 독립성 측정
    │
    ▼
정보 병목 이론 (IB) — 딥러닝의 정보 압축 이해

👶 어린이를 위한 3줄 비유 설명

정보 이론은 '정보의 양을 숫자로 측정하는 방법' 이에요. "내일 해가 뜬다"는 당연한 정보는 적은 비트(정보량 작음), "내일 눈이 오는 여름"은 깜짝 놀랄 정보라서 비트가 많아요!
엔트로피는 '불확실성의 크기' 예요. 동전이 공정하면(앞뒤 50/50) 엔트로피가 최대이고, 항상 앞면만 나오는 동전은 엔트로피가 0(불확실성 없음)이에요.
AI가 그림을 분류할 때 쓰는 교차 엔트로피 손실 함수도 정보 이론에서 나온 거예요. 틀릴수록 손실이 커져서 AI가 더 잘 맞추도록 훈련된답니다!