14. 최대 우도 추정 (MLE, Maximum Likelihood Estimation)

핵심 인사이트

MLE(Maximum Likelihood Estimation, 최대 우도 추정)는 "주어진 데이터를 가장 그럴듯하게 만드는 파라미터"를 찾는 추정법으로, 로그 우도(Log-Likelihood)를 미분해 0이 되는 점을 찾는 것이 핵심이다. 피셔 정보 행렬(Fisher Information Matrix)과 크래머-라오 하한(Cramér-Rao Bound)은 MLE의 효율성을 이론적으로 보장하며, MLE는 표본이 커질수록 점근적으로 가장 효율적인 추정량이 된다. MAP(Maximum A Posteriori)는 MLE에 사전 분포(Prior Distribution)를 더한 것으로, 정규화(Regularization)와 수학적으로 동치다 — L2 정규화는 가우시안 사전, L1은 라플라스 사전에 해당한다.

Ⅰ. 우도 함수와 로그 우도

우도 함수 (Likelihood Function):

L(θ; x₁,...,xₙ) = P(x₁,...,xₙ | θ) = Π_{i=1}^{n} P(xᵢ | θ)

(데이터가 독립 동일 분포(i.i.d., Independent and Identically Distributed)임을 가정)

MLE(Maximum Likelihood Estimation):

θ_MLE = argmax_θ L(θ; x) = argmax_θ log L(θ; x)

로그 우도 (Log-Likelihood): ℓ(θ) = log L(θ) = Σ_{i=1}^{n} log P(xᵢ|θ)

로그를 취하면 곱 → 합으로 변환되어 미분이 용이해지고, 수치 안정성(underflow 방지)이 높아진다.

MLE 풀이 절차:

ℓ(θ) = Σ log P(xᵢ|θ) 작성
∂ℓ/∂θ = 0 (스코어 방정식, Score Equation) 풀기
2차 미분으로 최대값 확인

📢 섹션 요약 비유: MLE는 "지문 감식"과 같다. 현장에서 찾은 지문 데이터(X)가 주어졌을 때, "이 지문을 가장 잘 설명하는 사람(θ)"이 누구인지 찾는 과정이다.

Ⅱ. 주요 분포에서의 MLE

정규 분포 (Normal Distribution) N(μ, σ²)에서의 MLE:

ℓ(μ, σ²) = -n/2 · log(2πσ²) - 1/(2σ²) · Σ(xᵢ - μ)²

미분해 풀면:

μ̂_MLE = x̄ (표본 평균, 불편 추정량)
σ̂²_MLE = (1/n) Σ(xᵢ - x̄)² (편향 추정량)

σ̂²_MLE는 분모가 n이라 모분산을 과소 추정(편향, Bias)한다.
불편 추정량: s² = Σ(xᵢ - x̄)² / (n-1) (자유도 보정)

베르누이 분포 (Bernoulli Distribution):

ℓ(p) = Σ xᵢ log p + (1-xᵢ) log(1-p)
p̂_MLE = (1/n) Σ xᵢ = 성공 횟수/전체 횟수

포아송 분포 (Poisson Distribution):

λ̂_MLE = x̄ (표본 평균)

로그-우도 곡선과 MLE 위치:

  ℓ(θ)
   │
   │        ★ MLE (최대점)
   │      ╱   ╲
   │    ╱       ╲
   │  ╱           ╲
   │╱               ╲
───┼─────────────────────▶ θ
   0        θ_MLE
   
   ∂ℓ/∂θ = 0 인 지점이 MLE

📢 섹션 요약 비유: MLE는 "동전 던지기로 앞면 확률 추정"과 같다. 10번 던져 7번 앞면이 나왔다면, p=0.7이 그 결과를 가장 그럴듯하게 설명하는 MLE 추정값이다.

Ⅲ. 피셔 정보와 크래머-라오 하한

피셔 정보 행렬 (Fisher Information Matrix) I(θ):

I(θ) = -E [ ∂²ℓ/∂θ² ] = E [ (∂ℓ/∂θ)² ]

로그 우도의 **곡률(curvature)**을 나타낸다. I(θ)가 클수록 데이터가 θ에 대해 많은 정보를 담고 있다.

크래머-라오 하한 (Cramér-Rao Bound, CRB):

Var[θ̂] ≥ 1/I(θ)   (단일 파라미터)
Cov[θ̂] ≥ I(θ)⁻¹   (다중 파라미터)

어떤 불편 추정량도 1/I(θ)보다 작은 분산을 가질 수 없다. 이 하한에 도달하는 추정량을 **효율적 추정량(Efficient Estimator)**이라 한다.

MLE의 점근적 성질 (표본 크기 n → ∞):

일치성 (Consistency): θ̂_MLE → θ_true
점근 정규성 (Asymptotic Normality): √n(θ̂ - θ) → N(0, I(θ)⁻¹)
점근 효율성 (Asymptotic Efficiency): CRB에 점근적으로 도달

📢 섹션 요약 비유: 크래머-라오 하한은 "추정의 물리적 한계"와 같다. 아무리 좋은 온도계도 하이젠베르크 불확정성 원리를 이길 수 없듯, 어떤 추정량도 CRB 이하의 오차를 가질 수 없다.

Ⅳ. MLE vs 불편 추정량 vs MAP

구분	MLE	불편 추정량	MAP
목적	우도 최대화	편향(Bias) = 0	사후 확률 최대화
정규분포 μ	x̄ (동일)	x̄ (동일)	사전 분포에 따라 다름
정규분포 σ²	Σ/(n) (편향)	Σ/(n-1) (불편)	Σ/(n+α) (수축)
사전 분포	❌ 미사용	❌ 미사용	✅ 사용
소표본 성능	편향 가능	불편이지만 분산 클 수 있음	사전 지식 활용 가능
점근 성질	효율적	다양	사전 무시되며 MLE 수렴

MAP vs MLE의 관계:

log P(θ|X) ∝ log P(X|θ) + log P(θ)
  ↑MAP          ↑MLE         ↑사전 분포(정규화)

- 가우시안 사전 P(θ) ∝ exp(-λ||θ||₂²) → L2 정규화(Ridge)
- 라플라스 사전 P(θ) ∝ exp(-λ||θ||₁)  → L1 정규화(Lasso)

📢 섹션 요약 비유: MLE vs MAP는 "순수 관찰 vs 경험 반영"이다. 처음 보는 동전(MLE) vs 과거에 이 공장 동전들은 앞면이 살짝 많았다는 경험(MAP)을 더한 추정이다.

Ⅴ. 응용: 로지스틱 회귀와 신경망

로지스틱 회귀 (Logistic Regression):

P(y=1|x) = σ(wᵀx) = 1/(1 + exp(-wᵀx))

MLE로 파라미터 w를 추정:

ℓ(w) = Σᵢ [yᵢ log σ(wᵀxᵢ) + (1-yᵢ) log(1-σ(wᵀxᵢ))]

→ 이진 교차 엔트로피(Binary Cross-Entropy)와 동일. MLE = 교차 엔트로피 최소화.

신경망 (Neural Network) 학습:

회귀(Regression): MSE 손실 = 정규분포 가정 MLE
분류(Classification): 교차 엔트로피 손실 = 범주형 분포 MLE
딥러닝의 손실 함수 = MLE의 로그 우도 최대화 (부호 반전)

┌────────────────────────────────────────────────┐
│           MLE 응용 계층                         │
├──────────────┬──────────────┬──────────────────┤
│ 로지스틱 회귀│  신경망 학습 │   GMM 클러스터링 │
│ (교차 엔트로피)│ (손실 함수) │ (EM 알고리즘)   │
└──────────────┴──────────────┴──────────────────┘
              ↑ 모두 MLE 원리

📢 섹션 요약 비유: 딥러닝의 손실 함수 최소화는 "최대 우도 추정의 부호 반전"이다. 우도를 최대화하는 것과 손실을 최소화하는 것은 수학적으로 같은 일이며, 모든 딥러닝 학습의 통계적 기반은 MLE다.

📌 관련 개념 맵

개념	연결 개념	관계
MLE	로그 우도	최대화 대상
MLE	피셔 정보 행렬	효율성 측정
크래머-라오 하한	분산 하한	MLE 이론적 보장
MAP	MLE + 사전 분포	MLE의 베이즈 확장
L2 정규화(Ridge)	가우시안 사전 MAP	수학적 동치
L1 정규화(Lasso)	라플라스 사전 MAP	수학적 동치
교차 엔트로피	MLE (분류 문제)	동치 관계

📈 관련 키워드 및 발전 흐름도

[우도 함수 (Likelihood Function) — 데이터가 주어졌을 때 파라미터 타당성 측정]
    │
    ▼
[MLE (Maximum Likelihood Estimation) — log L(θ) 최대화, 가장 그럴듯한 파라미터 추정]
    │
    ▼
[MAP (Maximum A Posteriori) — MLE + 사전 분포(Prior) = 베이즈 정규화 추정]
    │
    ▼
[EM 알고리즘 (Expectation-Maximization) — 잠재 변수 포함 모델의 반복 MLE]
    │
    ▼
[딥러닝 손실함수 (Cross-Entropy) — NLL 최소화가 MLE 최대화와 수학적 동치]

이 흐름은 우도 함수 정의에서 MLE로 파라미터를 추정하고, 베이즈 사전 분포를 더한 MAP과 잠재 변수 모델의 EM 알고리즘으로 확장되며, 딥러닝의 크로스 엔트로피 손실이 MLE의 현대적 구현임을 보여주는 통계 추정 이론의 계보다.

👶 어린이를 위한 3줄 비유 설명

친구가 주머니에서 사탕을 꺼낼 때 빨간 것이 7번, 파란 것이 3번 나왔어 — "빨간 사탕이 70% 있겠구나" 라고 추측하는 게 MLE야! MLE는 "이 데이터를 가장 잘 설명하는 가설 고르기"야 — 마치 범인을 가장 잘 설명하는 지문을 찾는 탐정처럼. 딥러닝이 오차를 줄이는 훈련도 사실은 MLE야 — "이 데이터가 가장 자연스럽게 나올 만한 가중치를 찾는 것"이거든!