핵심 인사이트
MLE(Maximum Likelihood Estimation, 최대 우도 추정)는 "주어진 데이터를 가장 그럴듯하게 만드는 파라미터"를 찾는 추정법으로, 로그 우도(Log-Likelihood)를 미분해 0이 되는 점을 찾는 것이 핵심이다. 피셔 정보 행렬(Fisher Information Matrix)과 크래머-라오 하한(Cramér-Rao Bound)은 MLE의 효율성을 이론적으로 보장하며, MLE는 표본이 커질수록 점근적으로 가장 효율적인 추정량이 된다. MAP(Maximum A Posteriori)는 MLE에 사전 분포(Prior Distribution)를 더한 것으로, 정규화(Regularization)와 수학적으로 동치다 — L2 정규화는 가우시안 사전, L1은 라플라스 사전에 해당한다.
Ⅰ. 우도 함수와 로그 우도
우도 함수 (Likelihood Function):
L(θ; x₁,...,xₙ) = P(x₁,...,xₙ | θ) = Π_{i=1}^{n} P(xᵢ | θ)
(데이터가 독립 동일 분포(i.i.d., Independent and Identically Distributed)임을 가정)
MLE(Maximum Likelihood Estimation):
θ_MLE = argmax_θ L(θ; x) = argmax_θ log L(θ; x)
로그 우도 (Log-Likelihood): ℓ(θ) = log L(θ) = Σ_{i=1}^{n} log P(xᵢ|θ)
로그를 취하면 곱 → 합으로 변환되어 미분이 용이해지고, 수치 안정성(underflow 방지)이 높아진다.
MLE 풀이 절차:
- ℓ(θ) = Σ log P(xᵢ|θ) 작성
- ∂ℓ/∂θ = 0 (스코어 방정식, Score Equation) 풀기
- 2차 미분으로 최대값 확인
📢 섹션 요약 비유: MLE는 "지문 감식"과 같다. 현장에서 찾은 지문 데이터(X)가 주어졌을 때, "이 지문을 가장 잘 설명하는 사람(θ)"이 누구인지 찾는 과정이다.
Ⅱ. 주요 분포에서의 MLE
정규 분포 (Normal Distribution) N(μ, σ²)에서의 MLE:
ℓ(μ, σ²) = -n/2 · log(2πσ²) - 1/(2σ²) · Σ(xᵢ - μ)²
미분해 풀면:
- μ̂_MLE = x̄ (표본 평균, 불편 추정량)
- σ̂²_MLE = (1/n) Σ(xᵢ - x̄)² (편향 추정량)
σ̂²_MLE는 분모가 n이라 모분산을 과소 추정(편향, Bias)한다.
불편 추정량: s² = Σ(xᵢ - x̄)² / (n-1) (자유도 보정)
베르누이 분포 (Bernoulli Distribution):
- ℓ(p) = Σ xᵢ log p + (1-xᵢ) log(1-p)
- p̂_MLE = (1/n) Σ xᵢ = 성공 횟수/전체 횟수
포아송 분포 (Poisson Distribution):
- λ̂_MLE = x̄ (표본 평균)
로그-우도 곡선과 MLE 위치:
ℓ(θ)
│
│ ★ MLE (최대점)
│ ╱ ╲
│ ╱ ╲
│ ╱ ╲
│╱ ╲
───┼─────────────────────▶ θ
0 θ_MLE
∂ℓ/∂θ = 0 인 지점이 MLE
📢 섹션 요약 비유: MLE는 "동전 던지기로 앞면 확률 추정"과 같다. 10번 던져 7번 앞면이 나왔다면, p=0.7이 그 결과를 가장 그럴듯하게 설명하는 MLE 추정값이다.
Ⅲ. 피셔 정보와 크래머-라오 하한
피셔 정보 행렬 (Fisher Information Matrix) I(θ):
I(θ) = -E [ ∂²ℓ/∂θ² ] = E [ (∂ℓ/∂θ)² ]
로그 우도의 **곡률(curvature)**을 나타낸다. I(θ)가 클수록 데이터가 θ에 대해 많은 정보를 담고 있다.
크래머-라오 하한 (Cramér-Rao Bound, CRB):
Var[θ̂] ≥ 1/I(θ) (단일 파라미터)
Cov[θ̂] ≥ I(θ)⁻¹ (다중 파라미터)
어떤 불편 추정량도 1/I(θ)보다 작은 분산을 가질 수 없다. 이 하한에 도달하는 추정량을 **효율적 추정량(Efficient Estimator)**이라 한다.
MLE의 점근적 성질 (표본 크기 n → ∞):
- 일치성 (Consistency): θ̂_MLE → θ_true
- 점근 정규성 (Asymptotic Normality): √n(θ̂ - θ) → N(0, I(θ)⁻¹)
- 점근 효율성 (Asymptotic Efficiency): CRB에 점근적으로 도달
📢 섹션 요약 비유: 크래머-라오 하한은 "추정의 물리적 한계"와 같다. 아무리 좋은 온도계도 하이젠베르크 불확정성 원리를 이길 수 없듯, 어떤 추정량도 CRB 이하의 오차를 가질 수 없다.
Ⅳ. MLE vs 불편 추정량 vs MAP
| 구분 | MLE | 불편 추정량 | MAP |
|---|---|---|---|
| 목적 | 우도 최대화 | 편향(Bias) = 0 | 사후 확률 최대화 |
| 정규분포 μ | x̄ (동일) | x̄ (동일) | 사전 분포에 따라 다름 |
| 정규분포 σ² | Σ/(n) (편향) | Σ/(n-1) (불편) | Σ/(n+α) (수축) |
| 사전 분포 | ❌ 미사용 | ❌ 미사용 | ✅ 사용 |
| 소표본 성능 | 편향 가능 | 불편이지만 분산 클 수 있음 | 사전 지식 활용 가능 |
| 점근 성질 | 효율적 | 다양 | 사전 무시되며 MLE 수렴 |
MAP vs MLE의 관계:
log P(θ|X) ∝ log P(X|θ) + log P(θ)
↑MAP ↑MLE ↑사전 분포(정규화)
- 가우시안 사전 P(θ) ∝ exp(-λ||θ||₂²) → L2 정규화(Ridge)
- 라플라스 사전 P(θ) ∝ exp(-λ||θ||₁) → L1 정규화(Lasso)
📢 섹션 요약 비유: MLE vs MAP는 "순수 관찰 vs 경험 반영"이다. 처음 보는 동전(MLE) vs 과거에 이 공장 동전들은 앞면이 살짝 많았다는 경험(MAP)을 더한 추정이다.
Ⅴ. 응용: 로지스틱 회귀와 신경망
로지스틱 회귀 (Logistic Regression):
P(y=1|x) = σ(wᵀx) = 1/(1 + exp(-wᵀx))
MLE로 파라미터 w를 추정:
ℓ(w) = Σᵢ [yᵢ log σ(wᵀxᵢ) + (1-yᵢ) log(1-σ(wᵀxᵢ))]
→ 이진 교차 엔트로피(Binary Cross-Entropy)와 동일. MLE = 교차 엔트로피 최소화.
신경망 (Neural Network) 학습:
- 회귀(Regression): MSE 손실 = 정규분포 가정 MLE
- 분류(Classification): 교차 엔트로피 손실 = 범주형 분포 MLE
- 딥러닝의 손실 함수 = MLE의 로그 우도 최대화 (부호 반전)
┌────────────────────────────────────────────────┐
│ MLE 응용 계층 │
├──────────────┬──────────────┬──────────────────┤
│ 로지스틱 회귀│ 신경망 학습 │ GMM 클러스터링 │
│ (교차 엔트로피)│ (손실 함수) │ (EM 알고리즘) │
└──────────────┴──────────────┴──────────────────┘
↑ 모두 MLE 원리
📢 섹션 요약 비유: 딥러닝의 손실 함수 최소화는 "최대 우도 추정의 부호 반전"이다. 우도를 최대화하는 것과 손실을 최소화하는 것은 수학적으로 같은 일이며, 모든 딥러닝 학습의 통계적 기반은 MLE다.
📌 관련 개념 맵
| 개념 | 연결 개념 | 관계 |
|---|---|---|
| MLE | 로그 우도 | 최대화 대상 |
| MLE | 피셔 정보 행렬 | 효율성 측정 |
| 크래머-라오 하한 | 분산 하한 | MLE 이론적 보장 |
| MAP | MLE + 사전 분포 | MLE의 베이즈 확장 |
| L2 정규화(Ridge) | 가우시안 사전 MAP | 수학적 동치 |
| L1 정규화(Lasso) | 라플라스 사전 MAP | 수학적 동치 |
| 교차 엔트로피 | MLE (분류 문제) | 동치 관계 |
📈 관련 키워드 및 발전 흐름도
[우도 함수 (Likelihood Function) — 데이터가 주어졌을 때 파라미터 타당성 측정]
│
▼
[MLE (Maximum Likelihood Estimation) — log L(θ) 최대화, 가장 그럴듯한 파라미터 추정]
│
▼
[MAP (Maximum A Posteriori) — MLE + 사전 분포(Prior) = 베이즈 정규화 추정]
│
▼
[EM 알고리즘 (Expectation-Maximization) — 잠재 변수 포함 모델의 반복 MLE]
│
▼
[딥러닝 손실함수 (Cross-Entropy) — NLL 최소화가 MLE 최대화와 수학적 동치]
이 흐름은 우도 함수 정의에서 MLE로 파라미터를 추정하고, 베이즈 사전 분포를 더한 MAP과 잠재 변수 모델의 EM 알고리즘으로 확장되며, 딥러닝의 크로스 엔트로피 손실이 MLE의 현대적 구현임을 보여주는 통계 추정 이론의 계보다.
👶 어린이를 위한 3줄 비유 설명
친구가 주머니에서 사탕을 꺼낼 때 빨간 것이 7번, 파란 것이 3번 나왔어 — "빨간 사탕이 70% 있겠구나" 라고 추측하는 게 MLE야! MLE는 "이 데이터를 가장 잘 설명하는 가설 고르기"야 — 마치 범인을 가장 잘 설명하는 지문을 찾는 탐정처럼. 딥러닝이 오차를 줄이는 훈련도 사실은 MLE야 — "이 데이터가 가장 자연스럽게 나올 만한 가중치를 찾는 것"이거든!