핵심 인사이트
베이즈 추정(Bayesian Estimation)의 핵심은 "데이터를 보기 전 사전 지식(Prior)과, 데이터를 본 후 증거(Likelihood)를 곱해 사후 믿음(Posterior)을 만드는" 지식 갱신 프레임워크다. MAP(Maximum A Posteriori)는 사후 분포의 최빈값(Mode)을 추정량으로 사용하며, 이는 정규화된 MLE와 수학적으로 동치다 — L2 정규화(Ridge)는 가우시안 사전, L1 정규화(Lasso)는 라플라스 사전에 해당한다. 켤레 사전 분포(Conjugate Prior)를 사용하면 사후 분포를 닫힌 형식(Closed Form)으로 계산할 수 있어 실용적이며, 베타-이항, 감마-포아송, 정규-정규 쌍이 대표적이다.
Ⅰ. 베이즈 정리와 사후 분포
베이즈 정리 (Bayes' Theorem):
P(θ|X) = P(X|θ) · P(θ) / P(X)
사후 분포(Posterior) ∝ 우도(Likelihood) × 사전 분포(Prior)
- P(θ): 사전 분포(Prior) — 데이터 관측 전 θ에 대한 믿음
- P(X|θ): 우도(Likelihood) — 파라미터 θ하에서 데이터 X의 확률
- P(θ|X): 사후 분포(Posterior) — 데이터 관측 후 갱신된 θ 믿음
- P(X): 주변 우도(Marginal Likelihood) = Σ P(X|θ)P(θ) — 정규화 상수
Prior × Likelihood → Posterior 시각화:
확률 사전 분포 우도 함수 사후 분포
밀도 ▲ ___ ___ ___
│ / \ / \ / \
│ / \ × / \ = / \
│ / \ / \ / \
│───────── ───── ─────
└────────────────────────────────────────────▶ θ
(넓고 평탄) (좁고 뾰족) (중간 절충)
베이즈 추정의 핵심: 사전 분포가 넓을수록(불확실) 사후는 우도에 가깝고, 사전 분포가 좁을수록(확신) 사후는 사전에 가깝다.
📢 섹션 요약 비유: 베이즈 추정은 "의사의 진단"과 같다. 증상(데이터)을 보기 전에도 "이 나이대에 이 병이 많다"(사전 분포)는 경험이 있고, 증상을 보고 나서(우도) 최종 진단(사후 분포)을 내린다.
Ⅱ. MAP vs 완전 베이즈
MAP(Maximum A Posteriori): 사후 분포의 최빈값(Mode)
θ_MAP = argmax P(θ|X) = argmax [ log P(X|θ) + log P(θ) ]
= MLE항 + 정규화항
완전 베이즈(Full Bayesian): 사후 분포 전체를 유지하고, 예측 시 **사후 예측 분포(Posterior Predictive Distribution)**를 사용:
P(x_new | X) = ∫ P(x_new | θ) · P(θ|X) dθ
| 구분 | MAP | 완전 베이즈 |
|---|---|---|
| 추정 결과 | 점 추정 (Mode) | 사후 분포 전체 |
| 불확실성 표현 | ❌ (점 하나) | ✅ (분포로 표현) |
| 계산 복잡도 | 낮음 (최적화) | 높음 (적분 필요) |
| MLE와의 관계 | MLE의 정규화 버전 | MLE를 포함하는 상위 개념 |
| 적용 | 딥러닝 가중치 추정 | 베이즈 신경망, 의사 결정 |
빈도주의 신뢰 구간 vs 베이즈 신뢰 구간(Credible Interval):
- 빈도주의 95% CI: "이 방법을 반복하면 95%의 구간이 모수를 포함" (모수는 고정값)
- 베이즈 95% Credible Interval: "사후 분포에서 θ가 이 구간 안에 있을 확률이 95%" (θ를 확률 변수로 취급)
📢 섹션 요약 비유: MAP vs 완전 베이즈는 "일기예보"의 차이다. MAP는 "내일 기온은 22℃"라는 단일 예측, 완전 베이즈는 "20~24℃ 범위의 확률 분포"를 제공한다 — 불확실성을 얼마나 솔직하게 표현하느냐의 차이다.
Ⅲ. 켤레 사전 분포 (Conjugate Prior)
켤레 사전 분포(Conjugate Prior): 사후 분포가 사전 분포와 동일한 분포 계열에 속하는 경우. 닫힌 형식(Closed Form) 계산 가능.
| 우도 함수 | 켤레 사전 분포 | 사후 분포 | 하이퍼파라미터 갱신 |
|---|---|---|---|
| 이항 Binomial(n,p) | Beta(α,β) | Beta(α+성공,β+실패) | α+=성공수, β+=실패수 |
| 포아송 Poisson(λ) | Gamma(α,β) | Gamma(α+Σx, β+n) | α+=관측합, β+=n |
| 정규 Normal(μ,σ²) | Normal(μ₀,σ₀²) | Normal(μ_n, σ_n²) | 가중 평균 갱신 |
| 다항 Multinomial | Dirichlet(α) | Dirichlet(α+count) | α+=각 범주 빈도 |
베타-이항(Beta-Binomial) 예시:
사전: θ ~ Beta(α, β) [α, β: 가상의 성공/실패 횟수]
우도: X|θ ~ Binomial(n, θ)
사후: θ|X ~ Beta(α + 성공수, β + 실패수)
n번 시도에서 k번 성공 후:
- 사전 평균: α/(α+β)
- 사후 평균: (α+k)/(α+β+n) ← 사전 믿음과 데이터의 가중 평균
📢 섹션 요약 비유: 켤레 사전 분포는 "같은 언어로 대화하는 파트너"와 같다. 말을 나누어도(데이터 갱신) 서로 같은 언어(같은 분포 계열)를 쓰기 때문에, 복잡한 번역(수치 적분) 없이 바로 소통(계산)이 된다.
Ⅳ. 정규화로서의 MAP
MAP = MLE + 사전 분포 (정규화):
θ_MAP = argmax [ Σ log P(xᵢ|θ) + log P(θ) ]
───────────── ──────────
MLE 항 정규화 항
L2 정규화 (Ridge Regression) = 가우시안 사전:
P(θ) ∝ exp(-λ||θ||₂²/2) → log P(θ) = -λ||θ||₂²/2
MAP 목적함수: ℓ(θ) - λ||θ||₂² = MLE - Ridge 페널티
L1 정규화 (Lasso Regression) = 라플라스 사전:
P(θ) ∝ exp(-λ||θ||₁) → log P(θ) = -λ||θ||₁
MAP 목적함수: ℓ(θ) - λ||θ||₁ = MLE - Lasso 페널티
┌────────────────────────────────────────────────┐
│ 정규화와 사전 분포의 대응 │
├──────────────────┬─────────────────────────────┤
│ 정규화 방법 │ 베이즈 해석 │
├──────────────────┼─────────────────────────────┤
│ Ridge (L2) │ 가우시안 사전 N(0, 1/λ) │
│ Lasso (L1) │ 라플라스 사전 Laplace(0,1/λ)│
│ Elastic Net │ 가우시안+라플라스 혼합 사전 │
│ Dropout │ 베르누이 사전 (근사) │
└──────────────────┴─────────────────────────────┘
📢 섹션 요약 비유: 딥러닝의 정규화는 "베이즈 추정의 공학적 구현"이다. Ridge 정규화 항을 추가하는 것은 "가중치가 작을 것이라는 가우시안 사전 믿음"을 코드로 표현하는 것과 완전히 동일하다.
Ⅴ. 응용 분야
스팸 필터 (나이브 베이즈):
P(스팸|단어들) ∝ P(단어들|스팸) · P(스팸)
의료 진단:
- 사전: 질병 유병률 P(disease)
- 우도: 검사 민감도(Sensitivity) P(test+|disease)
- 사후: 양성 반응 후 실제 질병 확률 (양성 예측도, PPV)
베이즈 추정 갱신 예시 (스팸 필터):
초기 사전 첫 번째 이메일 두 번째 이메일 수렴
P(스팸)=0.5 → 0.7 → 0.85 → 0.95
↑ ↑
중립 "돈 벌기" "클릭 지금!" 강한 스팸 신호
데이터를 볼수록 사후 분포가 **순차적 갱신(Sequential Updating)**으로 점점 정확해진다.
📢 섹션 요약 비유: 베이즈 갱신은 "명탐정 추리"와 같다. 처음엔 모든 용의자가 평등하게 의심스럽다(사전 분포). 새로운 증거(데이터)가 나올 때마다 특정 용의자의 의심도를 올리고(갱신), 결국 범인(MAP)을 좁혀간다.
📌 관련 개념 맵
| 개념 | 연결 개념 | 관계 |
|---|---|---|
| MAP | MLE + 사전 분포 | MAP = MLE의 정규화 버전 |
| MAP | L2 정규화 (Ridge) | 가우시안 사전 사용 시 동치 |
| MAP | L1 정규화 (Lasso) | 라플라스 사전 사용 시 동치 |
| 켤레 사전 분포 | 닫힌 형식 사후 계산 | 계산 편의성 보장 |
| Beta-Binomial | 이항 비율 추정 | 켤레 쌍 대표 사례 |
| 완전 베이즈 | MCMC | 사후 분포 샘플링 방법 |
📈 관련 키워드 및 발전 흐름도
[빈도주의 추정 (MLE, Frequentist) — 관측 데이터만으로 모수를 점 추정, 사전 지식 미반영]
│
▼
[MAP (Maximum A Posteriori) — MLE + 사전 분포, 과적합 방지 정규화 효과]
│
▼
[완전 베이즈 추정 (Full Bayesian) — 사후 분포 전체를 추론, 불확실성 정량화]
│
▼
[켤레 사전 분포 (Conjugate Prior) — 사후 분포가 사전과 같은 족, 닫힌 형식 계산 가능]
│
▼
[MCMC (Markov Chain Monte Carlo) — 고차원 사후 분포 샘플링, 베이즈 딥러닝·확률적 프로그래밍 기반]
이 흐름은 점 추정에서 사전 지식을 결합한 MAP로, 분포 전체를 추론하는 완전 베이즈 추정으로 확장되고, 고차원 적분을 가능하게 하는 MCMC로 귀결되는 베이즈 통계 추론 체계의 발전 계보를 보여준다.
👶 어린이를 위한 3줄 비유 설명
처음엔 "동전이 공정하겠지"라고 생각해(사전 분포). 던져보니 앞면이 8번 나왔어. 그럼 "아마 앞면이 조금 많은 동전이구나"로 생각이 바뀌지(사후 분포). 이게 베이즈 추정이야! 켤레 사전 분포는 "요리할 때 계속 같은 냄비 쓰기"와 같아 — 재료(데이터)를 넣어도 냄비(분포 모양) 자체는 그대로이니 설거지(계산)가 훨씬 쉬워! 딥러닝에서 "가중치가 너무 커지지 말아라" 하는 규칙(L2 정규화)도 사실 "가중치가 0에 가까울 것 같아"라는 베이즈 사전 믿음을 수식으로 표현한 거야!