15. 베이즈 추정 (Bayesian Estimation) — MAP 최대 사후 확률

핵심 인사이트

베이즈 추정(Bayesian Estimation)의 핵심은 "데이터를 보기 전 사전 지식(Prior)과, 데이터를 본 후 증거(Likelihood)를 곱해 사후 믿음(Posterior)을 만드는" 지식 갱신 프레임워크다. MAP(Maximum A Posteriori)는 사후 분포의 최빈값(Mode)을 추정량으로 사용하며, 이는 정규화된 MLE와 수학적으로 동치다 — L2 정규화(Ridge)는 가우시안 사전, L1 정규화(Lasso)는 라플라스 사전에 해당한다. 켤레 사전 분포(Conjugate Prior)를 사용하면 사후 분포를 닫힌 형식(Closed Form)으로 계산할 수 있어 실용적이며, 베타-이항, 감마-포아송, 정규-정규 쌍이 대표적이다.

Ⅰ. 베이즈 정리와 사후 분포

베이즈 정리 (Bayes' Theorem):

P(θ|X) = P(X|θ) · P(θ) / P(X)

사후 분포(Posterior) ∝ 우도(Likelihood) × 사전 분포(Prior)

P(θ): 사전 분포(Prior) — 데이터 관측 전 θ에 대한 믿음
P(X|θ): 우도(Likelihood) — 파라미터 θ하에서 데이터 X의 확률
P(θ|X): 사후 분포(Posterior) — 데이터 관측 후 갱신된 θ 믿음
P(X): 주변 우도(Marginal Likelihood) = Σ P(X|θ)P(θ) — 정규화 상수

Prior × Likelihood → Posterior 시각화:

확률                사전 분포       우도 함수       사후 분포
밀도  ▲             ___              ___            ___
      │           /   \           /   \          /   \
      │          /     \     ×   /     \   =    /     \
      │         /       \       /       \       /       \
      │─────────          ─────           ─────
      └────────────────────────────────────────────▶  θ
                 (넓고 평탄)     (좁고 뾰족)    (중간 절충)

베이즈 추정의 핵심: 사전 분포가 넓을수록(불확실) 사후는 우도에 가깝고, 사전 분포가 좁을수록(확신) 사후는 사전에 가깝다.

📢 섹션 요약 비유: 베이즈 추정은 "의사의 진단"과 같다. 증상(데이터)을 보기 전에도 "이 나이대에 이 병이 많다"(사전 분포)는 경험이 있고, 증상을 보고 나서(우도) 최종 진단(사후 분포)을 내린다.

Ⅱ. MAP vs 완전 베이즈

MAP(Maximum A Posteriori): 사후 분포의 최빈값(Mode)

θ_MAP = argmax P(θ|X) = argmax [ log P(X|θ) + log P(θ) ]
                              =        MLE항    +   정규화항

완전 베이즈(Full Bayesian): 사후 분포 전체를 유지하고, 예측 시 **사후 예측 분포(Posterior Predictive Distribution)**를 사용:

P(x_new | X) = ∫ P(x_new | θ) · P(θ|X) dθ

구분	MAP	완전 베이즈
추정 결과	점 추정 (Mode)	사후 분포 전체
불확실성 표현	❌ (점 하나)	✅ (분포로 표현)
계산 복잡도	낮음 (최적화)	높음 (적분 필요)
MLE와의 관계	MLE의 정규화 버전	MLE를 포함하는 상위 개념
적용	딥러닝 가중치 추정	베이즈 신경망, 의사 결정

빈도주의 신뢰 구간 vs 베이즈 신뢰 구간(Credible Interval):

빈도주의 95% CI: "이 방법을 반복하면 95%의 구간이 모수를 포함" (모수는 고정값)
베이즈 95% Credible Interval: "사후 분포에서 θ가 이 구간 안에 있을 확률이 95%" (θ를 확률 변수로 취급)

📢 섹션 요약 비유: MAP vs 완전 베이즈는 "일기예보"의 차이다. MAP는 "내일 기온은 22℃"라는 단일 예측, 완전 베이즈는 "20~24℃ 범위의 확률 분포"를 제공한다 — 불확실성을 얼마나 솔직하게 표현하느냐의 차이다.

Ⅲ. 켤레 사전 분포 (Conjugate Prior)

켤레 사전 분포(Conjugate Prior): 사후 분포가 사전 분포와 동일한 분포 계열에 속하는 경우. 닫힌 형식(Closed Form) 계산 가능.

우도 함수	켤레 사전 분포	사후 분포	하이퍼파라미터 갱신
이항 Binomial(n,p)	Beta(α,β)	Beta(α+성공,β+실패)	α+=성공수, β+=실패수
포아송 Poisson(λ)	Gamma(α,β)	Gamma(α+Σx, β+n)	α+=관측합, β+=n
정규 Normal(μ,σ²)	Normal(μ₀,σ₀²)	Normal(μ_n, σ_n²)	가중 평균 갱신
다항 Multinomial	Dirichlet(α)	Dirichlet(α+count)	α+=각 범주 빈도

베타-이항(Beta-Binomial) 예시:

사전: θ ~ Beta(α, β)  [α, β: 가상의 성공/실패 횟수]
우도: X|θ ~ Binomial(n, θ)
사후: θ|X ~ Beta(α + 성공수, β + 실패수)

n번 시도에서 k번 성공 후:

사전 평균: α/(α+β)
사후 평균: (α+k)/(α+β+n) ← 사전 믿음과 데이터의 가중 평균

📢 섹션 요약 비유: 켤레 사전 분포는 "같은 언어로 대화하는 파트너"와 같다. 말을 나누어도(데이터 갱신) 서로 같은 언어(같은 분포 계열)를 쓰기 때문에, 복잡한 번역(수치 적분) 없이 바로 소통(계산)이 된다.

Ⅳ. 정규화로서의 MAP

MAP = MLE + 사전 분포 (정규화):

θ_MAP = argmax [ Σ log P(xᵢ|θ) + log P(θ) ]
                  ─────────────   ──────────
                    MLE 항          정규화 항

L2 정규화 (Ridge Regression) = 가우시안 사전:

P(θ) ∝ exp(-λ||θ||₂²/2)   →   log P(θ) = -λ||θ||₂²/2
MAP 목적함수: ℓ(θ) - λ||θ||₂² = MLE - Ridge 페널티

L1 정규화 (Lasso Regression) = 라플라스 사전:

P(θ) ∝ exp(-λ||θ||₁)   →   log P(θ) = -λ||θ||₁
MAP 목적함수: ℓ(θ) - λ||θ||₁ = MLE - Lasso 페널티

┌────────────────────────────────────────────────┐
│          정규화와 사전 분포의 대응               │
├──────────────────┬─────────────────────────────┤
│  정규화 방법      │     베이즈 해석             │
├──────────────────┼─────────────────────────────┤
│ Ridge (L2)       │ 가우시안 사전 N(0, 1/λ)    │
│ Lasso (L1)       │ 라플라스 사전 Laplace(0,1/λ)│
│ Elastic Net      │ 가우시안+라플라스 혼합 사전  │
│ Dropout          │ 베르누이 사전 (근사)         │
└──────────────────┴─────────────────────────────┘

📢 섹션 요약 비유: 딥러닝의 정규화는 "베이즈 추정의 공학적 구현"이다. Ridge 정규화 항을 추가하는 것은 "가중치가 작을 것이라는 가우시안 사전 믿음"을 코드로 표현하는 것과 완전히 동일하다.

Ⅴ. 응용 분야

스팸 필터 (나이브 베이즈):

P(스팸|단어들) ∝ P(단어들|스팸) · P(스팸)

의료 진단:

사전: 질병 유병률 P(disease)
우도: 검사 민감도(Sensitivity) P(test+|disease)
사후: 양성 반응 후 실제 질병 확률 (양성 예측도, PPV)

베이즈 추정 갱신 예시 (스팸 필터):

초기 사전    첫 번째 이메일   두 번째 이메일    수렴
P(스팸)=0.5  →  0.7         →    0.85       → 0.95
 ↑                                              ↑
 중립          "돈 벌기"         "클릭 지금!"    강한 스팸 신호

데이터를 볼수록 사후 분포가 **순차적 갱신(Sequential Updating)**으로 점점 정확해진다.

📢 섹션 요약 비유: 베이즈 갱신은 "명탐정 추리"와 같다. 처음엔 모든 용의자가 평등하게 의심스럽다(사전 분포). 새로운 증거(데이터)가 나올 때마다 특정 용의자의 의심도를 올리고(갱신), 결국 범인(MAP)을 좁혀간다.

📌 관련 개념 맵

개념	연결 개념	관계
MAP	MLE + 사전 분포	MAP = MLE의 정규화 버전
MAP	L2 정규화 (Ridge)	가우시안 사전 사용 시 동치
MAP	L1 정규화 (Lasso)	라플라스 사전 사용 시 동치
켤레 사전 분포	닫힌 형식 사후 계산	계산 편의성 보장
Beta-Binomial	이항 비율 추정	켤레 쌍 대표 사례
완전 베이즈	MCMC	사후 분포 샘플링 방법

📈 관련 키워드 및 발전 흐름도

[빈도주의 추정 (MLE, Frequentist) — 관측 데이터만으로 모수를 점 추정, 사전 지식 미반영]
    │
    ▼
[MAP (Maximum A Posteriori) — MLE + 사전 분포, 과적합 방지 정규화 효과]
    │
    ▼
[완전 베이즈 추정 (Full Bayesian) — 사후 분포 전체를 추론, 불확실성 정량화]
    │
    ▼
[켤레 사전 분포 (Conjugate Prior) — 사후 분포가 사전과 같은 족, 닫힌 형식 계산 가능]
    │
    ▼
[MCMC (Markov Chain Monte Carlo) — 고차원 사후 분포 샘플링, 베이즈 딥러닝·확률적 프로그래밍 기반]

이 흐름은 점 추정에서 사전 지식을 결합한 MAP로, 분포 전체를 추론하는 완전 베이즈 추정으로 확장되고, 고차원 적분을 가능하게 하는 MCMC로 귀결되는 베이즈 통계 추론 체계의 발전 계보를 보여준다.

👶 어린이를 위한 3줄 비유 설명

처음엔 "동전이 공정하겠지"라고 생각해(사전 분포). 던져보니 앞면이 8번 나왔어. 그럼 "아마 앞면이 조금 많은 동전이구나"로 생각이 바뀌지(사후 분포). 이게 베이즈 추정이야! 켤레 사전 분포는 "요리할 때 계속 같은 냄비 쓰기"와 같아 — 재료(데이터)를 넣어도 냄비(분포 모양) 자체는 그대로이니 설거지(계산)가 훨씬 쉬워! 딥러닝에서 "가중치가 너무 커지지 말아라" 하는 규칙(L2 정규화)도 사실 "가중치가 0에 가까울 것 같아"라는 베이즈 사전 믿음을 수식으로 표현한 거야!