핵심 인사이트

베이즈 추정(Bayesian Estimation)의 핵심은 "데이터를 보기 전 사전 지식(Prior)과, 데이터를 본 후 증거(Likelihood)를 곱해 사후 믿음(Posterior)을 만드는" 지식 갱신 프레임워크다. MAP(Maximum A Posteriori)는 사후 분포의 최빈값(Mode)을 추정량으로 사용하며, 이는 정규화된 MLE와 수학적으로 동치다 — L2 정규화(Ridge)는 가우시안 사전, L1 정규화(Lasso)는 라플라스 사전에 해당한다. 켤레 사전 분포(Conjugate Prior)를 사용하면 사후 분포를 닫힌 형식(Closed Form)으로 계산할 수 있어 실용적이며, 베타-이항, 감마-포아송, 정규-정규 쌍이 대표적이다.


Ⅰ. 베이즈 정리와 사후 분포

베이즈 정리 (Bayes' Theorem):

P(θ|X) = P(X|θ) · P(θ) / P(X)

사후 분포(Posterior) ∝ 우도(Likelihood) × 사전 분포(Prior)
  • P(θ): 사전 분포(Prior) — 데이터 관측 전 θ에 대한 믿음
  • P(X|θ): 우도(Likelihood) — 파라미터 θ하에서 데이터 X의 확률
  • P(θ|X): 사후 분포(Posterior) — 데이터 관측 후 갱신된 θ 믿음
  • P(X): 주변 우도(Marginal Likelihood) = Σ P(X|θ)P(θ) — 정규화 상수

Prior × Likelihood → Posterior 시각화:

확률                사전 분포       우도 함수       사후 분포
밀도  ▲             ___              ___            ___
      │           /   \           /   \          /   \
      │          /     \     ×   /     \   =    /     \
      │         /       \       /       \       /       \
      │─────────          ─────           ─────
      └────────────────────────────────────────────▶  θ
                 (넓고 평탄)     (좁고 뾰족)    (중간 절충)

베이즈 추정의 핵심: 사전 분포가 넓을수록(불확실) 사후는 우도에 가깝고, 사전 분포가 좁을수록(확신) 사후는 사전에 가깝다.

📢 섹션 요약 비유: 베이즈 추정은 "의사의 진단"과 같다. 증상(데이터)을 보기 전에도 "이 나이대에 이 병이 많다"(사전 분포)는 경험이 있고, 증상을 보고 나서(우도) 최종 진단(사후 분포)을 내린다.


Ⅱ. MAP vs 완전 베이즈

MAP(Maximum A Posteriori): 사후 분포의 최빈값(Mode)

θ_MAP = argmax P(θ|X) = argmax [ log P(X|θ) + log P(θ) ]
                              =        MLE항    +   정규화항

완전 베이즈(Full Bayesian): 사후 분포 전체를 유지하고, 예측 시 **사후 예측 분포(Posterior Predictive Distribution)**를 사용:

P(x_new | X) = ∫ P(x_new | θ) · P(θ|X) dθ
구분MAP완전 베이즈
추정 결과점 추정 (Mode)사후 분포 전체
불확실성 표현❌ (점 하나)✅ (분포로 표현)
계산 복잡도낮음 (최적화)높음 (적분 필요)
MLE와의 관계MLE의 정규화 버전MLE를 포함하는 상위 개념
적용딥러닝 가중치 추정베이즈 신경망, 의사 결정

빈도주의 신뢰 구간 vs 베이즈 신뢰 구간(Credible Interval):

  • 빈도주의 95% CI: "이 방법을 반복하면 95%의 구간이 모수를 포함" (모수는 고정값)
  • 베이즈 95% Credible Interval: "사후 분포에서 θ가 이 구간 안에 있을 확률이 95%" (θ를 확률 변수로 취급)

📢 섹션 요약 비유: MAP vs 완전 베이즈는 "일기예보"의 차이다. MAP는 "내일 기온은 22℃"라는 단일 예측, 완전 베이즈는 "20~24℃ 범위의 확률 분포"를 제공한다 — 불확실성을 얼마나 솔직하게 표현하느냐의 차이다.


Ⅲ. 켤레 사전 분포 (Conjugate Prior)

켤레 사전 분포(Conjugate Prior): 사후 분포가 사전 분포와 동일한 분포 계열에 속하는 경우. 닫힌 형식(Closed Form) 계산 가능.

우도 함수켤레 사전 분포사후 분포하이퍼파라미터 갱신
이항 Binomial(n,p)Beta(α,β)Beta(α+성공,β+실패)α+=성공수, β+=실패수
포아송 Poisson(λ)Gamma(α,β)Gamma(α+Σx, β+n)α+=관측합, β+=n
정규 Normal(μ,σ²)Normal(μ₀,σ₀²)Normal(μ_n, σ_n²)가중 평균 갱신
다항 MultinomialDirichlet(α)Dirichlet(α+count)α+=각 범주 빈도

베타-이항(Beta-Binomial) 예시:

사전: θ ~ Beta(α, β)  [α, β: 가상의 성공/실패 횟수]
우도: X|θ ~ Binomial(n, θ)
사후: θ|X ~ Beta(α + 성공수, β + 실패수)

n번 시도에서 k번 성공 후:

  • 사전 평균: α/(α+β)
  • 사후 평균: (α+k)/(α+β+n) ← 사전 믿음과 데이터의 가중 평균

📢 섹션 요약 비유: 켤레 사전 분포는 "같은 언어로 대화하는 파트너"와 같다. 말을 나누어도(데이터 갱신) 서로 같은 언어(같은 분포 계열)를 쓰기 때문에, 복잡한 번역(수치 적분) 없이 바로 소통(계산)이 된다.


Ⅳ. 정규화로서의 MAP

MAP = MLE + 사전 분포 (정규화):

θ_MAP = argmax [ Σ log P(xᵢ|θ) + log P(θ) ]
                  ─────────────   ──────────
                    MLE 항          정규화 항

L2 정규화 (Ridge Regression) = 가우시안 사전:

P(θ) ∝ exp(-λ||θ||₂²/2)   →   log P(θ) = -λ||θ||₂²/2
MAP 목적함수: ℓ(θ) - λ||θ||₂² = MLE - Ridge 페널티

L1 정규화 (Lasso Regression) = 라플라스 사전:

P(θ) ∝ exp(-λ||θ||₁)   →   log P(θ) = -λ||θ||₁
MAP 목적함수: ℓ(θ) - λ||θ||₁ = MLE - Lasso 페널티
┌────────────────────────────────────────────────┐
│          정규화와 사전 분포의 대응               │
├──────────────────┬─────────────────────────────┤
│  정규화 방법      │     베이즈 해석             │
├──────────────────┼─────────────────────────────┤
│ Ridge (L2)       │ 가우시안 사전 N(0, 1/λ)    │
│ Lasso (L1)       │ 라플라스 사전 Laplace(0,1/λ)│
│ Elastic Net      │ 가우시안+라플라스 혼합 사전  │
│ Dropout          │ 베르누이 사전 (근사)         │
└──────────────────┴─────────────────────────────┘

📢 섹션 요약 비유: 딥러닝의 정규화는 "베이즈 추정의 공학적 구현"이다. Ridge 정규화 항을 추가하는 것은 "가중치가 작을 것이라는 가우시안 사전 믿음"을 코드로 표현하는 것과 완전히 동일하다.


Ⅴ. 응용 분야

스팸 필터 (나이브 베이즈):

P(스팸|단어들) ∝ P(단어들|스팸) · P(스팸)

의료 진단:

  • 사전: 질병 유병률 P(disease)
  • 우도: 검사 민감도(Sensitivity) P(test+|disease)
  • 사후: 양성 반응 후 실제 질병 확률 (양성 예측도, PPV)

베이즈 추정 갱신 예시 (스팸 필터):

초기 사전    첫 번째 이메일   두 번째 이메일    수렴
P(스팸)=0.5  →  0.7         →    0.85       → 0.95
 ↑                                              ↑
 중립          "돈 벌기"         "클릭 지금!"    강한 스팸 신호

데이터를 볼수록 사후 분포가 **순차적 갱신(Sequential Updating)**으로 점점 정확해진다.

📢 섹션 요약 비유: 베이즈 갱신은 "명탐정 추리"와 같다. 처음엔 모든 용의자가 평등하게 의심스럽다(사전 분포). 새로운 증거(데이터)가 나올 때마다 특정 용의자의 의심도를 올리고(갱신), 결국 범인(MAP)을 좁혀간다.


📌 관련 개념 맵

개념연결 개념관계
MAPMLE + 사전 분포MAP = MLE의 정규화 버전
MAPL2 정규화 (Ridge)가우시안 사전 사용 시 동치
MAPL1 정규화 (Lasso)라플라스 사전 사용 시 동치
켤레 사전 분포닫힌 형식 사후 계산계산 편의성 보장
Beta-Binomial이항 비율 추정켤레 쌍 대표 사례
완전 베이즈MCMC사후 분포 샘플링 방법

📈 관련 키워드 및 발전 흐름도

[빈도주의 추정 (MLE, Frequentist) — 관측 데이터만으로 모수를 점 추정, 사전 지식 미반영]
    │
    ▼
[MAP (Maximum A Posteriori) — MLE + 사전 분포, 과적합 방지 정규화 효과]
    │
    ▼
[완전 베이즈 추정 (Full Bayesian) — 사후 분포 전체를 추론, 불확실성 정량화]
    │
    ▼
[켤레 사전 분포 (Conjugate Prior) — 사후 분포가 사전과 같은 족, 닫힌 형식 계산 가능]
    │
    ▼
[MCMC (Markov Chain Monte Carlo) — 고차원 사후 분포 샘플링, 베이즈 딥러닝·확률적 프로그래밍 기반]

이 흐름은 점 추정에서 사전 지식을 결합한 MAP로, 분포 전체를 추론하는 완전 베이즈 추정으로 확장되고, 고차원 적분을 가능하게 하는 MCMC로 귀결되는 베이즈 통계 추론 체계의 발전 계보를 보여준다.

👶 어린이를 위한 3줄 비유 설명

처음엔 "동전이 공정하겠지"라고 생각해(사전 분포). 던져보니 앞면이 8번 나왔어. 그럼 "아마 앞면이 조금 많은 동전이구나"로 생각이 바뀌지(사후 분포). 이게 베이즈 추정이야! 켤레 사전 분포는 "요리할 때 계속 같은 냄비 쓰기"와 같아 — 재료(데이터)를 넣어도 냄비(분포 모양) 자체는 그대로이니 설거지(계산)가 훨씬 쉬워! 딥러닝에서 "가중치가 너무 커지지 말아라" 하는 규칙(L2 정규화)도 사실 "가중치가 0에 가까울 것 같아"라는 베이즈 사전 믿음을 수식으로 표현한 거야!