8. 확률 분포 — 이항/포아송/정규/지수/균등

핵심 인사이트

확률 분포는 "불확실한 현상을 수학 모델로 포착하는 언어"다 — 현실의 패턴을 파라미터 몇 개로 요약하면 예측·최적화·통계 검정이 가능해진다. 이항·포아송·정규·지수·균등은 현실에서 가장 자주 등장하는 5대 분포로, 각각의 생성 메커니즘과 무기억성 (Memoryless Property) 같은 특성이 응용 분야를 결정한다. 분포들은 서로 연결되어 있다 — 이항의 극한이 포아송이 되고, 이항과 포아송의 합이 정규로 수렴하며, 지수 분포는 포아송 과정의 도착 시간이다.

Ⅰ. 베르누이·이항 분포 — 성공 횟수 모델

베르누이 분포 (Bernoulli Distribution)

X ~ Bernoulli(p)
P(X=1) = p,  P(X=0) = 1-p

E[X] = p,   Var[X] = p(1-p)

단 한 번의 실험에서 성공/실패 결과를 나타내는 가장 단순한 분포.

이항 분포 (Binomial Distribution)

X ~ B(n, p)
P(X=k) = C(n,k) · pᵏ · (1-p)^(n-k),   k = 0,1,...,n

E[X] = np,   Var[X] = np(1-p)

n번의 독립 베르누이 시행 (Bernoulli Trial) 에서 성공 횟수.

예시: A/B 테스트에서 n=1000 방문자 중 전환율 p=0.05일 때 전환 수 분포

B(1000, 0.05): E[X]=50, σ=√(1000×0.05×0.95)≈6.89

이항 분포 → 포아송 근사: n 크고 p 작을 때 (np=λ 고정)

C(n,k)·pᵏ·(1-p)^(n-k) → e^(-λ)·λᵏ/k!   as n→∞, p→0

📢 섹션 요약 비유: 이항 분포는 "100개의 불량품 검사에서 불량이 몇 개나 나올까"를 모델링한다 — 동전 던지기를 n번 했을 때 앞면 횟수와 같은 구조다.

Ⅱ. 포아송 분포 — 희귀 사건 개수

포아송 분포 (Poisson Distribution)

X ~ Poisson(λ)
P(X=k) = e^(-λ) · λᵏ / k!,   k = 0,1,2,...

E[X] = λ,   Var[X] = λ   (평균 = 분산!)

단위 시간·공간에서 희귀 사건이 λ번 발생할 때 사용.

포아송 과정 (Poisson Process) 가정:

사건은 독립적으로 발생
단위 시간당 평균 발생 횟수 = λ
두 사건이 동시에 발생할 확률 = 0

응용 예시:

응용	λ 의미
네트워크 패킷 도착	초당 평균 패킷 수
콜센터 전화 수신	시간당 평균 통화 수
방사능 붕괴 이벤트	초당 평균 붕괴 수
웹 서버 요청	초당 평균 요청 수

📢 섹션 요약 비유: 포아송 분포는 "하루에 번개가 몇 번 칠까"처럼, 가끔씩 독립적으로 일어나는 드문 사건의 개수 모델이다.

Ⅲ. 정규·지수·균등 분포 — 연속 분포 3총사

정규 분포 (Normal Distribution)

X ~ N(μ, σ²)
f(x) = (1/σ√2π) · exp(-(x-μ)²/2σ²)

E[X] = μ,   Var[X] = σ²

자연 현상의 대부분이 정규 분포를 따름 (키, 측정 오차 등)
CLT (Central Limit Theorem) 의 수렴 분포
표준화: Z = (X-μ)/σ ~ N(0,1)

지수 분포 (Exponential Distribution)

X ~ Exp(λ)
f(x) = λ·e^(-λx),   x ≥ 0
F(x) = 1 - e^(-λx)

E[X] = 1/λ,   Var[X] = 1/λ²

무기억성 (Memoryless Property):

P(X > s+t | X > s) = P(X > t)

해석: "이미 s초 기다렸어도, 앞으로 t초 더 기다릴 확률은 처음부터 t초 기다릴 확률과 같다"
→ 지수 분포가 유일한 연속형 무기억 분포!

포아송-지수 관계: 포아송 과정에서 사건 간 대기 시간이 지수 분포를 따름.

균등 분포 (Uniform Distribution)

X ~ U(a, b)
f(x) = 1/(b-a),   a ≤ x ≤ b

E[X] = (a+b)/2,   Var[X] = (b-a)²/12

모든 값이 동일 확률: 난수 생성의 기반
역변환 샘플링 (Inverse Transform Sampling): U~U(0,1)을 CDF 역함수에 통과시켜 임의 분포 샘플링

📢 섹션 요약 비유: 균등 분포는 완벽한 주사위, 지수 분포는 "언제 다음 버스가 올까", 정규 분포는 "사람들의 키가 평균 주변에 몰리는 현상"을 모델링한다.

Ⅳ. 분포 형태 비교 다이어그램

┌────────────────────────────────────────────────────────────┐
│  주요 분포 형태 비교 (개략적 PDF/PMF)                       │
│                                                            │
│  이항 B(10,0.3)    포아송(λ=3)      정규 N(0,1)            │
│                                                            │
│    │ ■              │ ■              │   ╭──╮              │
│    │ ■■             │ ██             │  ╭╯  ╰╮             │
│    │ ███            │ ███            │ ╭╯    ╰╮            │
│    │ ████           │ ████           │╭╯      ╰╮           │
│    └──────→ k       └──────→ k       └──────────→ x        │
│    (이산, 유한)     (이산, 무한)     (연속, 대칭)           │
│                                                            │
│  지수 Exp(λ=1)      균등 U(0,1)                            │
│                                                            │
│    │\               │ ────────       │                    │
│    │ \              │ │      │       │                    │
│    │  \             │ │      │       │                    │
│    │   \            │ │      │       │                    │
│    └────→ x         └─┴──────┴──→ x  │                    │
│    (오른쪽 꼬리)    (균일 높이)       │                    │
└────────────────────────────────────────────────────────────┘

Ⅴ. 모수 추정과 분포 간 관계

모수 추정 (Parameter Estimation)

주어진 데이터 x₁,...,xₙ 에서 분포의 모수를 추정하는 방법:

방법	이름	원리
MLE (Maximum Likelihood Estimation)	최대 우도 추정	P(데이터\|모수) 최대화
MOM (Method of Moments)	적률 추정법	표본 적률 = 이론 적률
MAP (Maximum A Posteriori)	최대 사후 추정	사전 분포 + 우도 결합

분포 간 연결 관계

┌────────────────────────────────────────────────────────────┐
│  주요 분포 간 관계                                          │
│                                                            │
│  Bernoulli(p) ──→ Binomial B(n,p)                         │
│                        │                                  │
│                  n→∞,p→0,np=λ  │                          │
│                        ↓                                  │
│                  Poisson(λ) ──→ 도착 시간 → Exp(λ)        │
│                        │                                  │
│                  n→∞ (CLT)  │                              │
│                        ↓                                  │
│                  Normal N(μ,σ²)                            │
│                        │                                  │
│               X=e^Y → Log-Normal                          │
│               X²합산 → Chi-squared (카이제곱)              │
└────────────────────────────────────────────────────────────┘

각 분포 요약 비교표

분포	모수	E[X]	Var[X]	주요 응용
Bernoulli(p)	p	p	p(1-p)	이진 분류
B(n,p)	n,p	np	np(1-p)	A/B 테스트
Poisson(λ)	λ	λ	λ	네트워크 부하
N(μ,σ²)	μ,σ	μ	σ²	오차, 자연 현상
Exp(λ)	λ	1/λ	1/λ²	대기 시간, 수명
U(a,b)	a,b	(a+b)/2	(b-a)²/12	난수 생성

📢 섹션 요약 비유: 각 분포는 자연의 특정 패턴을 담은 레시피다 — 이항은 "n번 던진 결과", 포아송은 "단위 시간 내 드문 사건", 정규는 "많은 요인의 합", 지수는 "다음 사건까지 기다림", 균등은 "완전한 무작위".

📌 관련 개념 맵

개념	연결 개념	관계
이항 분포	베르누이 시행	n회 반복
포아송 분포	이항 분포	극한 근사
지수 분포	포아송 과정	도착 간격 분포
정규 분포	CLT	합의 극한 분포
균등 분포	역변환 샘플링	난수 생성 기반
MLE	최대 우도 추정	모수 추정 핵심

📈 관련 키워드 및 발전 흐름도

[베르누이 시행 (Bernoulli Trial) — 성공/실패]
    │
    ▼
[이항 분포 (Binomial Distribution) — n회 반복]
    │
    ▼
[포아송 분포 (Poisson Distribution) — 희귀 사건]
    │
    ▼
[정규 분포 (Normal Distribution) — CLT 극한]
    │
    ▼
[MLE 최대 우도 추정 (Maximum Likelihood Estimation)]

확률 분포가 단순 이항 분포에서 극한 근사와 모수 추정으로 체계화된 흐름이다.

👶 어린이를 위한 3줄 비유 설명

이항 분포는 "동전 10번 던질 때 앞면이 몇 번 나올까", 포아송 분포는 "하루에 편의점에 손님이 몇 명 올까"야.
정규 분포는 "학생들 키가 평균 주변에 가장 많이 몰리고, 멀어질수록 줄어드는 종 모양"이야.
지수 분포는 "버스를 기다릴 때, 오래 기다렸어도 다음 1분 안에 버스가 올 확률은 처음부터 기다리는 것과 같아"라는 무기억성을 가져.