핵심 인사이트
확률 분포는 "불확실한 현상을 수학 모델로 포착하는 언어"다 — 현실의 패턴을 파라미터 몇 개로 요약하면 예측·최적화·통계 검정이 가능해진다. 이항·포아송·정규·지수·균등은 현실에서 가장 자주 등장하는 5대 분포로, 각각의 생성 메커니즘과 무기억성 (Memoryless Property) 같은 특성이 응용 분야를 결정한다. 분포들은 서로 연결되어 있다 — 이항의 극한이 포아송이 되고, 이항과 포아송의 합이 정규로 수렴하며, 지수 분포는 포아송 과정의 도착 시간이다.
Ⅰ. 베르누이·이항 분포 — 성공 횟수 모델
베르누이 분포 (Bernoulli Distribution)
X ~ Bernoulli(p)
P(X=1) = p, P(X=0) = 1-p
E[X] = p, Var[X] = p(1-p)
단 한 번의 실험에서 성공/실패 결과를 나타내는 가장 단순한 분포.
이항 분포 (Binomial Distribution)
X ~ B(n, p)
P(X=k) = C(n,k) · pᵏ · (1-p)^(n-k), k = 0,1,...,n
E[X] = np, Var[X] = np(1-p)
n번의 독립 베르누이 시행 (Bernoulli Trial) 에서 성공 횟수.
예시: A/B 테스트에서 n=1000 방문자 중 전환율 p=0.05일 때 전환 수 분포
B(1000, 0.05): E[X]=50, σ=√(1000×0.05×0.95)≈6.89
이항 분포 → 포아송 근사: n 크고 p 작을 때 (np=λ 고정)
C(n,k)·pᵏ·(1-p)^(n-k) → e^(-λ)·λᵏ/k! as n→∞, p→0
📢 섹션 요약 비유: 이항 분포는 "100개의 불량품 검사에서 불량이 몇 개나 나올까"를 모델링한다 — 동전 던지기를 n번 했을 때 앞면 횟수와 같은 구조다.
Ⅱ. 포아송 분포 — 희귀 사건 개수
포아송 분포 (Poisson Distribution)
X ~ Poisson(λ)
P(X=k) = e^(-λ) · λᵏ / k!, k = 0,1,2,...
E[X] = λ, Var[X] = λ (평균 = 분산!)
단위 시간·공간에서 희귀 사건이 λ번 발생할 때 사용.
포아송 과정 (Poisson Process) 가정:
- 사건은 독립적으로 발생
- 단위 시간당 평균 발생 횟수 = λ
- 두 사건이 동시에 발생할 확률 = 0
응용 예시:
| 응용 | λ 의미 |
|---|---|
| 네트워크 패킷 도착 | 초당 평균 패킷 수 |
| 콜센터 전화 수신 | 시간당 평균 통화 수 |
| 방사능 붕괴 이벤트 | 초당 평균 붕괴 수 |
| 웹 서버 요청 | 초당 평균 요청 수 |
📢 섹션 요약 비유: 포아송 분포는 "하루에 번개가 몇 번 칠까"처럼, 가끔씩 독립적으로 일어나는 드문 사건의 개수 모델이다.
Ⅲ. 정규·지수·균등 분포 — 연속 분포 3총사
정규 분포 (Normal Distribution)
X ~ N(μ, σ²)
f(x) = (1/σ√2π) · exp(-(x-μ)²/2σ²)
E[X] = μ, Var[X] = σ²
- 자연 현상의 대부분이 정규 분포를 따름 (키, 측정 오차 등)
- CLT (Central Limit Theorem) 의 수렴 분포
- 표준화: Z = (X-μ)/σ ~ N(0,1)
지수 분포 (Exponential Distribution)
X ~ Exp(λ)
f(x) = λ·e^(-λx), x ≥ 0
F(x) = 1 - e^(-λx)
E[X] = 1/λ, Var[X] = 1/λ²
무기억성 (Memoryless Property):
P(X > s+t | X > s) = P(X > t)
해석: "이미 s초 기다렸어도, 앞으로 t초 더 기다릴 확률은 처음부터 t초 기다릴 확률과 같다"
→ 지수 분포가 유일한 연속형 무기억 분포!
포아송-지수 관계: 포아송 과정에서 사건 간 대기 시간이 지수 분포를 따름.
균등 분포 (Uniform Distribution)
X ~ U(a, b)
f(x) = 1/(b-a), a ≤ x ≤ b
E[X] = (a+b)/2, Var[X] = (b-a)²/12
- 모든 값이 동일 확률: 난수 생성의 기반
- 역변환 샘플링 (Inverse Transform Sampling): U~U(0,1)을 CDF 역함수에 통과시켜 임의 분포 샘플링
📢 섹션 요약 비유: 균등 분포는 완벽한 주사위, 지수 분포는 "언제 다음 버스가 올까", 정규 분포는 "사람들의 키가 평균 주변에 몰리는 현상"을 모델링한다.
Ⅳ. 분포 형태 비교 다이어그램
┌────────────────────────────────────────────────────────────┐
│ 주요 분포 형태 비교 (개략적 PDF/PMF) │
│ │
│ 이항 B(10,0.3) 포아송(λ=3) 정규 N(0,1) │
│ │
│ │ ■ │ ■ │ ╭──╮ │
│ │ ■■ │ ██ │ ╭╯ ╰╮ │
│ │ ███ │ ███ │ ╭╯ ╰╮ │
│ │ ████ │ ████ │╭╯ ╰╮ │
│ └──────→ k └──────→ k └──────────→ x │
│ (이산, 유한) (이산, 무한) (연속, 대칭) │
│ │
│ 지수 Exp(λ=1) 균등 U(0,1) │
│ │
│ │\ │ ──────── │ │
│ │ \ │ │ │ │ │
│ │ \ │ │ │ │ │
│ │ \ │ │ │ │ │
│ └────→ x └─┴──────┴──→ x │ │
│ (오른쪽 꼬리) (균일 높이) │ │
└────────────────────────────────────────────────────────────┘
Ⅴ. 모수 추정과 분포 간 관계
모수 추정 (Parameter Estimation)
주어진 데이터 x₁,...,xₙ 에서 분포의 모수를 추정하는 방법:
| 방법 | 이름 | 원리 |
|---|---|---|
| MLE (Maximum Likelihood Estimation) | 최대 우도 추정 | P(데이터|모수) 최대화 |
| MOM (Method of Moments) | 적률 추정법 | 표본 적률 = 이론 적률 |
| MAP (Maximum A Posteriori) | 최대 사후 추정 | 사전 분포 + 우도 결합 |
분포 간 연결 관계
┌────────────────────────────────────────────────────────────┐
│ 주요 분포 간 관계 │
│ │
│ Bernoulli(p) ──→ Binomial B(n,p) │
│ │ │
│ n→∞,p→0,np=λ │ │
│ ↓ │
│ Poisson(λ) ──→ 도착 시간 → Exp(λ) │
│ │ │
│ n→∞ (CLT) │ │
│ ↓ │
│ Normal N(μ,σ²) │
│ │ │
│ X=e^Y → Log-Normal │
│ X²합산 → Chi-squared (카이제곱) │
└────────────────────────────────────────────────────────────┘
각 분포 요약 비교표
| 분포 | 모수 | E[X] | Var[X] | 주요 응용 |
|---|---|---|---|---|
| Bernoulli(p) | p | p | p(1-p) | 이진 분류 |
| B(n,p) | n,p | np | np(1-p) | A/B 테스트 |
| Poisson(λ) | λ | λ | λ | 네트워크 부하 |
| N(μ,σ²) | μ,σ | μ | σ² | 오차, 자연 현상 |
| Exp(λ) | λ | 1/λ | 1/λ² | 대기 시간, 수명 |
| U(a,b) | a,b | (a+b)/2 | (b-a)²/12 | 난수 생성 |
📢 섹션 요약 비유: 각 분포는 자연의 특정 패턴을 담은 레시피다 — 이항은 "n번 던진 결과", 포아송은 "단위 시간 내 드문 사건", 정규는 "많은 요인의 합", 지수는 "다음 사건까지 기다림", 균등은 "완전한 무작위".
📌 관련 개념 맵
| 개념 | 연결 개념 | 관계 |
|---|---|---|
| 이항 분포 | 베르누이 시행 | n회 반복 |
| 포아송 분포 | 이항 분포 | 극한 근사 |
| 지수 분포 | 포아송 과정 | 도착 간격 분포 |
| 정규 분포 | CLT | 합의 극한 분포 |
| 균등 분포 | 역변환 샘플링 | 난수 생성 기반 |
| MLE | 최대 우도 추정 | 모수 추정 핵심 |
📈 관련 키워드 및 발전 흐름도
[베르누이 시행 (Bernoulli Trial) — 성공/실패]
│
▼
[이항 분포 (Binomial Distribution) — n회 반복]
│
▼
[포아송 분포 (Poisson Distribution) — 희귀 사건]
│
▼
[정규 분포 (Normal Distribution) — CLT 극한]
│
▼
[MLE 최대 우도 추정 (Maximum Likelihood Estimation)]
확률 분포가 단순 이항 분포에서 극한 근사와 모수 추정으로 체계화된 흐름이다.
👶 어린이를 위한 3줄 비유 설명
- 이항 분포는 "동전 10번 던질 때 앞면이 몇 번 나올까", 포아송 분포는 "하루에 편의점에 손님이 몇 명 올까"야.
- 정규 분포는 "학생들 키가 평균 주변에 가장 많이 몰리고, 멀어질수록 줄어드는 종 모양"이야.
- 지수 분포는 "버스를 기다릴 때, 오래 기다렸어도 다음 1분 안에 버스가 올 확률은 처음부터 기다리는 것과 같아"라는 무기억성을 가져.