핵심 인사이트
정규 분포 (Normal Distribution) 는 자연·사회·측정 오차에서 가장 보편적으로 등장하는 분포로, 그 이유는 CLT (Central Limit Theorem) — 독립적인 많은 요인의 합은 정규로 수렴하기 때문이다. 68-95-99.7 경험 법칙 (Empirical Rule) 은 μ±1σ/2σ/3σ 범위의 확률을 외워 두는 것만으로도 이상 탐지·품질 관리·신뢰 구간 계산의 빠른 추정이 가능하다. Z-점수 (Z-score) 표준화는 서로 다른 단위·스케일의 데이터를 "평균 0, 표준편차 1" 로 통일해, 비교·정규화·머신러닝 전처리의 핵심 연산이다.
Ⅰ. 정규 분포의 정의와 PDF
정의
X ~ N(μ, σ²)
PDF (Probability Density Function):
f(x) = ─────────────── · exp(- (x-μ)² )
σ√(2π) 2σ²
모수:
μ (뮤): 평균 — 분포의 위치 (Location)
σ (시그마): 표준편차 — 분포의 폭 (Scale)
σ²: 분산
정규 분포의 핵심 성질:
- 평균 μ 에서 최댓값 (Peak)
- 좌우 대칭: 평균 = 중앙값 = 최빈값
- 양 끝으로 갈수록 0에 수렴 (무한 꼬리)
- 전체 넓이 = 1: ∫₋∞^{+∞} f(x)dx = 1
표준 정규 분포 (Standard Normal Distribution)
Z ~ N(0, 1) (μ=0, σ=1 의 특수 경우)
표준화 (Standardization):
Z = (X - μ) / σ
역변환:
X = μ + σZ
📢 섹션 요약 비유: 정규 분포는 가운데가 가장 높고 양쪽으로 퍼지는 종 모양으로, 자연에서 가장 "공평하게 퍼진" 패턴이다 — 평균 주변에 가장 많이 몰리고 극단값은 드물다.
Ⅱ. 68-95-99.7 경험 법칙
┌──────────────────────────────────────────────────────────────┐
│ 정규 분포 — 68-95-99.7 경험 법칙 (Empirical Rule) │
│ │
│ ╭────╮ │
│ ╭─╯ ╰─╮ │
│ ╭─╯ ╰─╮ │
│ ╭─╯ ╰─╮ │
│ ╭──╯ ╰──╮ │
│ ╭──╯ ╰──╮ │
│ ──────╭─╯ ╰─╮────────── │
│ │ │ │
│ ──────┼────────────────────────────────┼────────── │
│ μ-3σ μ-2σ μ-σ μ μ+σ μ+2σ μ+3σ │
│ │
│ ├──────────── 99.7% ──────────────┤ │
│ ├──────── 95.0% ────────┤ │
│ ├──── 68.0% ────┤ │
│ │
│ μ ± 1σ → 전체의 68.27% 포함 │
│ μ ± 2σ → 전체의 95.45% 포함 │
│ μ ± 3σ → 전체의 99.73% 포함 │
│ μ ± 4σ → 전체의 99.994% 포함 │
└──────────────────────────────────────────────────────────────┘
실용적 응용
예시 — IQ 분포 N(100, 15²):
| 범위 | IQ 구간 | 비율 |
|---|---|---|
| μ ± 1σ | 85 ~ 115 | 68% |
| μ ± 2σ | 70 ~ 130 | 95% |
| μ ± 3σ | 55 ~ 145 | 99.7% |
오차 분석 (σ 거리별 의미):
- 1σ 이탈: 흔한 변동 (일상적)
- 2σ 이탈: 주의 신호 (5% 확률)
- 3σ 이탈: 이상 탐지 신호 (0.3% 확률)
- 6σ (Six Sigma): 10억분의 3.4 불량률 목표
📢 섹션 요약 비유: 68-95-99.7 법칙은 "정상 범위"를 판단하는 빠른 기준이다 — μ±2σ 밖이면 "드문 경우", μ±3σ 밖이면 "이상 신호"로 즉시 경계할 수 있다.
Ⅲ. Z-점수와 표준화
Z-점수 (Z-score) 정의와 의미
Z = (X - μ) / σ
해석:
Z = 0: 평균
Z = +1: 평균보다 1표준편차 위
Z = -2: 평균보다 2표준편차 아래
|Z| > 3: 극단값 (이상치 의심)
Z-점수 ↔ 백분위수 매핑
| Z-점수 | 누적 확률 P(Z ≤ z) | 백분위수 |
|---|---|---|
| -3.0 | 0.0013 | 0.13%ile |
| -2.0 | 0.0228 | 2.28%ile |
| -1.0 | 0.1587 | 15.87%ile |
| 0.0 | 0.5000 | 50.00%ile |
| +1.0 | 0.8413 | 84.13%ile |
| +1.645 | 0.9500 | 95.00%ile |
| +1.960 | 0.9750 | 97.50%ile |
| +2.0 | 0.9772 | 97.72%ile |
| +2.576 | 0.9950 | 99.50%ile |
| +3.0 | 0.9987 | 99.87%ile |
ML 전처리에서의 표준화
표준 정규화 (Standard Scaling):
X_scaled = (X - μ) / σ
목적:
1. 서로 다른 단위 특징의 스케일 통일
2. 경사 하강법 (Gradient Descent) 수렴 가속
3. 거리 기반 알고리즘 (KNN, SVM) 편향 제거
주의: 정규 분포를 가정하지 않아도 사용 가능
📢 섹션 요약 비유: Z-점수는 "전국 시험에서 내 점수가 상위 몇 %인가"를 평균과 표준편차만 알면 즉시 계산하게 해주는 변환이다 — 모든 점수를 동일한 자로 재는 셈이다.
Ⅳ. 로그 정규 분포와 변형
로그 정규 분포 (Log-Normal Distribution)
X가 로그 정규 분포 ⟺ Y = ln(X) ~ N(μ, σ²)
E[X] = exp(μ + σ²/2)
Var[X] = (exp(σ²)-1) · exp(2μ+σ²)
특성: 항상 양수, 오른쪽 꼬리가 긴 (Right-skewed) 분포
응용:
- 주가 수익률 (Financial Returns)
- 인터넷 사이트 방문자 체류 시간
- 소득 분포
- 복잡계에서 곱셈적 성장 결과
정규 vs 로그 정규 비교:
정규: 덧셈으로 만들어진 합 (CLT 수렴)
로그 정규: 곱셈으로 만들어진 결과 (log 취하면 정규)
📢 섹션 요약 비유: 로그 정규 분포는 "0원에서 시작해 매 달 랜덤한 비율로 성장하는 투자 수익"처럼, 곱셈적으로 변하는 현상의 분포다 — 돈이 많을수록 더 커지는 자본의 논리.
Ⅴ. 응용 — SPC·가설 검정·오차 분석
SPC (Statistical Process Control, 통계적 공정 관리)
관리도 (Control Chart) 설계:
UCL (Upper Control Limit) = μ + 3σ
CL (Center Line) = μ
LCL (Lower Control Limit) = μ - 3σ
샘플 측정값이 UCL/LCL을 벗어나면 → 공정 이상 (Out of Control)
정상 범위 내 랜덤 변동 → 우연 원인 (Common Cause)
이탈 → 특수 원인 (Special Cause) → 즉시 조사
가설 검정 (Hypothesis Testing) 기반
귀무 가설 H₀: μ = μ₀ (정규 분포 가정)
검정 통계량: Z = (X̄ - μ₀) / (σ/√n) ~ N(0,1)
유의 수준 α=0.05:
|Z| > 1.96 → H₀ 기각 (p-value < 0.05)
|Z| < 1.96 → H₀ 채택 불가 기각
신뢰 구간 (Confidence Interval) 95%:
X̄ ± 1.96 · σ/√n
오차 모델
측정값 = 실제값 + 오차
오차 ~ N(0, σ²) (가우스 오차 모델, Gaussian Error Model)
최소 제곱법 (Least Squares Method) =
가우스 오차 모델에서의 MLE (Maximum Likelihood Estimation)
📢 섹션 요약 비유: 정규 분포는 측정 오차가 "작은 오차는 자주, 큰 오차는 드물게, 방향은 무작위"로 생긴다고 가정하는 자연스러운 모델이다 — 가우스가 천문 관측 오차를 분석하며 발견했다.
📌 관련 개념 맵
| 개념 | 연결 개념 | 관계 |
|---|---|---|
| 정규 분포 | CLT | 합의 극한 분포 |
| Z-점수 | 가설 검정 | 검정 통계량 기반 |
| 68-95-99.7 | 이상 탐지, SPC | 임계값 설정 기준 |
| 로그 정규 | 주가 모델, 소득 분포 | 양수·비대칭 데이터 |
| 표준 정규 | Z-table, p-value | 확률 계산 참조표 |
| 최소 제곱법 | 가우스 오차 모델 | MLE 동치 증명 |
📈 관련 키워드 및 발전 흐름도
[데이터 분포 표현 필요]
│
▼
[중심극한정리(CLT)]
│
▼
[정규분포(Normal Distribution)]
│
▼
[표준화(Z-점수)]
│
▼
[통계 검정/머신러닝 응용]
정규분포는 중심극한정리에서 나오며 표준화와 통계 검정의 기본 분포다.
👶 어린이를 위한 3줄 비유 설명
- 정규 분포는 "학생들 키가 165cm 주변에 가장 많고, 멀어질수록 줄어드는 종 모양 그래프"야.
- 68-95-99.7 법칙은 "보통은 평균 ±1칸(68%), 거의 다는 평균 ±2칸(95%), 극히 드문 경우만 ±3칸 밖(0.3%)"이라는 편리한 규칙이야.
- Z-점수는 "내 점수가 평균에서 몇 표준편차 떨어진 자리인지"를 나타내서, 시험 점수를 전국 기준으로 비교할 수 있어.