9. 정규 분포 (Normal Distribution) — 68-95-99.7 규칙

핵심 인사이트

정규 분포 (Normal Distribution) 는 자연·사회·측정 오차에서 가장 보편적으로 등장하는 분포로, 그 이유는 CLT (Central Limit Theorem) — 독립적인 많은 요인의 합은 정규로 수렴하기 때문이다. 68-95-99.7 경험 법칙 (Empirical Rule) 은 μ±1σ/2σ/3σ 범위의 확률을 외워 두는 것만으로도 이상 탐지·품질 관리·신뢰 구간 계산의 빠른 추정이 가능하다. Z-점수 (Z-score) 표준화는 서로 다른 단위·스케일의 데이터를 "평균 0, 표준편차 1" 로 통일해, 비교·정규화·머신러닝 전처리의 핵심 연산이다.

Ⅰ. 정규 분포의 정의와 PDF

정의

X ~ N(μ, σ²)

PDF (Probability Density Function):
f(x) = ─────────────── · exp(- (x-μ)² )
       σ√(2π)                   2σ²

모수:
  μ (뮤): 평균 — 분포의 위치 (Location)
  σ (시그마): 표준편차 — 분포의 폭 (Scale)
  σ²: 분산

정규 분포의 핵심 성질:

평균 μ 에서 최댓값 (Peak)
좌우 대칭: 평균 = 중앙값 = 최빈값
양 끝으로 갈수록 0에 수렴 (무한 꼬리)
전체 넓이 = 1: ∫₋∞^{+∞} f(x)dx = 1

표준 정규 분포 (Standard Normal Distribution)

Z ~ N(0, 1)   (μ=0, σ=1 의 특수 경우)

표준화 (Standardization):
  Z = (X - μ) / σ

역변환:
  X = μ + σZ

📢 섹션 요약 비유: 정규 분포는 가운데가 가장 높고 양쪽으로 퍼지는 종 모양으로, 자연에서 가장 "공평하게 퍼진" 패턴이다 — 평균 주변에 가장 많이 몰리고 극단값은 드물다.

Ⅱ. 68-95-99.7 경험 법칙

┌──────────────────────────────────────────────────────────────┐
│  정규 분포 — 68-95-99.7 경험 법칙 (Empirical Rule)           │
│                                                              │
│                      ╭────╮                                  │
│                    ╭─╯    ╰─╮                                │
│                  ╭─╯        ╰─╮                              │
│                ╭─╯            ╰─╮                            │
│             ╭──╯                ╰──╮                         │
│          ╭──╯                      ╰──╮                      │
│  ──────╭─╯                            ╰─╮──────────          │
│        │                                │                    │
│  ──────┼────────────────────────────────┼──────────          │
│       μ-3σ  μ-2σ  μ-σ    μ    μ+σ  μ+2σ  μ+3σ               │
│                                                              │
│  ├──────────── 99.7% ──────────────┤                         │
│        ├──────── 95.0% ────────┤                             │
│              ├──── 68.0% ────┤                               │
│                                                              │
│  μ ± 1σ → 전체의 68.27% 포함                                 │
│  μ ± 2σ → 전체의 95.45% 포함                                 │
│  μ ± 3σ → 전체의 99.73% 포함                                 │
│  μ ± 4σ → 전체의 99.994% 포함                               │
└──────────────────────────────────────────────────────────────┘

실용적 응용

예시 — IQ 분포 N(100, 15²):

범위	IQ 구간	비율
μ ± 1σ	85 ~ 115	68%
μ ± 2σ	70 ~ 130	95%
μ ± 3σ	55 ~ 145	99.7%

오차 분석 (σ 거리별 의미):

1σ 이탈: 흔한 변동 (일상적)
2σ 이탈: 주의 신호 (5% 확률)
3σ 이탈: 이상 탐지 신호 (0.3% 확률)
6σ (Six Sigma): 10억분의 3.4 불량률 목표

📢 섹션 요약 비유: 68-95-99.7 법칙은 "정상 범위"를 판단하는 빠른 기준이다 — μ±2σ 밖이면 "드문 경우", μ±3σ 밖이면 "이상 신호"로 즉시 경계할 수 있다.

Ⅲ. Z-점수와 표준화

Z-점수 (Z-score) 정의와 의미

Z = (X - μ) / σ

해석:
  Z = 0: 평균
  Z = +1: 평균보다 1표준편차 위
  Z = -2: 평균보다 2표준편차 아래
  |Z| > 3: 극단값 (이상치 의심)

Z-점수 ↔ 백분위수 매핑

Z-점수	누적 확률 P(Z ≤ z)	백분위수
-3.0	0.0013	0.13%ile
-2.0	0.0228	2.28%ile
-1.0	0.1587	15.87%ile
0.0	0.5000	50.00%ile
+1.0	0.8413	84.13%ile
+1.645	0.9500	95.00%ile
+1.960	0.9750	97.50%ile
+2.0	0.9772	97.72%ile
+2.576	0.9950	99.50%ile
+3.0	0.9987	99.87%ile

ML 전처리에서의 표준화

표준 정규화 (Standard Scaling):
  X_scaled = (X - μ) / σ

목적:
  1. 서로 다른 단위 특징의 스케일 통일
  2. 경사 하강법 (Gradient Descent) 수렴 가속
  3. 거리 기반 알고리즘 (KNN, SVM) 편향 제거

주의: 정규 분포를 가정하지 않아도 사용 가능

📢 섹션 요약 비유: Z-점수는 "전국 시험에서 내 점수가 상위 몇 %인가"를 평균과 표준편차만 알면 즉시 계산하게 해주는 변환이다 — 모든 점수를 동일한 자로 재는 셈이다.

Ⅳ. 로그 정규 분포와 변형

로그 정규 분포 (Log-Normal Distribution)

X가 로그 정규 분포 ⟺ Y = ln(X) ~ N(μ, σ²)

E[X] = exp(μ + σ²/2)
Var[X] = (exp(σ²)-1) · exp(2μ+σ²)

특성: 항상 양수, 오른쪽 꼬리가 긴 (Right-skewed) 분포

응용:

주가 수익률 (Financial Returns)
인터넷 사이트 방문자 체류 시간
소득 분포
복잡계에서 곱셈적 성장 결과

정규 vs 로그 정규 비교:
  정규: 덧셈으로 만들어진 합 (CLT 수렴)
  로그 정규: 곱셈으로 만들어진 결과 (log 취하면 정규)

📢 섹션 요약 비유: 로그 정규 분포는 "0원에서 시작해 매 달 랜덤한 비율로 성장하는 투자 수익"처럼, 곱셈적으로 변하는 현상의 분포다 — 돈이 많을수록 더 커지는 자본의 논리.

Ⅴ. 응용 — SPC·가설 검정·오차 분석

SPC (Statistical Process Control, 통계적 공정 관리)

관리도 (Control Chart) 설계:
  UCL (Upper Control Limit) = μ + 3σ
  CL (Center Line) = μ
  LCL (Lower Control Limit) = μ - 3σ

샘플 측정값이 UCL/LCL을 벗어나면 → 공정 이상 (Out of Control)
정상 범위 내 랜덤 변동 → 우연 원인 (Common Cause)
이탈 → 특수 원인 (Special Cause) → 즉시 조사

가설 검정 (Hypothesis Testing) 기반

귀무 가설 H₀: μ = μ₀ (정규 분포 가정)

검정 통계량: Z = (X̄ - μ₀) / (σ/√n) ~ N(0,1)

유의 수준 α=0.05:
  |Z| > 1.96 → H₀ 기각 (p-value < 0.05)
  |Z| < 1.96 → H₀ 채택 불가 기각

신뢰 구간 (Confidence Interval) 95%:
  X̄ ± 1.96 · σ/√n

오차 모델

측정값 = 실제값 + 오차
오차 ~ N(0, σ²)    (가우스 오차 모델, Gaussian Error Model)

최소 제곱법 (Least Squares Method) =
가우스 오차 모델에서의 MLE (Maximum Likelihood Estimation)

📢 섹션 요약 비유: 정규 분포는 측정 오차가 "작은 오차는 자주, 큰 오차는 드물게, 방향은 무작위"로 생긴다고 가정하는 자연스러운 모델이다 — 가우스가 천문 관측 오차를 분석하며 발견했다.

📌 관련 개념 맵

개념	연결 개념	관계
정규 분포	CLT	합의 극한 분포
Z-점수	가설 검정	검정 통계량 기반
68-95-99.7	이상 탐지, SPC	임계값 설정 기준
로그 정규	주가 모델, 소득 분포	양수·비대칭 데이터
표준 정규	Z-table, p-value	확률 계산 참조표
최소 제곱법	가우스 오차 모델	MLE 동치 증명

📈 관련 키워드 및 발전 흐름도

[데이터 분포 표현 필요]
    │
    ▼
[중심극한정리(CLT)]
    │
    ▼
[정규분포(Normal Distribution)]
    │
    ▼
[표준화(Z-점수)]
    │
    ▼
[통계 검정/머신러닝 응용]

정규분포는 중심극한정리에서 나오며 표준화와 통계 검정의 기본 분포다.

👶 어린이를 위한 3줄 비유 설명

정규 분포는 "학생들 키가 165cm 주변에 가장 많고, 멀어질수록 줄어드는 종 모양 그래프"야.
68-95-99.7 법칙은 "보통은 평균 ±1칸(68%), 거의 다는 평균 ±2칸(95%), 극히 드문 경우만 ±3칸 밖(0.3%)"이라는 편리한 규칙이야.
Z-점수는 "내 점수가 평균에서 몇 표준편차 떨어진 자리인지"를 나타내서, 시험 점수를 전국 기준으로 비교할 수 있어.