7. 분산 (Variance) / 표준편차 (Standard Deviation) — 산포도

핵심 인사이트

분산 (Variance) 은 "평균에서 얼마나 흩어져 있는가"를 측정하는 제곱 평균이고, 표준편차 (Standard Deviation) 는 원래 단위로 복원한 산포 척도다. 공분산 (Covariance) 과 상관 계수 (Correlation Coefficient) 는 두 변수의 연동 방향과 강도를 측정하며, 포트폴리오 이론·특징 선택·정규화 설계의 핵심이다. 체비쇼프 부등식 (Chebyshev's Inequality) 은 분포의 형태를 모르더라도 "평균 ±kσ 범위 밖에 있을 확률의 상한"을 보장하는 분포-무관 (Distribution-Free) 부등식이다.

Ⅰ. 분산과 표준편차의 정의

분산 (Variance)

Var[X] = E[(X-μ)²]    (정의)
       = E[X²] - (E[X])²   (계산 공식, 실무적으로 이 공식 사용)

여기서 μ = E[X]

계산 공식이 더 편한 이유:

E[(X-μ)²] = E[X²-2μX+μ²]
           = E[X²] - 2μ·E[X] + μ²
           = E[X²] - 2μ² + μ²
           = E[X²] - μ²
           = E[X²] - (E[X])²

표준편차 (Standard Deviation)

σ = √Var[X]

장점: 원래 단위와 같음 (분산은 단위²)
예: 키의 분산 = cm² → 표준편차 = cm

예시 — 주사위:

E[X] = 3.5
E[X²] = (1²+2²+3²+4²+5²+6²)/6 = 91/6 ≈ 15.17
Var[X] = 15.17 - 3.5² = 15.17 - 12.25 ≈ 2.92
σ ≈ 1.71

📢 섹션 요약 비유: 분산은 "평균에서 각 학생 점수가 얼마나 벗어났는지의 제곱 평균"이고, 표준편차는 그것의 제곱근으로 "점수가 평균에서 평균적으로 얼마나 떨어져 있는지"다.

Ⅱ. 분산의 주요 성질

상수와 분산

Var[c] = 0                  (상수는 산포 없음)
Var[X+c] = Var[X]           (이동(shift)은 분산 불변!)
Var[cX] = c²·Var[X]         (스케일 제곱)
Var[aX+b] = a²·Var[X]       (이동+스케일)

핵심: 기댓값은 E[X+c] = E[X]+c 이지만, 분산은 Var[X+c] = Var[X] — 이동해도 흩어짐은 그대로다.

합의 분산

독립인 경우:
  Var[X+Y] = Var[X] + Var[Y]

종속인 경우:
  Var[X+Y] = Var[X] + Var[Y] + 2·Cov[X,Y]

일반적으로:
  Var[Σᵢ Xᵢ] = Σᵢ Var[Xᵢ] + 2·Σ_{i<j} Cov[Xᵢ,Xⱼ]

분산 공식 정리

공식	수식	조건
정의	Var[X] = E[(X-μ)²]	항상
계산 공식	E[X²]-(E[X])²	항상
스케일	Var[cX] = c²Var[X]	항상
이동	Var[X+c] = Var[X]	항상
합 (독립)	Var[X+Y] = Var[X]+Var[Y]	독립인 경우
합 (일반)	Var[X+Y] = Var[X]+Var[Y]+2Cov[X,Y]	항상

📢 섹션 요약 비유: 분산에서 이동이 영향을 주지 않는 것은, 반 전체 점수를 10점씩 올리면 평균은 바뀌지만 각자의 흩어진 정도는 그대로인 것과 같다.

Ⅲ. 공분산과 상관 계수

공분산 (Covariance)

Cov[X,Y] = E[(X-μX)(Y-μY)]
          = E[XY] - E[X]·E[Y]

해석:
  Cov[X,Y] > 0: X,Y가 같은 방향으로 움직임
  Cov[X,Y] < 0: X,Y가 반대 방향으로 움직임
  Cov[X,Y] = 0: 선형 무관계 (비선형 관계는 있을 수 있음)

주의: X⊥Y이면 Cov[X,Y]=0이지만, Cov[X,Y]=0이라고 독립은 아님!

상관 계수 (Correlation Coefficient)

ρ(X,Y) = Cov[X,Y] / (σX · σY),   -1 ≤ ρ ≤ 1

ρ = +1: 완전 양의 선형 상관
ρ = 0 : 선형 무상관
ρ = -1: 완전 음의 선형 상관

저분산 vs 고분산 시각화:

┌──────────────────────────────────────────────────────────┐
│  저분산 분포                   고분산 분포               │
│                                                          │
│      ████                    ██                         │
│     ██████                  ████                        │
│    ████████                ██████                       │
│   ██████████              ████████                      │
│  ────μ────→              ───────μ───────→               │
│                                                         │
│  σ 작음 (좁은 분포)       σ 큼 (넓은 분포)             │
│                                                         │
│  품질 균일 (소분산)        위험 높음 (대분산)            │
└──────────────────────────────────────────────────────────┘

변동 계수 (CV, Coefficient of Variation)

CV = σ / μ × 100%

용도: 단위가 다른 분포들의 상대적 산포 비교
예: 키(σ=10cm, μ=170cm) CV=5.9%
   체중(σ=10kg, μ=70kg)  CV=14.3% → 체중이 상대적으로 더 산포

📢 섹션 요약 비유: 상관 계수는 "두 학생의 시험 점수 등락이 같이 올라가면 +1, 반대로 움직이면 -1, 무관하면 0"처럼 두 변수가 어떻게 함께 움직이는지 알려주는 나침반이다.

Ⅳ. 체비쇼프 부등식

공식

P(|X-μ| ≥ kσ) ≤ 1/k²    (k > 0)

동치: P(|X-μ| < kσ) ≥ 1 - 1/k²

분포 모양에 관계없이 성립하는 강력한 부등식!

| k 값 | P(|X-μ| ≥ kσ) ≤ | P(μ ± kσ 범위 내) ≥ | |:---:|:---:|:---:| | 1 | 100% (자명) | 0% | | 2 | 25% | 75% | | 3 | 11.1% | 88.9% | | 4 | 6.25% | 93.75% | | 10 | 1% | 99% |

정규 분포와의 비교:

정규 분포 μ±2σ: 95.4% (체비쇼프: 75% 이상 보장)
체비쇼프는 더 느슨하지만 모든 분포에 적용 가능

응용 — 표본 평균의 수렴 증명

X₁,...,Xₙ i.i.d., E[Xᵢ]=μ, Var[Xᵢ]=σ²

표본 평균 X̄ = (1/n)ΣXᵢ:
  E[X̄] = μ
  Var[X̄] = σ²/n

체비쇼프 적용:
  P(|X̄-μ| ≥ ε) ≤ σ²/(nε²) → 0 as n→∞

→ 대수의 법칙 (Law of Large Numbers) 증명!

📢 섹션 요약 비유: 체비쇼프 부등식은 "분포가 어떻든 간에, 평균에서 3배 표준편차 이상 벗어날 확률은 최대 11%다"라는 최악의 경우 보증서다.

Ⅴ. 분산의 실무 응용

금융 위험 분석 (Risk Analysis)

포트폴리오 수익률 R = w₁R₁ + w₂R₂

Var[R] = w₁²Var[R₁] + w₂²Var[R₂] + 2w₁w₂Cov[R₁,R₂]
       = w₁²σ₁² + w₂²σ₂² + 2w₁w₂ρσ₁σ₂

→ ρ = -1 이면 완전 분산 투자(헤지) 가능
→ ρ > 0 이면 리스크 분산 효과 감소

ML 정규화 (Regularization)

L2 정규화 (Ridge): 가중치 분산 억제
  Loss = MSE + λ·Σ wᵢ²    (Var[w] 감소)
  → 과적합 방지, 분산-편향 트레이드오프

품질 관리 (Quality Control)

SPC (Statistical Process Control, 통계적 공정 관리):
  UCL (Upper Control Limit) = μ + 3σ
  LCL (Lower Control Limit) = μ - 3σ

  μ±3σ 범위 벗어남 → 공정 이상 신호
  (정규 분포 가정 시 오경보율 = 0.27%)

📢 섹션 요약 비유: 품질 관리에서 표준편차는 "공장 제품이 목표에서 평균적으로 얼마나 벗어나는지"를 측정해 불량률을 사전에 잡는 감시 도구다.

📌 관련 개념 맵

개념	연결 개념	관계
분산	기댓값	E[X²]-(E[X])²
표준편차	정규 분포 68-95-99.7	μ±σ 범위 정의
공분산	상관 계수	표준화한 공분산
체비쇼프	대수의 법칙	수렴 증명 도구
변동 계수	비교 통계	단위 무관 산포
ML 정규화	과적합 방지	분산 억제 메커니즘

📈 관련 키워드 및 발전 흐름도

[중심 경향 (Central Tendency)]
    │
    ▼
[편차 (Deviation)]
    │
    ▼
[분산 (Variance)]
    │
    ▼
[표준 편차 (Standard Deviation)]
    │
    ▼
[정규 분포 (Normal Distribution)]
    │
    ▼
[통계적 추론 (Statistical Inference)]

평균에서 벗어난 정도를 수치화한 분산이 표준 편차·분포 분석·통계 추론으로 이어지는 흐름이다.

👶 어린이를 위한 3줄 비유 설명

분산은 "친구들의 점수가 평균에서 얼마나 멀리 흩어져 있는지"를 제곱해서 평균 낸 거야.
표준편차는 그 제곱근으로, 점수와 같은 단위(점)로 돌아온 흩어짐의 크기야.
상관 계수는 "수학 잘하는 친구가 과학도 잘하는 경향이 있나"를 -1부터 +1 사이로 나타내.