08. 통계학 기초 (Statistics Fundamentals)

핵심 인사이트 (3줄 요약)

본질: 통계학은 수집된 데이터에서 패턴과 의미를 추출하고 불확실성을 정량화하는 수학적 방법론으로, 기술통계(Descriptive Statistics) 로 데이터를 요약하고 추론통계(Inferential Statistics) 로 모집단에 대한 결론을 도출한다.

가치: 머신러닝·AI·데이터 분석의 수학적 기반이며, 가설 검정(Hypothesis Testing)·신뢰구간(Confidence Interval)·회귀 분석(Regression)은 기술사 시험과 실무 데이터 과학의 핵심 도구다.

판단 포인트: 평균은 이상값(Outlier)에 민감하므로 왜도가 큰 분포에서는 중앙값을 사용해야 하며, 상관관계(Correlation)는 인과관계(Causation)를 의미하지 않는다.

Ⅰ. 기술통계 (Descriptive Statistics)

1. 중심 경향 척도

척도	정의	적합 상황
평균 (Mean)	합계 / 개수	정규 분포, 이상값 없음
중앙값 (Median)	정렬 후 가운데 값	왜도 있는 분포, 이상값 있음
최빈값 (Mode)	가장 자주 등장하는 값	범주형 데이터

2. 분산도 척도

분산(Variance) = Σ(xᵢ - μ)² / n
표준편차(Std Dev) = √분산
IQR = Q3 - Q1 (사분위 범위) — 이상값 강건
변동계수(CV) = 표준편차 / 평균 × 100% — 단위 무관 비교

3. 확률 분포

분포	파라미터	활용
정규 분포 N(μ, σ²)	평균, 분산	자연 현상, 중심 극한 정리
이항 분포 B(n, p)	시행 수, 성공 확률	이진 결과의 반복 시행
포아송 분포 P(λ)	단위 시간당 발생 수	희귀 사건 발생 횟수
지수 분포 Exp(λ)	발생률	대기 시간, 수명 분석

📢 섹션 요약 비유: 통계의 평균·분산은 '학급 성적표의 평균과 편차' 와 같습니다. 평균이 같아도 편차가 크면 학생들 실력이 들쑥날쑥한 것이고, 편차가 작으면 실력이 고른 것입니다.

Ⅱ. 추론통계 (Inferential Statistics)

1. 가설 검정 프레임워크

가설 검정 절차
  ① 귀무가설(H₀) 설정: "새 약이 효과 없다"
  ② 대립가설(H₁) 설정: "새 약이 효과 있다"
  ③ 유의수준(α) 설정: 보통 0.05 (5%)
  ④ 검정 통계량 계산 (t, z, χ², F)
  ⑤ p-value 계산
  ⑥ 결론: p < α → H₀ 기각 (통계적으로 유의미)

1종 오류 (Type I Error): H₀가 사실인데 기각 (False Positive) — 유의수준 α로 제어 2종 오류 (Type II Error): H₀가 거짓인데 채택 (False Negative) — β로 제어, 1-β = 검정력

2. 주요 검정 방법

검정	용도	전제 조건
t-검정	두 집단 평균 비교	정규 분포
χ²-검정	범주형 변수 독립성	빈도 데이터
ANOVA	3개 이상 집단 평균	정규·등분산
Mann-Whitney U	비모수 두 집단 비교	정규 분포 불필요

📢 섹션 요약 비유: 가설 검정은 '법정 재판' 과 같습니다. 귀무가설은 "무죄 추정 원칙", p-value는 "증거의 강도"입니다. 증거가 충분히 강하면(p < 0.05) 무죄(H₀)를 기각하고 유죄(H₁)를 채택합니다.

Ⅲ. 회귀 분석 (Regression Analysis)

단순 선형 회귀

y = β₀ + β₁x + ε

β₁ = Σ(xᵢ-x̄)(yᵢ-ȳ) / Σ(xᵢ-x̄)²  (최소제곱법)
β₀ = ȳ - β₁x̄

결정계수 R² = 1 - SS_Res / SS_Total  (0~1, 1에 가까울수록 적합)

상관관계 vs. 인과관계

상관관계 (Correlation): r ∈ [-1, 1]
  r = 1: 완전 양의 상관
  r = 0: 상관 없음
  r = -1: 완전 음의 상관

⚠ 상관 ≠ 인과
예시: 아이스크림 판매량 ↑ → 익사 사고 ↑
실제 원인: 더운 날씨 (교란 변수, Confounding Variable)

📢 섹션 요약 비유: 상관관계와 인과관계의 혼동은 '닭이 울면 해가 뜬다' 는 오류와 같습니다. 닭 울음과 일출은 상관이 있지만, 닭이 해를 뜨게 만드는 것은 아닙니다.

Ⅳ. 실무 적용 및 기술사 판단

중심 극한 정리(CLT): 표본 크기가 충분히 크면(n≥30), 모집단 분포와 무관하게 표본 평균의 분포는 정규 분포에 근사한다. 통계적 추론의 이론적 근거.

베이즈 정리: P(A|B) = P(B|A)·P(A) / P(B) — 사전 확률을 새로운 증거로 업데이트하는 베이즈 추론의 기초. 나이브 베이즈 분류기·MCMC 샘플링의 근간.

📢 섹션 요약 비유: 베이즈 정리는 '날씨 예보를 업데이트하는 방법' 입니다. 어제 예보(사전 확률)를 토대로 오늘 아침 하늘 상태(새 증거)를 보고 비 올 확률을 재계산하는 것이 베이즈 추론입니다.

Ⅴ. 기대효과 및 결론

통계학은 데이터가 넘쳐나는 시대에 "데이터에서 신뢰할 수 있는 결론을 도출하는 언어" 다. 머신러닝의 손실 함수 최소화, A/B 테스트의 통계적 유의성, 모델 평가의 정밀도·재현율 모두 통계학에 뿌리를 두고 있다.

통계학은 "숫자를 계산하는 것"이 아니라, "불확실성 아래에서 합리적 결론을 내리는 것" 이다.

📌 관련 개념 맵

개념	연결 포인트
중심 극한 정리 (CLT)	통계적 추론의 이론적 근거; 표본 크기와 정규 근사
베이즈 정리	사전 확률 → 사후 확률 업데이트; 베이즈 ML의 기초
p-value	통계적 유의성 판단; 귀무가설 기각 기준
최소제곱법 (OLS)	선형 회귀의 파라미터 추정 방법
교란 변수 (Confounding)	상관관계의 인과관계 오해를 만드는 숨겨진 변수

📈 관련 키워드 및 발전 흐름도

기술통계 (평균·분산·분포)
    │
    ▼
추론통계 (가설 검정·신뢰구간·p-value)
    │
    ▼
회귀 분석 (선형·로지스틱·다항) → 머신러닝 모델
    │
    ▼
베이즈 통계 (사후 분포·MCMC) → 베이즈 딥러닝
    │
    ▼
인과 추론 (Causal Inference) — 상관 넘어 인과 분석

👶 어린이를 위한 3줄 비유 설명

통계는 '많은 사람의 특징을 숫자로 요약하는 것' 이에요. 우리 반 키 평균이 150cm라면, 그게 대략 어떤 수준인지 알 수 있는 것처럼요!
가설 검정은 '새 레시피가 기존보다 정말 맛있는지 과학적으로 확인하는 것' 이에요. 많은 사람에게 맛보게 해서 우연이 아닌 진짜 차이인지 수학으로 검증해요.
중요한 것은 "상관이 있다"는 것이 "원인이다"를 뜻하지 않는다는 거예요. 닭이 울어서 해가 뜨는 게 아닌 것처럼요!