핵심 인사이트 (3줄 요약)
- 본질: 통계학은 수집된 데이터에서 패턴과 의미를 추출하고 불확실성을 정량화하는 수학적 방법론으로, 기술통계(Descriptive Statistics) 로 데이터를 요약하고 추론통계(Inferential Statistics) 로 모집단에 대한 결론을 도출한다.
- 가치: 머신러닝·AI·데이터 분석의 수학적 기반이며, 가설 검정(Hypothesis Testing)·신뢰구간(Confidence Interval)·회귀 분석(Regression)은 기술사 시험과 실무 데이터 과학의 핵심 도구다.
- 판단 포인트: 평균은 이상값(Outlier)에 민감하므로 왜도가 큰 분포에서는 중앙값을 사용해야 하며, 상관관계(Correlation)는 인과관계(Causation)를 의미하지 않는다.
Ⅰ. 기술통계 (Descriptive Statistics)
1. 중심 경향 척도
| 척도 | 정의 | 적합 상황 |
|---|---|---|
| 평균 (Mean) | 합계 / 개수 | 정규 분포, 이상값 없음 |
| 중앙값 (Median) | 정렬 후 가운데 값 | 왜도 있는 분포, 이상값 있음 |
| 최빈값 (Mode) | 가장 자주 등장하는 값 | 범주형 데이터 |
2. 분산도 척도
분산(Variance) = Σ(xᵢ - μ)² / n
표준편차(Std Dev) = √분산
IQR = Q3 - Q1 (사분위 범위) — 이상값 강건
변동계수(CV) = 표준편차 / 평균 × 100% — 단위 무관 비교
3. 확률 분포
| 분포 | 파라미터 | 활용 |
|---|---|---|
| 정규 분포 N(μ, σ²) | 평균, 분산 | 자연 현상, 중심 극한 정리 |
| 이항 분포 B(n, p) | 시행 수, 성공 확률 | 이진 결과의 반복 시행 |
| 포아송 분포 P(λ) | 단위 시간당 발생 수 | 희귀 사건 발생 횟수 |
| 지수 분포 Exp(λ) | 발생률 | 대기 시간, 수명 분석 |
- 📢 섹션 요약 비유: 통계의 평균·분산은 '학급 성적표의 평균과 편차' 와 같습니다. 평균이 같아도 편차가 크면 학생들 실력이 들쑥날쑥한 것이고, 편차가 작으면 실력이 고른 것입니다.
Ⅱ. 추론통계 (Inferential Statistics)
1. 가설 검정 프레임워크
가설 검정 절차
① 귀무가설(H₀) 설정: "새 약이 효과 없다"
② 대립가설(H₁) 설정: "새 약이 효과 있다"
③ 유의수준(α) 설정: 보통 0.05 (5%)
④ 검정 통계량 계산 (t, z, χ², F)
⑤ p-value 계산
⑥ 결론: p < α → H₀ 기각 (통계적으로 유의미)
1종 오류 (Type I Error): H₀가 사실인데 기각 (False Positive) — 유의수준 α로 제어 2종 오류 (Type II Error): H₀가 거짓인데 채택 (False Negative) — β로 제어, 1-β = 검정력
2. 주요 검정 방법
| 검정 | 용도 | 전제 조건 |
|---|---|---|
| t-검정 | 두 집단 평균 비교 | 정규 분포 |
| χ²-검정 | 범주형 변수 독립성 | 빈도 데이터 |
| ANOVA | 3개 이상 집단 평균 | 정규·등분산 |
| Mann-Whitney U | 비모수 두 집단 비교 | 정규 분포 불필요 |
- 📢 섹션 요약 비유: 가설 검정은 '법정 재판' 과 같습니다. 귀무가설은 "무죄 추정 원칙", p-value는 "증거의 강도"입니다. 증거가 충분히 강하면(p < 0.05) 무죄(H₀)를 기각하고 유죄(H₁)를 채택합니다.
Ⅲ. 회귀 분석 (Regression Analysis)
단순 선형 회귀
y = β₀ + β₁x + ε
β₁ = Σ(xᵢ-x̄)(yᵢ-ȳ) / Σ(xᵢ-x̄)² (최소제곱법)
β₀ = ȳ - β₁x̄
결정계수 R² = 1 - SS_Res / SS_Total (0~1, 1에 가까울수록 적합)
상관관계 vs. 인과관계
상관관계 (Correlation): r ∈ [-1, 1]
r = 1: 완전 양의 상관
r = 0: 상관 없음
r = -1: 완전 음의 상관
⚠ 상관 ≠ 인과
예시: 아이스크림 판매량 ↑ → 익사 사고 ↑
실제 원인: 더운 날씨 (교란 변수, Confounding Variable)
- 📢 섹션 요약 비유: 상관관계와 인과관계의 혼동은 '닭이 울면 해가 뜬다' 는 오류와 같습니다. 닭 울음과 일출은 상관이 있지만, 닭이 해를 뜨게 만드는 것은 아닙니다.
Ⅳ. 실무 적용 및 기술사 판단
중심 극한 정리(CLT): 표본 크기가 충분히 크면(n≥30), 모집단 분포와 무관하게 표본 평균의 분포는 정규 분포에 근사한다. 통계적 추론의 이론적 근거.
베이즈 정리: P(A|B) = P(B|A)·P(A) / P(B) — 사전 확률을 새로운 증거로 업데이트하는 베이즈 추론의 기초. 나이브 베이즈 분류기·MCMC 샘플링의 근간.
- 📢 섹션 요약 비유: 베이즈 정리는 '날씨 예보를 업데이트하는 방법' 입니다. 어제 예보(사전 확률)를 토대로 오늘 아침 하늘 상태(새 증거)를 보고 비 올 확률을 재계산하는 것이 베이즈 추론입니다.
Ⅴ. 기대효과 및 결론
통계학은 데이터가 넘쳐나는 시대에 "데이터에서 신뢰할 수 있는 결론을 도출하는 언어" 다. 머신러닝의 손실 함수 최소화, A/B 테스트의 통계적 유의성, 모델 평가의 정밀도·재현율 모두 통계학에 뿌리를 두고 있다.
통계학은 "숫자를 계산하는 것"이 아니라, "불확실성 아래에서 합리적 결론을 내리는 것" 이다.
📌 관련 개념 맵
| 개념 | 연결 포인트 |
|---|---|
| 중심 극한 정리 (CLT) | 통계적 추론의 이론적 근거; 표본 크기와 정규 근사 |
| 베이즈 정리 | 사전 확률 → 사후 확률 업데이트; 베이즈 ML의 기초 |
| p-value | 통계적 유의성 판단; 귀무가설 기각 기준 |
| 최소제곱법 (OLS) | 선형 회귀의 파라미터 추정 방법 |
| 교란 변수 (Confounding) | 상관관계의 인과관계 오해를 만드는 숨겨진 변수 |
📈 관련 키워드 및 발전 흐름도
기술통계 (평균·분산·분포)
│
▼
추론통계 (가설 검정·신뢰구간·p-value)
│
▼
회귀 분석 (선형·로지스틱·다항) → 머신러닝 모델
│
▼
베이즈 통계 (사후 분포·MCMC) → 베이즈 딥러닝
│
▼
인과 추론 (Causal Inference) — 상관 넘어 인과 분석
👶 어린이를 위한 3줄 비유 설명
- 통계는 '많은 사람의 특징을 숫자로 요약하는 것' 이에요. 우리 반 키 평균이 150cm라면, 그게 대략 어떤 수준인지 알 수 있는 것처럼요!
- 가설 검정은 '새 레시피가 기존보다 정말 맛있는지 과학적으로 확인하는 것' 이에요. 많은 사람에게 맛보게 해서 우연이 아닌 진짜 차이인지 수학으로 검증해요.
- 중요한 것은 "상관이 있다"는 것이 "원인이다"를 뜻하지 않는다는 거예요. 닭이 울어서 해가 뜨는 게 아닌 것처럼요!