510. 통계 기초: 평균, 분산, 왜도, 첨도 (Statistics Basics Mean Variance Skewness Kurtosis)

핵심 인사이트 (3줄 요약)

본질: 기술 통계(Descriptive Statistics)는 데이터의 중심(Central Tendency), 산포(Spread), 형태(Shape)를 네 가지 척도로 압축한다.

가치: 같은 평균·분산을 가진 데이터도 분포 형태가 다를 수 있음을 애스컴 4중주(Anscombe's Quartet)가 증명 — 시각화 없는 요약 통계는 맹점을 낳는다.

판단 포인트: 왜도(Skewness) > 1이면 변환(로그·제곱근) 고려, 첨도(Kurtosis) > 3이면 두꺼운 꼬리(Fat Tail) 위험 관리 필요.

Ⅰ. 개요 및 필요성

데이터를 처음 마주쳤을 때 가장 먼저 하는 작업이 기술 통계다. 수천만 행을 몇 개의 숫자로 축약해 "이 데이터가 어떻게 생겼는가"를 파악한다.

중심 경향 척도 (Central Tendency)

척도	정의	강점	약점
평균 (Mean)	Σxᵢ / n	수학적 처리 용이	이상값(Outlier)에 민감
중앙값 (Median)	정렬 후 중앙 값	이상값에 강건(Robust)	수학적 활용 제한
최빈값 (Mode)	가장 자주 나타나는 값	범주형 데이터 적합	다봉 분포에서 복수 존재

실무 판단: 소득·주택가격처럼 우편향(Right-Skewed) 데이터는 중앙값이 대표성 높다.

📢 섹션 요약 비유: 평균은 반 전체 성적 합을 인원 수로 나눈 것인데, 한 명이 100점을 받으면 나머지가 다 0점이어도 평균이 높아진다. 중앙값은 줄 세운 가운데 사람의 점수라 그런 왜곡이 없다.

Ⅱ. 아키텍처 및 핵심 원리

산포도(Spread) 계층 구조

데이터 분포 요약
┌──────────────────────────────────────────┐
│  중심: Mean / Median / Mode              │
├──────────────────────────────────────────┤
│  산포: Range │ IQR │ Variance │ Std Dev  │
├──────────────────────────────────────────┤
│  형태: Skewness (비대칭) │ Kurtosis (꼬리)│
└──────────────────────────────────────────┘

분산 (Variance, σ²): σ² = Σ(xᵢ − μ)² / n — 편차 제곱합의 평균. 단위가 원래 데이터의 제곱이라 해석이 불편.
표준편차 (Standard Deviation, σ): σ = √σ² — 원래 단위 복원. "평균에서 평균적으로 이만큼 떨어져 있다"는 직관.
IQR (Interquartile Range): Q3 − Q1 — 이상값에 강건한 산포 척도. 박스플롯의 핵심.

분포 형태 척도

척도	공식(표준화)	해석
왜도 (Skewness)	E[(X−μ)³] / σ³	0: 대칭, >0: 우편향, <0: 좌편향
첨도 (Kurtosis)	E[(X−μ)⁴] / σ⁴	정규=3, 초과 첨도=K−3: >0이면 두꺼운 꼬리

📢 섹션 요약 비유: 산포는 선수들의 실력 편차고, 왜도는 "잘하는 선수가 더 많냐 못하는 선수가 더 많냐"의 기울어짐, 첨도는 "중간 실력 선수가 대부분이고 극단만 있냐(뾰족)"를 나타낸다.

Ⅲ. 비교 및 연결

애스컴 4중주 (Anscombe's Quartet) — 통계 함정

Anscombe이 만든 4개 데이터셋은 평균, 분산, 상관계수, 회귀선이 모두 동일하지만 산점도는 완전히 다른 형태(선형, 곡선, 이상값 포함 등)를 보인다.

교훈: 요약 통계만으로 데이터를 판단하지 말고 반드시 시각화를 병행하라.

비교 항목	분산 (Variance)	IQR
이상값 민감도	높음	낮음
활용	모델 학습, 정규 분포	EDA, 박스플롯

📢 섹션 요약 비유: 동일한 성적 통계를 가진 두 반이 있어도 한 반은 모두 고른 실력, 다른 반은 상위권과 하위권이 극단적으로 나뉠 수 있다 — 평균만 보면 차이를 놓친다.

Ⅳ. 실무 적용 및 기술사 판단

시나리오: 전자상거래 구매 금액 분포 분석

평균 구매금액 58,000원, 중앙값 22,000원 → 우편향(Right-Skewed) 확인.
왜도 = 2.8 → 로그 변환(Log Transform) 적용 후 모델 학습.
첨도 = 5.1 (초과 첨도 2.1) → 고가 구매의 극단값이 이상 탐지(Anomaly Detection) 대상.
IQR 기반 박스플롯으로 이상값(1.5·IQR 초과) 28건 확인 → 제거 or 보정.

기술사 판단 포인트:

왜도 |S| > 1: 변환 또는 비모수(Non-Parametric) 검정 전환 검토.
첨도 > 3 (두꺼운 꼬리): 금융 리스크 모델에서 VaR(Value at Risk) 과소 추정 위험.
📢 섹션 요약 비유: 데이터 분석은 환자 혈액검사와 같다. 평균 혈당만 봐서는 안 되고, 얼마나 들쭉날쭉한지(분산), 고혈당 쪽으로 치우쳤는지(왜도), 극단값이 자주 나타나는지(첨도)까지 종합 판단해야 한다.

Ⅴ. 기대효과 및 결론

기술 통계의 완전한 이해는 모든 데이터 분석의 출발점이다. 중심·산포·형태를 동시에 파악하고 시각화로 검증할 때 데이터 품질 문제와 분포 특성을 조기에 발견할 수 있다.

EDA(Exploratory Data Analysis) 효율 향상: 이상값·편향 조기 발견으로 모델 학습 전 데이터 정제 시간 단축.
적절한 모델 선택: 분포 형태에 따라 파라미터 검정 vs 비모수 검정을 올바르게 선택.
의사 결정 신뢰성 제고: 요약 통계와 시각화를 함께 보고하여 이해관계자의 오해를 방지.
📢 섹션 요약 비유: 기술 통계는 지도에서 현재 위치를 찍는 것이다. 위치(평균)만 알면 지형(분포 형태)을 모른다. 위치·고도·경사(중심·산포·형태)를 함께 봐야 올바른 길을 찾을 수 있다.

📌 관련 개념 맵

개념	연결 포인트
평균/중앙값	이상값 탐지, 편향 분석 · EDA 1단계
분산/표준편차	정규 분포, Z-Score · 표준화, 가설 검정
IQR	박스플롯, Tukey 방법 · 이상값 제거
왜도	로그 변환, 비모수 검정 · 전처리 판단
첨도	꼬리 리스크, Fat Tail · 금융·보험 모델

📈 관련 키워드 및 발전 흐름도

[이상값 탐지 · 편향 분석] → [통계 기초: 평균 · 분산] → [꼬리 리스크 · Fat Tail]

👶 어린이를 위한 3줄 비유 설명

반 친구들의 키를 조사할 때 평균 키는 "전체를 고르게 나눈 키"고, 중앙값은 "줄 세웠을 때 한가운데 친구의 키"야.
분산은 친구들의 키가 얼마나 들쭉날쭉한지를 나타내고, 왜도는 키가 큰 쪽으로 몰렸는지 작은 쪽으로 몰렸는지를 알려줘.
첨도는 대부분 비슷한 키인데 갑자기 아주 크거나 작은 친구가 있는지 나타내는 거야!