63. 기초 통계 - 중심 경향도(Central Tendency)와 산포도(Dispersion)

⚠️ 이 문서는 수십만 줄의 엑셀 숫자 덩어리(데이터)를 사람이 이해할 수 있는 단 몇 개의 숫자로 압축하여 "이 데이터 집단이 대체 어떤 특징을 가졌는가?"를 설명해 내는 가장 강력하고 기본적인 통계 무기인, **데이터가 어디로 뭉쳐있는지를 보여주는 '중심 경향도(평균, 중앙값, 최빈값)'와 데이터가 얼마나 심하게 널뛰고 있는지를 보여주는 '산포도(분산, 표준편차, 사분위수)'**를 다룹니다.

핵심 인사이트 (3줄 요약)

  1. 본질: 수만 명의 키, 몸무게 데이터를 하나하나 읽을 수 없으니, 데이터의 '대표 얼굴(중심)'과 그 주변에 사람들이 '얼마나 흩어져 있는지(산포)'를 숫자 2개로 요약해 내는 기술이다.
  2. 가치: "우리 회사 고객 평균 월급은 1,000만 원이야"라는 오류(함정)에 빠지지 않도록 해준다. 극단적으로 돈이 많은 재벌 1명(이상치) 때문에 평균이 왜곡되었을 때, 이를 짚어내고 진짜 대다수 고객의 수준(중앙값)을 찾아내어 엉터리 비즈니스 결정을 막아준다.
  3. 기술 체계: 중심을 찾을 때는 산술 평균(Mean), 줄을 세웠을 때 정가운데 있는 중앙값(Median), 가장 많이 나온 **최빈값(Mode)**을 상황에 맞게 골라 쓰며, 흩어진 정도를 볼 때는 분산(Variance)과 표준편차(SD), 그리고 이상치를 무시하는 **IQR(사분위수 범위)**을 무기로 쓴다.

Ⅰ. 중심 경향도 (Central Tendency): 대장을 찾아라

데이터의 무게 중심이 어디에 쏠려 있는지 찾아내는 3가지 방법이다.

  1. 산술 평균 (Mean)의 함정과 이상치(Outlier):
    • 모든 데이터를 더해서 개수로 나눈 가장 친숙한 대장이다.
    • 치명적 단점: 9명의 월급이 200만 원인데, 갑자기 워렌 버핏 1명(월급 100억)이 데이터에 끼어들면? 10명의 '평균' 월급은 10억 원으로 널뛰기해 버린다. (이상치에 극도로 취약함)
    • 데이터가 종 모양(정규분포)으로 아주 예쁠 때만 진짜 대장 역할을 할 수 있다.
  2. 중앙값 (Median): 철벽의 방어자:
    • 10명의 월급을 적은 순서부터 1등부터 10등까지 일렬로 쭉 세운 뒤, 정확히 한가운데(5등과 6등 사이) 서 있는 사람의 월급을 뽑아낸다.
    • 10등 자리에 워렌 버핏이 100억을 벌든 1,000억을 벌든, 가운데 있는 5.5등의 월급은 200만 원으로 굳건히 버틴다.
    • 소득 분포, 집값 분포처럼 꼬리가 긴(비대칭, Skewed) 데이터에서 절대적인 대표값으로 쓰인다. (뉴스에서 '중위 소득'을 발표하는 이유다.)
  3. 최빈값 (Mode): 다수결의 원칙:
    • 숫자 크기와 상관없이 그냥 '가장 많이 득표한(자주 나온)' 값을 대장으로 삼는다.
    • "고객들이 제일 많이 산 신발 사이즈는 260mm다" 처럼 명목/범주형 데이터(A형, B형, O형)의 대장을 뽑을 때 유일하게 쓸 수 있는 방법이다.

📢 섹션 요약 비유: 10명의 밥값을 요약해야 합니다. 평균(Mean)은 10명의 밥값을 더해 1/N로 나누는 평등한 방식이지만 1명이 캐비어를 시키면 나머지가 피를 봅니다. 중앙값(Median)은 10명을 밥값 순으로 세운 뒤 딱 5번째 사람의 영수증만 읽어서 튀는 놈을 무시하는 실용주의입니다. 최빈값(Mode)은 식당에서 제일 많이 팔린 '제육볶음(다수결)'을 오늘의 대표 메뉴로 꼽는 방식입니다.


Ⅱ. 산포도 (Dispersion): 얼마나 널뛰기하고 있는가

대장(평균)이 50점이라고 해서, 모두가 50점인 것은 아니다. 퍼진 정도를 알아야 한다.

  1. 분산 (Variance)과 표준편차 (Standard Deviation, SD):
    • A반 학생들도 평균이 50점, B반 학생들도 평균이 50점이다. 평균만 보면 두 반은 똑같아 보인다.
    • 까보니 A반은 전원이 49~51점을 맞았고, B반은 0점과 100점이 섞여서 50점이 된 거였다.
    • 분산은 각 학생의 점수가 평균(50점)에서 얼마나 떨어져 있는지(편차)를 전부 '제곱'해서 다 더한 평균값이다. 데이터가 넓게 퍼져있을수록(B반) 분산은 수만 단위로 폭발한다.
    • 표준편차는 분산이 제곱되어 너무 뻥튀기된 숫자니, 다시 루트($\sqrt{}$)를 씌워서 우리가 직관적으로 이해할 수 있는 진짜 '떨어진 거리의 평균'으로 돌려놓은 절대 무기다.
  2. 변동 계수 (CV, Coefficient of Variation):
    • "개미의 체중은 $\pm 1g$ 차이 나고, 코끼리의 체중은 $\pm 100kg$ 차이 나네? 코끼리가 산포도가 10만 배 더 큰 건가?"
    • 덩치(단위)가 아예 다른 두 집단의 흩어짐을 비교하기 위해, **$\text{표준편차} \div \text{평균}$**으로 공평하게 비율(%)을 구한 지표다. 개미와 코끼리 중 누가 더 지들끼리 체중 차이가 심한지 공정하게 비교할 수 있다.

📢 섹션 요약 비유: 과녁에 화살을 10발 쐈습니다. 평균(중심)은 화살들이 대충 모여있는 한가운데의 좌표입니다. 하지만 화살 10발이 10점 만점 정가운데에 촘촘하게 다 박혀있는지(표준편차 낮음), 아니면 과녁판 전체에 지저분하게 흩뿌려져 있는지(표준편차 높음)를 숫자로 알려주는 것이 바로 산포도입니다. 훌륭한 저격수(안정적인 공정)는 중심이 높을 뿐만 아니라 화살 간의 흩어짐(표준편차)이 극도로 낮아야 합니다.


Ⅲ. 이상치를 피하는 산포도: 사분위수 범위 (IQR)

표준편차도 이상치(워렌 버핏) 앞에서는 뻥튀기되어 무너진다. 박스 플롯을 써라.

  1. 사분위수 (Quartiles)의 개념:
    • 데이터를 크기순으로 세운 뒤, 정확히 피자를 4조각 내듯 3번 칼질을 한다.
    • Q1(1/4 지점, 하위 25%), Q2(2/4 지점, 딱 중앙값 50%), Q3(3/4 지점, 상위 75%).
  2. IQR (Inter-Quartile Range, 사분위수 범위):
    • 가장 돈 많은 상위 25%의 초부자들과, 가장 돈 없는 하위 25%의 극빈층을 아예 계산에서 버리고 가위로 싹둑 잘라내 버린다.
    • 남은 진짜 평범한 대다수 사람들, 즉 가운데 핵심 50% 뭉치(Q3 - Q1)의 길이만을 구한 것이 IQR이다. 이상치(워렌 버핏)가 100명이 껴 들어와도 IQR 숫자는 미동도 하지 않는 무적의 산포도 지표다.
  3. 박스 플롯 (Box Plot)과의 연결:
    • 탐색적 데이터 분석(EDA)을 할 때 데이터의 모양을 그리는 '상자 수염 그림(Box Plot)'의 그 네모난 거대한 상자가 바로 이 IQR의 길이를 그린 것이다. 이 상자를 벗어나면 "너는 비정상적인 이상치(Outlier)다!"라고 기계가 판별해 색출해 낸다.

📢 섹션 요약 비유: 전국 모의고사 점수가 얼마나 퍼져있는지 볼 때, 0점 맞고 자는 꼴통(하위 25%)과 100점 맞는 전국 1등 천재들(상위 25%)은 통계의 물을 흐립니다. IQR은 양극단의 특이한 놈들을 모두 교실 밖으로 내쫓아버리고, 딱 중간에 있는 가장 평범한 50%의 학생들만 데려다가 "너희들 점수 차이가 대충 이만큼(IQR) 벌어져 있구나"라고 가장 현실적이고 단단한 '흩어짐의 정도'를 측정하는 기법입니다.