64. 왜도 (Skewness / 비대칭 쏠림)와 첨도 (Kurtosis / 꼬리 두께)

⚠️ 이 문서는 통계학에서 데이터의 중심(평균)과 퍼진 정도(분산)만으로는 절대 알 수 없는 데이터 뭉치의 '비정상적인 기형적 생김새(형태)'를 설명하기 위해, **데이터가 좌우로 얼마나 삐딱하게 쏠려있는지를 알려주는 '왜도(Skewness)'와, 데이터 그래프의 뾰족함과 극단적 이상치(Outlier)가 분포하는 양극단 꼬리의 두툼한 정도를 알려주는 '첨도(Kurtosis)'**를 다룹니다.

핵심 인사이트 (3줄 요약)

  1. 본질: 평균과 분산이 똑같은 두 데이터 집단이라도 그래프를 그려보면 하나는 완벽한 종 모양이고, 다른 하나는 절벽처럼 한쪽에 찌그러져 있을 수 있다. 이 찌그러진 '모양'을 수치화한 것이 왜도와 첨도다.
  2. 가치: 머신러닝 AI 모델(특히 선형 회귀)은 데이터가 예쁜 정규분포(종 모양)일 때 가장 똑똑하게 작동한다. 왜도가 심한 삐딱한 데이터를 AI에게 그냥 쑤셔 넣으면 예측이 박살 나기 때문에, 로그 변환(Log Transformation) 등을 통해 강제로 둥글게 펴주는 수술(전처리)을 하기 위한 진단 지표로 쓰인다.
  3. 기술 체계: 꼬리가 오른쪽으로 길게 빠지면 양수 왜도(Right Skewed), 위로 뾰족하고 양쪽 끝 꼬리에 이상치가 바글바글 모여 무거우면 **양수 첨도(Leptokurtic, 3 이상)**로 판별하여 데이터의 극단성을 감지한다.

Ⅰ. 왜도 (Skewness): 데이터의 삐딱선 타기

부의 불평등과 꼬리(Tail)의 방향을 읽어내는 기술.

  1. 정규분포의 붕괴 (왜도 = 0):
    • 데이터가 평균을 중심으로 좌우가 완벽한 대칭인 아름다운 종 모양일 때, 왜도는 '0'이다.
    • 이때는 (평균 = 중앙값 = 최빈값)이 모두 한가운데 점에 사이좋게 겹쳐 있다. (예: 성인 남성의 키 분포)
  2. 양의 왜도 (Positive Skewness / Right Skewed):
    • 왜도 값이 $0$보다 **큰 양수(+)**인 상태다.
    • 그래프를 그리면 왼쪽(작은 숫자)에 에베레스트산처럼 거대한 봉우리가 솟아있고, 오른쪽(큰 숫자)으로 길고 얇은 꼬리(Tail)가 쭈우욱 빠진 모양이다.
    • 대표 사례: '월급' 데이터. 99%의 서민들이 왼쪽 200~300만 원 구간에 뭉쳐서 거대한 산을 이루고 있고, 오른쪽 끝 저 멀리(꼬리)에는 워렌 버핏이나 이재용 회장 같은 극소수의 초갑부(이상치)들이 점점이 찍혀 꼬리를 길게 늘어뜨린다.
    • 특징: 평균 > 중앙값 > 최빈값 순서로 크기가 달라진다. (워렌 버핏이 평균을 우측으로 멱살 잡고 끌어올리기 때문)
  3. 음의 왜도 (Negative Skewness / Left Skewed):
    • 왜도 값이 $0$보다 **작은 음수(-)**인 상태다.
    • 반대로 왼쪽(작은 숫자)으로 꼬리가 길게 빠진 모양이다.
    • 대표 사례: 아주 쉬운 시험의 성적표. 대다수 학생이 오른쪽 끝 90점~100점 구간에 산을 이루고 있고, 0점 맞고 잔 극소수의 학생 1~2명이 왼쪽으로 긴 꼬리를 만든다.

📢 섹션 요약 비유: 왜도(Skewness)는 슬라임(데이터) 덩어리를 꾹 찔렀을 때 어느 쪽으로 꼬리가 삐져나왔는지를 보는 것입니다. 꼬리가 오른쪽(+ 방향)으로 길게 쭈욱 삐져나오면 양의 왜도(자본주의 월급 분포), 꼬리가 왼쪽(- 방향)으로 삐져나오면 음의 왜도(물수능 점수 분포)입니다.


Ⅱ. 첨도 (Kurtosis): 뾰족함의 진실과 뚱뚱한 꼬리 (Fat Tail)

산봉우리의 뾰족함보다 중요한 것은, 양극단 절벽 아래에 숨은 이상치의 개수다.

  1. 첨도의 낡은 오해 (뾰족함 vs 꼬리 두께):
    • 과거에는 첨도가 단순히 "가운데 산봉우리가 뾰족하면 첨도가 높다"라고만 가르쳤다.
    • 현대 통계학의 진짜 핵심은 가운데 봉우리가 아니라 **'양극단 꼬리(Tail)에 극단적인 이상치(Outlier) 데이터가 얼마나 뚱뚱하게 뭉쳐있는가?'**를 나타내는 지표라는 것이다.
  2. 첨도의 3가지 상태 (기준값 3):
    • 정규분포는 첨도값이 3이다. (표준 상태 / Mesokurtic)
    • 첨도 > 3 (Leptokurtic, 뾰족함 + 두꺼운 꼬리): 가운데는 뾰족하게 솟아있고, 이상하게도 양극단 저 멀리에 극단적인 미친 값(Outlier)들이 평소보다 두툼하게 바글바글 모여있는(Fat Tail) 매우 위험하고 극단적인 기형적 데이터 뭉치다. 주식 시장의 폭락/폭등 수익률 데이터가 이런 미친 형태를 띤다.
    • 첨도 < 3 (Platykurtic, 납작함 + 얇은 꼬리): 산봉우리가 식빵처럼 납작하게 퍼져있고, 양극단에 극단적인 이상치가 거의 존재하지 않는 심심하고 평온한 데이터 뭉치다.

📢 섹션 요약 비유: 정규분포가 평범한 후지산이라면, 첨도가 아주 높은(>3) 데이터는 뾰족한 남산타워와 같습니다. 그런데 신기한 건, 타워 밑바닥 저 멀리 끝자락(꼬리) 구석진 곳에 보통 산에는 없는 거대한 바위 덩어리들(극단적 뚱뚱한 꼬리, 블랙스완)이 잔뜩 숨겨져 있다는 것입니다. 첨도가 높다는 것은 곧 "이 데이터 세트에는 언제 터질지 모르는 극단적인 이상치(로또 당첨자나 전 재산 파산자)가 엄청나게 숨어있으니 조심해라!"라는 강력한 경고 시그널입니다.


Ⅲ. 머신러닝의 대수술: 로그 변환 (Log Transformation)

삐딱한 슬라임 덩어리를 억지로 둥글게 펴서 AI에게 먹여야 한다.

  1. AI는 정규분포를 사랑한다:
    • 머신러닝 알고리즘(회귀 분석 등)은 데이터가 좌우 대칭인 예쁜 '종 모양(정규분포)'일 때 수학적 계산이 가장 정확하게 맞아떨어진다.
    • 그런데 집값이나 월급 데이터처럼 우측으로 꼬리가 미친 듯이 뻗은 데이터(양의 왜도)를 AI에게 그대로 쑤셔 넣으면, 모델이 오른쪽 저 멀리 있는 소수의 초부자(이상치)의 멱살에 끌려가서, 대다수 서민의 집값을 엉터리로 예측하는 바보가 되어버린다.
  2. 마법의 수술 도구: 로그($\log$) 씌우기:
    • 삐딱하게 쏠린 숫자(집값 $10, 100, 1000$)에 수학 기호인 로그($\log_{10}$)를 확 씌워버린다.
    • 그러면 숫자의 격차가 무자비하게 압축된다. $10 \rightarrow 1$, $100 \rightarrow 2$, $1000 \rightarrow 3$이 된다.
    • 즉, 오른쪽으로 수백 킬로미터 뻗어있던 기형적인 꼬리가 순식간에 고무줄처럼 압축되며 끌려와, 전체 데이터가 **'마법처럼 예쁜 정규분포(종 모양)'**로 둥글게 펴지는 기적이 일어난다.

📢 섹션 요약 비유: 심하게 일그러지고 한쪽이 거대하게 튀어나온 밀가루 반죽(왜도가 심한 데이터)을 오븐(AI 모델)에 그냥 넣으면 한쪽은 타고 한쪽은 설익습니다. 오븐에 넣기 전에 요리사가 밀대(로그 변환)로 반죽을 힘껏 밀어서 평평하고 예쁜 둥근 호떡 모양(정규분포)으로 펴준 뒤에 구워야 완벽하게 골고루 익은 빵(정확한 예측 모델)을 구워낼 수 있는 데이터 전처리의 꽃입니다.