66. 스피어만 순위 상관 계수 (Spearman Rank Correlation)
⚠️ 이 문서는 두 변수의 관계를 측정할 때 완벽한 직선(Linear)이 아니면 관계를 0으로 무시해버리거나 비정상적인 괴물 데이터(이상치, Outlier) 1개에 멱살을 잡혀 전체 점수가 박살 나는 '피어슨 상관 계수'의 치명적 결함을 극복하기 위해, **숫자 크기 그 자체(절대값)를 무시하고 1등, 2등, 3등이라는 '순위(Rank)'로 데이터를 치환하여 곡선 관계나 거대한 이상치 앞에서도 흔들림 없이 상관관계를 잡아내는 비모수(Non-parametric) 통계의 대가인 '스피어만 순위 상관 계수'**를 다룹니다.
핵심 인사이트 (3줄 요약)
- 본질: 데이터가 정규분포(종 모양)를 따르지 않아도 상관없다. '연봉 100억'이라는 절대적인 숫자를 지워버리고, 그냥 '연봉 1등'이라는 등수(서열)표로 바꿔치기한 다음, 두 변수의 1등부터 10등까지의 줄 서기 순서가 찰떡같이 맞아떨어지는지 비교하는 꼼수이자 혁명이다.
- 가치: 데이터에 워렌 버핏(초거대 이상치) 1명이 섞여 있어 피어슨 공식이 망가지는 현상을 100% 방어(Robustness)해 준다. 또한 직선이 아니라 지수함수처럼 ∩, ∪ 모양으로 미친 듯이 휘어져 올라가는 곡선(비선형) 관계라도 오직 오르막(단조 증가)이기만 하면 상관관계를 완벽하게 1.0으로 탐지해 낸다.
- 기술 체계: '몸무게' 데이터 뭉치를 가벼운 순으로 등수(1, 2, 3...)를 매기고, '키' 데이터 뭉치를 작은 순으로 등수를 매긴 뒤, 그 1차원적인 **등수들의 차이값(Difference of Rank)**을 공식에 밀어 넣어 -1.0부터 1.0 사이의 계수($\rho$)를 도출한다.
Ⅰ. 피어슨(Pearson) 계수의 추락과 이상치의 테러
숫자 있는 그대로를 너무 정직하게 믿으면 괴물에게 속는다.
- 초거대 이상치(Outlier)의 멱살 잡기:
- 9명의 직원 데이터가 있다. 타이핑 타자 속도(X)와 연봉(Y)이다. 이 둘은 사실 아무 관계(무상관, $r=0$)가 없는 엉망진창 데이터다.
- 그런데 10번째 직원이 우연히 타이핑 속도도 전 세계 1등(1,000타)이고, 연봉도 100억(워렌 버핏)이다.
- 정직한 피어슨 공식을 돌리면 이 괴물 같은 숫자 '100억'의 파워가 평균을 박살 내면서, 타이핑과 연봉의 상관 계수를 무려 **$+0.9$ (강력한 양의 상관)**로 뻥튀기시켜버리는 끔찍한 오답을 내뱉는다.
- 곡선(비선형) 앞에서의 장님 현상:
- 박테리아가 1마리 $\rightarrow$ 2마리 $\rightarrow$ 4마리 $\rightarrow$ 8마리 $\rightarrow$ 1만 마리로 폭발적으로 굽어지며 늘어나는 지수 곡선 데이터가 있다. X(시간)가 오르면 무조건 Y(박테리아)도 완벽하게 오르는 100% 비례 관계다.
- 하지만 피어슨은 '완벽한 1차원 직선'이 아니라는 이유로 이 완벽한 비례 관계의 점수를 $0.6$ 따위로 형편없이 낮게 매겨버린다.
📢 섹션 요약 비유: 피어슨 상관 계수는 눈금자가 매우 깐깐한 독일인 교관입니다. 줄을 설 때 앞사람과의 간격이 무조건 1미터(완벽한 직선)로 칼같이 똑같아야만 100점을 줍니다. 1.5미터씩 간격이 곡선으로 점점 넓어지거나, 키가 3미터인 거인(이상치) 1명이 줄 중간에 끼어들면, 멘붕에 빠져서 "이 반 학생들은 줄을 엉망으로 섰다(상관관계 0점)!"라며 화를 내는 치명적인 융통성 제로의 샌님입니다.
Ⅱ. 스피어만(Spearman)의 구원: 숫자를 버리고 '등수(Rank)'를 매겨라
100억이든 1,000억이든 내 알 바 아니다. 넌 그냥 '전교 1등'일 뿐이다.
- 절대값의 파괴와 서열(Ordinal) 치환:
- 스피어만은 획기적인 꼼수를 냈다. 원본 데이터의 엑셀 숫자를 과감하게 지워버린다.
- 연봉 데이터
[3천만, 4천만, 3천5백, 100억]을 크기순으로 등수를 매겨[1등, 3등, 2등, 4등]이라는 **'순위표'**로 싹 다 덮어치기 해버린다. - 워렌 버핏의 100억이라는 압도적 숫자가 주는 폭발력은 완전히 소거되고, 그저 평범한 직원의 연봉 4천만 원 바로 다음 등수인 **고작 1칸 차이의 '4등'**으로 얌전하게 쪼그라든다. (이상치 방어막 발동)
- 단조 증가(Monotonic)의 캐치 (곡선을 허락하다):
- 박테리아가 지수 곡선으로 폭발해도 스피어만 앞에서는 아무 문제가 안 된다.
- 숫자가 10 $\rightarrow$ 100 $\rightarrow$ 1만으로 휘어지며 커져도, 등수로 매기면 어차피
[1등, 2등, 3등]이다. - 시간(X)도 1초 $\rightarrow$ 2초 $\rightarrow$ 3초이므로 등수가
[1등, 2등, 3등]이다. - 스피어만 공식이 X의 등수표와 Y의 등수표를 나란히 대조해 보니
[1=1, 2=2, 3=3]으로 오차가 0이다! "아하, 곡선이든 직선이든 X가 오를 때 Y도 등수가 무조건 오르는구나!" 라며 **상관 계수 +1.0 (완벽한 비례)**의 만점을 시원하게 부여해 준다.
📢 섹션 요약 비유: 스피어만은 아주 융통성 넘치고 지혜로운 체육 선생님입니다. 학생들의 키와 몸무게 숫자가 얼마인지(절댓값)는 엑셀에서 다 지워버리고, 그냥 학생들을 운동장에 키 순서대로(등수) 1등부터 10등까지 쭉 세웁니다. 그리고 몸무게 순서대로 세운 1등부터 10등까지의 줄과 대조해 봅니다. 중간에 키가 2미터 50인 최홍만(이상치)이 껴있어도 선생님은 관심 없습니다. "오호라, 키 순서 10명 줄이랑 몸무게 순서 10명 줄이 찰떡같이 100% 똑같은 순서네? 그럼 얘네 둘은 완벽한 비례 관계(상관 1.0)다!"라고 유연하게 본질(경향성)을 꿰뚫어 보는 위대한 통계법입니다.
Ⅲ. 언제 피어슨을 버리고 스피어만을 꺼내야 하는가?
무기가 다르면 쏘는 과녁도 달라야 한다. 전제 조건의 붕괴.
- 정규성 검정(Normality Test) 실패 시:
- 피어슨 계수를 돌리기 전, 데이터 분석가는 반드시 엑셀 데이터가 종 모양(정규분포)을 띠고 있는지 샤피로-윌크(Shapiro-Wilk) 검정 등을 통해 확인해야 한다.
- 만약 데이터가 너무 기형적으로 삐딱해서(왜도 폭발) 정규성 검정에 실패(기각)했다면? 피어슨을 쓸 자격이 박탈당한다. 이때 구원 투수처럼 꺼내 드는 비모수(Non-parametric) 통계의 에이스가 바로 스피어만이다.
- 순서형/서열형(Ordinal) 데이터 분석 시:
- 설문조사 데이터("매우 불만족(1점)" ~ "매우 만족(5점)")를 분석할 때다. 1점과 2점의 차이가 4점과 5점의 차이와 완벽하게 수치상 1로 똑같다고 인간의 마음을 수학적으로 단정 지을 수는 없다.
- 이런 데이터는 절대적인 '연속형 숫자'가 아니라, 오직 '순서(서열)'의 의미만 갖는 데이터다. 당연히 숫자의 절댓값을 계산하는 피어슨 공식은 폭발해 버리며, 오직 **등수(Rank)**만 따지는 스피어만 공식을 쓰는 것이 데이터 과학계의 불문율이다.
📢 섹션 요약 비유: 아스팔트 포장도로(정규분포를 따르는 깔끔한 연속형 데이터)를 달릴 때는 페라리 스포츠카(피어슨 계수)가 가장 정확하고 빠릅니다. 하지만 갑자기 울퉁불퉁한 산길 흙밭(정규성 파괴, 심한 이상치)이나 계단(순서형 서열 데이터)이 나타나면 페라리는 바닥이 긁혀서 멈춰버립니다. 이때는 조금 투박하지만, 바퀴가 커서 진흙탕이든 계단이든 무식하게 등반해 버리는 오프로드 4륜구동 지프차(스피어만 순위 계수)로 재빨리 갈아타야만 산꼭대기(분석 결과)에 무사히 도달할 수 있는 전천후 데이터 분석 생존술입니다.