65. 피어슨 상관 계수 (Pearson Correlation Coefficient)
⚠️ 이 문서는 데이터 분석의 꽃인 두 변수(예: 키와 몸무게, 아이스크림 판매량과 온도)가 서로 같이 늘어나는지(비례), 반대로 줄어드는지(반비례), 아니면 아무런 관계가 없는 남남인지를, 눈으로 대충 짐작하는 것을 넘어 수학적으로 **-1.0부터 +1.0 사이의 명확한 숫자(r) 하나로 요약해 주는 절대적인 통계 지표인 '피어슨 상관 계수'**를 다룹니다.
핵심 인사이트 (3줄 요약)
- 본질: 두 개의 연속형 숫자 데이터(Continuous Data)가 얼마나 '직선(선형, Linear)에 가깝게 뭉쳐서 움직이는가'를 재는 자(Ruler)다. 상관 계수가 1에 가까우면 산점도 그래프를 그렸을 때 완벽한 직선 모양이 나온다.
- 가치: "광고비를 1억 쓰면 매출도 오를까?"라는 CEO의 질문에 "네, 두 변수의 상관 계수가 0.85로 매우 강력한 양의 상관관계를 보입니다"라고 데이터를 기반으로 강력한 의사결정 확신을 쥐여준다. 머신러닝의 다중공선성(변수 중복)을 제거하는 핵심 피처 스크리닝 도구이기도 하다.
- 기술 체계 (주의점): $r = +1$은 완벽한 정비례, $r = -1$은 완벽한 반비례, $r = 0$은 아무 관계 없음을 뜻한다. 하지만 **"상관관계가 높다고 해서 반드시 원인과 결과(인과관계, Causation)를 뜻하는 것은 절대 아니다"**라는 통계학의 영원한 황금률을 반드시 명심해야 한다.
Ⅰ. 상관 계수 $r$ 의 직관적 해석 (-1.0 ~ 1.0)
산점도(Scatter Plot)에 흩뿌려진 점들을 하나의 직선으로 꿰뚫어 본다.
- 양의 상관관계 ($0 < r \le +1$):
- $X$가 증가할 때 $Y$도 덩달아 증가하는 찰떡궁합의 동행이다. (우상향 대각선 그래프)
- 예: '여름철 30도 이상 폭염 일수'와 '에어컨 판매량'.
- $r$이 $+1.0$이면 점들이 1mm의 오차도 없이 완벽한 자를 대고 그린 직선 위에 놓인다. $r$이 $+0.7$ 정도만 되어도 현실 세계에서는 엄청나게 강력한 비례 관계(트렌드)가 있다고 칭송받는다.
- 음의 상관관계 ($-1 \le r < 0$):
- $X$가 증가할 때 반대로 $Y$는 뚝뚝 떨어지는 반항아의 관계다. (우하향 대각선 그래프)
- 예: '매일 마신 소주병의 개수'와 '예상 수명'. 소주를 많이 마실수록 수명은 깎여 내려간다.
- $r$이 $-0.8$이면 "둘은 완벽하게 거꾸로 움직인다"는 아주 뚜렷한 음의 트렌드를 보여준다. 절대 '상관이 없다'는 뜻이 아니다.
- 무상관 ($r \approx 0$):
- $X$가 증가하든 말든 $Y$는 자기 멋대로 춤을 추는 완벽한 남남이다.
- 예: '내 컴퓨터 비밀번호 길이'와 '오늘 점심 짜장면 가격'.
- 산점도를 그리면 별구름처럼 둥글고 지저분하게 점들이 마구 흩뿌려져 있어 어떤 일직선 모양도 찾을 수 없다.
📢 섹션 요약 비유: 피어슨 상관 계수($r$)는 두 사람(변수)이 2인 3각 달리기를 할 때의 '호흡 점수'입니다. $+1점$은 한 사람이 왼발을 낼 때 다른 사람도 완벽하게 왼발을 내는 찰떡궁합입니다. $-1점$은 한 놈이 왼발을 내밀면 다른 놈은 무조건 오른발을 내미는 '완벽한 청개구리' 호흡입니다. $0점$은 한 놈은 뛰는데 한 놈은 누워서 자는 등 둘의 행동에 아무런 연관 규칙(직선)이 없는 아수라장 상태입니다.
Ⅱ. 피어슨 계수의 치명적 맹점 (함정 카드 3개)
숫자 1개만 믿고 만세를 부르다가는 데이터에 뒤통수를 맞는다.
- 황금률: 상관관계 $\neq$ 인과관계 (Correlation is not Causation):
- 통계학에서 가장 유명한 오류다. '아이스크림 판매량'과 '상어에 물려 죽은 사람 수'의 상관 계수를 구해보면 $+0.8$로 매우 높게 나온다.
- "아이스크림을 많이 먹으면 상어가 사람을 공격하는구나!"라고 결론을 내리면 바보다. 둘 다 '여름이 와서 기온이 올라갔기 때문(제3의 숨은 변수, 교란 변수)'에 덩달아 오른 것일 뿐, 둘 사이에 아무런 원인과 결과는 없다.
- 오직 '직선(Linear)'만 잡아낸다 (곡선의 맹점):
- 피어슨 형님은 데이터가 '직선'으로 뻗어 있을 때만 귀신같이 잡아낸다.
- 스트레스(X)와 업무 성과(Y)를 그래프로 그리면 보통 ∩ 모양의 포물선(곡선)이 나온다. (스트레스가 적당할 때 성과가 최고, 너무 많거나 없으면 0점).
- 이 ∩ 모양 데이터에 피어슨 공식을 돌리면 상관 계수가 **0.0(관계없음)**이라고 바보 같은 오답을 내뱉는다. 분명 강력한 곡선 관계가 있는데도, 1차원 직선이 아니라는 이유로 남남 취급해 버리는 끔찍한 한계가 있다. (그래서 눈으로 산점도 그래프(EDA)를 꼭 확인해야 한다.)
- 아웃라이어(Outlier)의 테러:
- 평범한 데이터 100개가 무상관($r=0$)으로 퍼져있는데, 저 멀리 엉뚱한 구석에 워렌 버핏(초거대 이상치) 데이터 딱 1개가 툭 찍혀있다 치자.
- 피어슨 공식은 이 괴물 1개에 자석처럼 멱살이 끌려가서, 갑자기 전체 상관 계수를 $+0.9$로 미친 듯이 뻥튀기시켜 버린다. 평균을 구하는 원리가 섞여 있어 이상치에 극도로 취약하다. (이를 막기 위해 스피어만 랭크 상관 계수를 대타로 쓴다.)
📢 섹션 요약 비유: 피어슨 상관 계수라는 탐정은 '일직선으로 생긴 발자국'만 귀신같이 찾아냅니다. 범인이 동그랗게 뱅글뱅글 돌면서 도망갔거나(곡선 관계), 거인 1명이 엄청 큰 발자국(이상치)을 하나 남겨놓으면 탐정은 혼란에 빠져 엉터리 보고서를 냅니다. 게다가 까마귀 날자 배 떨어졌는데(상관관계), 까마귀가 배를 던져서 떨어뜨렸다(인과관계)고 헛다리를 짚는 덜렁이 탐정이므로, 분석가(반장)가 반드시 그래프(CCTV)를 눈으로 보고 직접 이중 체크를 해 주어야만 합니다.
Ⅲ. 머신러닝에서의 실전 활용: 다중공선성(Multicollinearity) 제거
상관 계수는 딥러닝 밥상을 차리기 전, 상한 반찬을 버리는 최고의 검사기다.
- 상관 히트맵 (Correlation Heatmap)의 엑스레이 스캔:
- AI에게 집값을 예측시키려고 100개의 변수(방 개수, 화장실 개수, 평수, 지어진 연도 등)를 때려 넣기 전, 100 $\times$ 100짜리 상관 계수 히트맵 지도를 바둑판처럼 새빨갛고 파란 색상으로 쫙 뽑아본다.
- 집값(정답)과 상관 계수가 $+0.8$ 정도로 높은 빨간색 변수('평수')들은 AI 학습을 위한 **황금 보석 피처(Feature)**이므로 소중히 챙긴다.
- 다중공선성 (Multicollinearity) 암살자 제거:
- 히트맵을 보다 보니 '집의 평수' 변수와 '집의 제곱미터(m²)' 변수끼리 상관 계수가 $+1.0$ (빨간색 100%)이 나왔다.
- 둘은 단위만 다를 뿐 사실상 완벽히 똑같은 복제인간(쌍둥이) 데이터다.
- 이 쌍둥이 데이터를 AI 모델(특히 선형 회귀)에 둘 다 쑤셔 넣으면, 모델이 "어? 누구 가중치를 올려줘야 하지?" 하고 멘붕에 빠져 수학적 행렬 계산이 터져버리며 엉터리 공식을 뱉어낸다(다중공선성의 저주).
- 분석가는 즉시 1초의 망설임도 없이 상관 계수가 $+0.9$ 이상인 변수들끼리 묶어서, 그중 1개만 살려두고 나머지 쌍둥이 변수들은 휴지통에 가차 없이 드랍(Drop) 시켜 모델을 가볍고 똑똑하게 튜닝해 낸다.
📢 섹션 요약 비유: AI에게 범인을 잡게 하려고 목격자 100명(변수)을 취조실에 넣습니다. 목격자끼리 귓속말(상관 계수 측정)을 시켜보니, 철수와 민수가 토씨 하나 안 틀리고 똑같은 앵무새 대답(상관 계수 +1.0, 다중공선성)을 합니다. 이 둘을 취조실에 같이 놔두면 AI 형사는 헷갈려서 수사를 망칩니다. 그래서 분석가는 둘 중 더 말을 잘하는 철수 1명만 취조실에 남겨두고, 똑같은 말을 하는 복제인간 민수는 쿨하게 집에 돌려보내(Drop) 수사(학습)의 정밀도와 속도를 미친 듯이 끌어올리는 기술입니다.