핵심 인사이트 (3줄 요약)

  1. 본질: 피어슨 상관 계수(Pearson Correlation Coefficient)는 두 변수의 선형적 관계를 -1부터 1까지의 값으로 나타낸다.
  2. 가치: 상관이 높은 독립 변수들은 다중공선성(Multicollinearity)을 유발해 회귀 분석을 불안정하게 만들 수 있다.
  3. 판단: Pearson만 보지 말고 Spearman, 산점도, VIF(Variance Inflation Factor)까지 함께 봐야 한다.

Ⅰ. 개요 및 필요성

데이터 분석에서 변수 간 관계를 먼저 보는 것은 매우 중요하다. 피어슨 상관은 가장 널리 쓰이는 선형 관계 지표다.

하지만 상관이 높다고 항상 인과가 있는 것은 아니며, 회귀 모델에서는 다중공선성이 문제를 일으킬 수 있다.

  • 📢 섹션 요약 비유: 두 사람이 같은 방향으로 자주 움직인다고 해서 꼭 같은 사람은 아니다.

Ⅱ. 아키텍처 및 핵심 원리

X, Y
  ↓
Covariance / Std Dev
  ↓
Pearson r
  ↓
Interpretation
지표의미
Pearson r선형 상관 정도
Range-1 ~ 1
VIF다중공선성 정도

피어슨 계수는 공분산을 표준편차로 정규화한 값이다. 따라서 스케일에 영향받지 않지만, 선형 관계에 한정된다는 점이 중요하다.

  • 📢 섹션 요약 비유: 두 사람의 걸음이 얼마나 같은 방향인지 보는 자다.

Ⅲ. 비교 및 연결

구분PearsonSpearmanKendall
관계선형순위 기반순위 기반
이상치 영향작음작음
용도회귀/선형 관계단조 관계순위 안정성
문제영향
Multicollinearity계수 불안정, 해석 어려움
High Correlation변수 중복 가능성
Low Correlation선형 관계 약함

상관이 높다고 원인을 단정하면 안 되지만, 회귀 모델링에서는 꼭 점검해야 한다. 다중공선성은 모델 해석과 예측 안정성을 해친다.

  • 📢 섹션 요약 비유: 같은 일을 하는 두 사람이 있으면, 누가 얼마나 기여했는지 알아보기 어려워진다.

Ⅳ. 실무 적용 및 기술사 판단

체크리스트

  1. 산점도와 함께 상관을 봤는가?
  2. 선형 관계인지 확인했는가?
  3. 이상치가 상관을 왜곡하는지 봤는가?
  4. 다중공선성을 VIF 등으로 점검했는가?
  5. 변수 선택이나 차원 축소가 필요한가?

안티패턴

  • 상관계수만 보고 인과를 말하는 설계
  • Pearson만 보고 비선형 관계를 놓치는 설계
  • 다중공선성을 무시한 회귀 설계
  • 이상치 제거 없이 수치만 믿는 설계

기술사 관점에서는 Pearson을 "관계의 정확한 정의"가 아니라 "선형성 확인 도구"로 봐야 한다.

  • 📢 섹션 요약 비유: 두 선이 비슷한지 보는 도구지, 왜 그렇게 됐는지 알려 주는 마법은 아니다.

Ⅴ. 기대효과 및 결론

피어슨 상관 계수와 다중공선성을 함께 보면 변수 관계를 더 안전하게 해석할 수 있다. 모델링 전 진단 도구로 매우 유용하다.

결론적으로 Pearson은 선형 관계의 기본 지표이고, 다중공선성은 회귀 분석에서 반드시 함께 보는 경고 신호다.

  • 📢 섹션 요약 비유: 같은 방향으로 달리는 차가 많으면 어느 차를 먼저 봐야 할지 신중해야 한다.

관련 개념 맵

Variables
  ↓
Pearson r
  ↓
Multicollinearity
  ↓
Regression Diagnostics

관련 키워드 및 발전 흐름도

Correlation
  ↓
Pearson
  ↓
VIF
  ↓
Feature Selection

어린이를 위한 3줄 비유 설명

두 장난감이 같이 움직이는지 보는 숫자예요.
너무 비슷하면 하나만 남겨도 돼요.
피어슨 상관은 그런 관계를 보는 도구예요.