핵심 인사이트 (3줄 요약)
- 본질: 피어슨 상관 계수(Pearson Correlation Coefficient)는 두 변수의 선형적 관계를 -1부터 1까지의 값으로 나타낸다.
- 가치: 상관이 높은 독립 변수들은 다중공선성(Multicollinearity)을 유발해 회귀 분석을 불안정하게 만들 수 있다.
- 판단: Pearson만 보지 말고 Spearman, 산점도, VIF(Variance Inflation Factor)까지 함께 봐야 한다.
Ⅰ. 개요 및 필요성
데이터 분석에서 변수 간 관계를 먼저 보는 것은 매우 중요하다. 피어슨 상관은 가장 널리 쓰이는 선형 관계 지표다.
하지만 상관이 높다고 항상 인과가 있는 것은 아니며, 회귀 모델에서는 다중공선성이 문제를 일으킬 수 있다.
- 📢 섹션 요약 비유: 두 사람이 같은 방향으로 자주 움직인다고 해서 꼭 같은 사람은 아니다.
Ⅱ. 아키텍처 및 핵심 원리
X, Y
↓
Covariance / Std Dev
↓
Pearson r
↓
Interpretation
| 지표 | 의미 |
|---|---|
| Pearson r | 선형 상관 정도 |
| Range | -1 ~ 1 |
| VIF | 다중공선성 정도 |
피어슨 계수는 공분산을 표준편차로 정규화한 값이다. 따라서 스케일에 영향받지 않지만, 선형 관계에 한정된다는 점이 중요하다.
- 📢 섹션 요약 비유: 두 사람의 걸음이 얼마나 같은 방향인지 보는 자다.
Ⅲ. 비교 및 연결
| 구분 | Pearson | Spearman | Kendall |
|---|---|---|---|
| 관계 | 선형 | 순위 기반 | 순위 기반 |
| 이상치 영향 | 큼 | 작음 | 작음 |
| 용도 | 회귀/선형 관계 | 단조 관계 | 순위 안정성 |
| 문제 | 영향 |
|---|---|
| Multicollinearity | 계수 불안정, 해석 어려움 |
| High Correlation | 변수 중복 가능성 |
| Low Correlation | 선형 관계 약함 |
상관이 높다고 원인을 단정하면 안 되지만, 회귀 모델링에서는 꼭 점검해야 한다. 다중공선성은 모델 해석과 예측 안정성을 해친다.
- 📢 섹션 요약 비유: 같은 일을 하는 두 사람이 있으면, 누가 얼마나 기여했는지 알아보기 어려워진다.
Ⅳ. 실무 적용 및 기술사 판단
체크리스트
- 산점도와 함께 상관을 봤는가?
- 선형 관계인지 확인했는가?
- 이상치가 상관을 왜곡하는지 봤는가?
- 다중공선성을 VIF 등으로 점검했는가?
- 변수 선택이나 차원 축소가 필요한가?
안티패턴
- 상관계수만 보고 인과를 말하는 설계
- Pearson만 보고 비선형 관계를 놓치는 설계
- 다중공선성을 무시한 회귀 설계
- 이상치 제거 없이 수치만 믿는 설계
기술사 관점에서는 Pearson을 "관계의 정확한 정의"가 아니라 "선형성 확인 도구"로 봐야 한다.
- 📢 섹션 요약 비유: 두 선이 비슷한지 보는 도구지, 왜 그렇게 됐는지 알려 주는 마법은 아니다.
Ⅴ. 기대효과 및 결론
피어슨 상관 계수와 다중공선성을 함께 보면 변수 관계를 더 안전하게 해석할 수 있다. 모델링 전 진단 도구로 매우 유용하다.
결론적으로 Pearson은 선형 관계의 기본 지표이고, 다중공선성은 회귀 분석에서 반드시 함께 보는 경고 신호다.
- 📢 섹션 요약 비유: 같은 방향으로 달리는 차가 많으면 어느 차를 먼저 봐야 할지 신중해야 한다.
관련 개념 맵
Variables
↓
Pearson r
↓
Multicollinearity
↓
Regression Diagnostics
관련 키워드 및 발전 흐름도
Correlation
↓
Pearson
↓
VIF
↓
Feature Selection
어린이를 위한 3줄 비유 설명
두 장난감이 같이 움직이는지 보는 숫자예요.
너무 비슷하면 하나만 남겨도 돼요.
피어슨 상관은 그런 관계를 보는 도구예요.