226. 피어슨 상관 (Pearson Correlation) 회귀 R² 결정계수 다중공선성 VIF

핵심 인사이트 (3줄 요약)

본질: 피어슨 상관계수(Pearson Correlation Coefficient)는 두 연속 변수 간 선형 관계 강도와 방향을 -1~+1로 나타내며, 단순선형회귀(Simple Linear Regression)는 이 관계를 예측 모델로 발전시킨다.

가치: R²(R-Squared, 결정계수)는 모델이 종속변수 분산의 몇 %를 설명하는지 알려주며, VIF(Variance Inflation Factor, 분산팽창지수)는 다중회귀에서 독립변수 간 다중공선성(Multicollinearity) 문제를 진단한다.

판단 포인트: 높은 R²가 좋은 모델을 보장하지 않는다. 과적합(Overfitting)·다중공선성·이분산성을 함께 진단해야 실용적인 회귀 모델이 된다.

Ⅰ. 개요 및 필요성

회귀 분석(Regression Analysis)은 데이터 분석에서 가장 많이 쓰이는 예측 도구다. 마케팅 지출이 매출에 얼마나 기여하는지, 집 크기가 가격을 얼마나 설명하는지를 수치로 표현한다.

분석 흐름

① 상관 분석       → 두 변수가 관련 있는가? (피어슨 r)
        ↓
② 단순선형회귀    → X가 Y를 얼마나 설명하는가? (OLS)
        ↓
③ 다중회귀        → X₁, X₂, ..., Xₙ 복합 영향? (Multiple Regression)
        ↓
④ 모델 진단       → 다중공선성 VIF, 잔차 정규성, 이분산성 확인
        ↓
⑤ 해석 및 예측   → 계수 해석, 신뢰구간, 예측 구간

📢 섹션 요약 비유: 피어슨 상관은 "두 댄서가 얼마나 같이 움직이는지 보는 것"이고, 회귀는 "한 댄서의 동작으로 다른 댄서의 동작을 예측하는 공식"을 만드는 것이다.

Ⅱ. 아키텍처 및 핵심 원리

2-1. 피어슨 상관계수 (Pearson Correlation Coefficient)

        Σ[(xᵢ - x̄)(yᵢ - ȳ)]
r = ─────────────────────────────────────
     √[Σ(xᵢ - x̄)²] × √[Σ(yᵢ - ȳ)²]

범위: -1 ≤ r ≤ +1

r 값 범위	해석
+0.9 ~ +1.0	매우 강한 양의 선형 관계
+0.7 ~ +0.9	강한 양의 선형 관계
+0.4 ~ +0.7	중간 양의 선형 관계
-0.3 ~ +0.3	관계 매우 약함 또는 없음
-0.7 ~ -0.4	중간 음의 선형 관계
-1.0 ~ -0.7	강한 음의 선형 관계

주의: 상관 ≠ 인과관계. 아이스크림 판매량과 익사 사고 수는 r ≈ 0.85이지만, 원인은 "더운 날씨"다.

2-2. 단순선형회귀 & OLS (Ordinary Least Squares, 최소제곱법)

모델: ŷ = β₀ + β₁x + ε

OLS 목표: Σ(yᵢ - ŷᵢ)² 를 최소화

       Σ[(xᵢ - x̄)(yᵢ - ȳ)]
β₁ = ──────────────────────  (기울기)
           Σ(xᵢ - x̄)²

β₀ = ȳ - β₁x̄               (절편)

ε: 잔차 (Residual, 실제값 - 예측값)

2-3. R² (R-Squared, 결정계수) 해석

       SSR (설명된 분산)         Σ(ŷᵢ - ȳ)²
R² = ──────────────────── = ─────────────────────
       SST (전체 분산)        Σ(yᵢ - ȳ)²

R² = 1 - SSE/SST  (SSE: 잔차 제곱합)

범위: 0 ≤ R² ≤ 1

R² 값	해석	주의사항
0.9 이상	모델이 90%+ 분산 설명	과적합 가능성 확인 필요
0.7 ~ 0.9	좋은 설명력	잔차 패턴 분석 필요
0.5 ~ 0.7	보통 수준	변수 추가·변환 고려
0.5 미만	설명력 낮음	모델 재검토 필요

Adjusted R² (조정 결정계수): 변수 추가로 인한 인위적 R² 상승을 방지. 변수 수 증가 페널티 적용.

           (1 - R²)(n - 1)
Adj R² = 1 - ────────────────
               (n - k - 1)

n: 표본 크기, k: 독립변수 수

2-4. 다중공선성 (Multicollinearity) & VIF

다중회귀에서 독립변수들이 서로 강하게 상관될 때 발생. 계수 추정이 불안정해지고 해석이 왜곡된다.

VIF (Variance Inflation Factor, 분산팽창지수)
──────────────────────────────────────────────
          1
VIFⱼ = ─────────
         1 - Rⱼ²

Rⱼ²: j번째 독립변수를 나머지 변수로 회귀했을 때의 R²

VIF 판단 기준:
VIF = 1        → 공선성 없음
1 < VIF < 5    → 경미한 공선성 (허용 가능)
5 ≤ VIF < 10   → 중간 공선성 (주의 필요)
VIF ≥ 10       → 심각한 공선성 (변수 제거·변환 필요)

다중공선성 진단 도구	설명
VIF (분산팽창지수)	각 변수별 공선성 수치화
Condition Number (조건수)	30 이상이면 심각
Correlation Matrix (상관 행렬)	독립변수 간 상관계수 매트릭스
Tolerance (허용도)	1/VIF, 0.1 미만이면 위험

📢 섹션 요약 비유: 다중공선성은 "두 사람이 똑같은 증언을 할 때 법원이 혼란스러운 것"과 같다. 변수 A와 B가 거의 같은 정보를 담고 있으면, 어느 쪽이 진짜 원인인지 모델이 구별하지 못한다.

Ⅲ. 비교 및 연결

3-1. 회귀 진단 체크리스트

회귀 모델 진단 4대 가정 (LINE)
─────────────────────────────
L: Linearity         (선형성) → 산점도, 잔차 vs 적합값 플롯
I: Independence      (독립성) → 잔차 자기상관 없음, DW 검정
N: Normality         (정규성) → 잔차 QQ 플롯, Shapiro-Wilk 검정
E: Equal Variance    (등분산성) → Scale-Location 플롯, BP 검정

3-2. 피어슨 vs 스피어만 상관

구분	피어슨 상관 (Pearson)	스피어만 상관 (Spearman)
데이터 유형	연속형, 정규분포 가정	순위형, 비정규 분포
측정 대상	선형 관계	단조 증가/감소 관계
이상값 민감도	민감함	강건(Robust)
사용 시점	정규성 만족 시	비정규 또는 순위 데이터

3-3. 다중공선성 해결 전략

전략	방법	적용 시점
변수 제거	VIF 높은 변수 중 하나 제거	이론적 근거 있을 때
Ridge 회귀	L2 정규화로 계수 압축	모든 변수 유지 필요 시
PCA (주성분분석)	상관 변수를 독립 주성분으로 변환	탐색적 분석
중심화	변수를 평균 빼서 변환	교호작용 항 포함 시

📢 섹션 요약 비유: 다중공선성 해결은 "비슷한 역할을 하는 사원 중 한 명을 다른 팀으로 이동시키거나, 두 명을 합쳐 한 역할로 만드는 것"과 같다.

Ⅳ. 실무 적용 및 기술사 판단

4-1. 마케팅 ROI(Return on Investment) 분석 시나리오

[목표] TV 광고비·SNS 광고비·할인율 → 매출 예측

[데이터]
TV 광고비(X₁), SNS 광고비(X₂), 할인율(X₃) → 매출(Y)

[VIF 진단 결과]
TV 광고비 VIF = 2.1    ← 문제없음
SNS 광고비 VIF = 8.7   ← 주의 (TV 광고비와 r=0.81)
할인율 VIF = 1.3       ← 문제없음

[처리] SNS 광고비·TV 광고비 합계 변수 생성 또는 Ridge 회귀 적용

[결과]
R² = 0.84, Adj R² = 0.82
계수 해석: TV 광고비 1억 원 증가 → 매출 3.2억 원 증가 (p < 0.001)

4-2. 기술사 답안 작성 핵심 포인트

항목	설명	수식/기준
피어슨 r	선형 관계 강도	-1 ≤ r ≤ +1
R²	설명된 분산 비율	0~1
Adj R²	변수 수 보정 R²	변수 추가 페널티
VIF	다중공선성 진단	≥ 10이면 심각
OLS	최소제곱법	잔차 제곱합 최소화

📢 섹션 요약 비유: R²는 "기상 예보 정확도"다. R² = 0.85라면 "내일 날씨의 85%를 예측 모델로 설명할 수 있고, 15%는 우리가 모르는 요인"이라는 의미다.

Ⅴ. 기대효과 및 결론

피어슨 상관·회귀·R²·VIF는 통계적 데이터 분석의 기초이자, 머신러닝 모델 해석의 기반이다. 이 개념들을 정확히 이해하면 블랙박스 모델의 특성 중요도 해석도 더 깊어진다.

핵심 요약

개념	목적	주요 판단 기준
피어슨 r	선형 관계 탐색	\|r\| > 0.7 강한 관계
OLS 회귀	예측 모델 수립	잔차 정규성·등분산성 확인
R²	모델 설명력	목적에 따라 다름
Adj R²	변수 수 보정 설명력	R² 대신 다중회귀에서 사용
VIF	다중공선성 진단	VIF ≥ 10 경고

기술사 시험에서 회귀 분석은 "가정 검토(LINE) + 다중공선성 VIF + R² 한계 + 인과관계 오해 주의" 를 4대 포인트로 서술해야 완성도 높은 답안이 된다.

📢 섹션 요약 비유: 회귀 분석은 "과거 데이터로 미래를 예측하는 타임머신 설계도"다. 좋은 설계도(높은 R²)라도 설계 오류(다중공선성, 가정 위반)가 있으면 타임머신은 엉뚱한 곳으로 간다.

📌 관련 개념 맵

관계	개념	설명
핵심	Pearson r (피어슨 상관계수)	선형 관계 강도 -1~+1
핵심	OLS (Ordinary Least Squares)	최소제곱법 회귀
핵심	R² (결정계수)	모델 설명력
핵심	Adjusted R² (조정 결정계수)	변수 수 보정 설명력
진단	VIF (Variance Inflation Factor)	다중공선성 수치
진단	Residual Analysis (잔차 분석)	모델 가정 검토
비교	Spearman Correlation (스피어만)	비모수 단조 관계
해결	Ridge Regression	L2 정규화 다중공선성 대응
해결	PCA (주성분분석)	차원 축소로 공선성 제거
오류	Correlation ≠ Causation	상관관계 ≠ 인과관계

👶 어린이를 위한 3줄 비유 설명

피어슨 상관계수는 "두 친구가 얼마나 같이 움직이는지" 보는 숫자인데, +1이면 항상 같이 올라가고 -1이면 한 명이 올라가면 다른 한 명은 내려간다.

📈 관련 키워드 및 발전 흐름도

상관 분석: Pearson r (-1 ~ +1)
    │
    ▼
회귀 분석: 독립변수 → 종속변수 예측
    ├─► 단순 선형 회귀: y = β₀ + β₁x
    └─► 다중 회귀: y = β₀ + β₁x₁ + β₂x₂ + ...
    │
    ▼
모델 평가: R² · VIF (다중공선성) · 잔차 분석

R²는 "내 예측이 정답의 몇 %를 맞혔는지" 알려주는 점수표이고, VIF는 "두 선생님이 똑같은 내용을 가르쳐서 어느 선생님이 진짜 도움이 됐는지 모르겠다"는 문제를 찾아내는 것이다.
회귀 분석은 과거 데이터로 미래를 예측하는 공식이지만, "아이스크림 잘 팔리면 익사 사고가 늘어나니 아이스크림 금지!"처럼 엉뚱한 인과관계로 착각하지 않도록 조심해야 한다.