핵심 인사이트 (3줄 요약)
- 본질: 피어슨 상관계수(Pearson Correlation Coefficient)는 두 연속 변수 간 선형 관계 강도와 방향을 -1~+1로 나타내며, 단순선형회귀(Simple Linear Regression)는 이 관계를 예측 모델로 발전시킨다.
- 가치: R²(R-Squared, 결정계수)는 모델이 종속변수 분산의 몇 %를 설명하는지 알려주며, VIF(Variance Inflation Factor, 분산팽창지수)는 다중회귀에서 독립변수 간 다중공선성(Multicollinearity) 문제를 진단한다.
- 판단 포인트: 높은 R²가 좋은 모델을 보장하지 않는다. 과적합(Overfitting)·다중공선성·이분산성을 함께 진단해야 실용적인 회귀 모델이 된다.
Ⅰ. 개요 및 필요성
회귀 분석(Regression Analysis)은 데이터 분석에서 가장 많이 쓰이는 예측 도구다. 마케팅 지출이 매출에 얼마나 기여하는지, 집 크기가 가격을 얼마나 설명하는지를 수치로 표현한다.
분석 흐름
① 상관 분석 → 두 변수가 관련 있는가? (피어슨 r)
↓
② 단순선형회귀 → X가 Y를 얼마나 설명하는가? (OLS)
↓
③ 다중회귀 → X₁, X₂, ..., Xₙ 복합 영향? (Multiple Regression)
↓
④ 모델 진단 → 다중공선성 VIF, 잔차 정규성, 이분산성 확인
↓
⑤ 해석 및 예측 → 계수 해석, 신뢰구간, 예측 구간
📢 섹션 요약 비유: 피어슨 상관은 "두 댄서가 얼마나 같이 움직이는지 보는 것"이고, 회귀는 "한 댄서의 동작으로 다른 댄서의 동작을 예측하는 공식"을 만드는 것이다.
Ⅱ. 아키텍처 및 핵심 원리
2-1. 피어슨 상관계수 (Pearson Correlation Coefficient)
Σ[(xᵢ - x̄)(yᵢ - ȳ)]
r = ─────────────────────────────────────
√[Σ(xᵢ - x̄)²] × √[Σ(yᵢ - ȳ)²]
범위: -1 ≤ r ≤ +1
| r 값 범위 | 해석 |
|---|---|
| +0.9 ~ +1.0 | 매우 강한 양의 선형 관계 |
| +0.7 ~ +0.9 | 강한 양의 선형 관계 |
| +0.4 ~ +0.7 | 중간 양의 선형 관계 |
| -0.3 ~ +0.3 | 관계 매우 약함 또는 없음 |
| -0.7 ~ -0.4 | 중간 음의 선형 관계 |
| -1.0 ~ -0.7 | 강한 음의 선형 관계 |
주의: 상관 ≠ 인과관계. 아이스크림 판매량과 익사 사고 수는 r ≈ 0.85이지만, 원인은 "더운 날씨"다.
2-2. 단순선형회귀 & OLS (Ordinary Least Squares, 최소제곱법)
모델: ŷ = β₀ + β₁x + ε
OLS 목표: Σ(yᵢ - ŷᵢ)² 를 최소화
Σ[(xᵢ - x̄)(yᵢ - ȳ)]
β₁ = ────────────────────── (기울기)
Σ(xᵢ - x̄)²
β₀ = ȳ - β₁x̄ (절편)
ε: 잔차 (Residual, 실제값 - 예측값)
2-3. R² (R-Squared, 결정계수) 해석
SSR (설명된 분산) Σ(ŷᵢ - ȳ)²
R² = ──────────────────── = ─────────────────────
SST (전체 분산) Σ(yᵢ - ȳ)²
R² = 1 - SSE/SST (SSE: 잔차 제곱합)
범위: 0 ≤ R² ≤ 1
| R² 값 | 해석 | 주의사항 |
|---|---|---|
| 0.9 이상 | 모델이 90%+ 분산 설명 | 과적합 가능성 확인 필요 |
| 0.7 ~ 0.9 | 좋은 설명력 | 잔차 패턴 분석 필요 |
| 0.5 ~ 0.7 | 보통 수준 | 변수 추가·변환 고려 |
| 0.5 미만 | 설명력 낮음 | 모델 재검토 필요 |
Adjusted R² (조정 결정계수): 변수 추가로 인한 인위적 R² 상승을 방지. 변수 수 증가 페널티 적용.
(1 - R²)(n - 1)
Adj R² = 1 - ────────────────
(n - k - 1)
n: 표본 크기, k: 독립변수 수
2-4. 다중공선성 (Multicollinearity) & VIF
다중회귀에서 독립변수들이 서로 강하게 상관될 때 발생. 계수 추정이 불안정해지고 해석이 왜곡된다.
VIF (Variance Inflation Factor, 분산팽창지수)
──────────────────────────────────────────────
1
VIFⱼ = ─────────
1 - Rⱼ²
Rⱼ²: j번째 독립변수를 나머지 변수로 회귀했을 때의 R²
VIF 판단 기준:
VIF = 1 → 공선성 없음
1 < VIF < 5 → 경미한 공선성 (허용 가능)
5 ≤ VIF < 10 → 중간 공선성 (주의 필요)
VIF ≥ 10 → 심각한 공선성 (변수 제거·변환 필요)
| 다중공선성 진단 도구 | 설명 |
|---|---|
| VIF (분산팽창지수) | 각 변수별 공선성 수치화 |
| Condition Number (조건수) | 30 이상이면 심각 |
| Correlation Matrix (상관 행렬) | 독립변수 간 상관계수 매트릭스 |
| Tolerance (허용도) | 1/VIF, 0.1 미만이면 위험 |
📢 섹션 요약 비유: 다중공선성은 "두 사람이 똑같은 증언을 할 때 법원이 혼란스러운 것"과 같다. 변수 A와 B가 거의 같은 정보를 담고 있으면, 어느 쪽이 진짜 원인인지 모델이 구별하지 못한다.
Ⅲ. 비교 및 연결
3-1. 회귀 진단 체크리스트
회귀 모델 진단 4대 가정 (LINE)
─────────────────────────────
L: Linearity (선형성) → 산점도, 잔차 vs 적합값 플롯
I: Independence (독립성) → 잔차 자기상관 없음, DW 검정
N: Normality (정규성) → 잔차 QQ 플롯, Shapiro-Wilk 검정
E: Equal Variance (등분산성) → Scale-Location 플롯, BP 검정
3-2. 피어슨 vs 스피어만 상관
| 구분 | 피어슨 상관 (Pearson) | 스피어만 상관 (Spearman) |
|---|---|---|
| 데이터 유형 | 연속형, 정규분포 가정 | 순위형, 비정규 분포 |
| 측정 대상 | 선형 관계 | 단조 증가/감소 관계 |
| 이상값 민감도 | 민감함 | 강건(Robust) |
| 사용 시점 | 정규성 만족 시 | 비정규 또는 순위 데이터 |
3-3. 다중공선성 해결 전략
| 전략 | 방법 | 적용 시점 |
|---|---|---|
| 변수 제거 | VIF 높은 변수 중 하나 제거 | 이론적 근거 있을 때 |
| Ridge 회귀 | L2 정규화로 계수 압축 | 모든 변수 유지 필요 시 |
| PCA (주성분분석) | 상관 변수를 독립 주성분으로 변환 | 탐색적 분석 |
| 중심화 | 변수를 평균 빼서 변환 | 교호작용 항 포함 시 |
📢 섹션 요약 비유: 다중공선성 해결은 "비슷한 역할을 하는 사원 중 한 명을 다른 팀으로 이동시키거나, 두 명을 합쳐 한 역할로 만드는 것"과 같다.
Ⅳ. 실무 적용 및 기술사 판단
4-1. 마케팅 ROI(Return on Investment) 분석 시나리오
[목표] TV 광고비·SNS 광고비·할인율 → 매출 예측
[데이터]
TV 광고비(X₁), SNS 광고비(X₂), 할인율(X₃) → 매출(Y)
[VIF 진단 결과]
TV 광고비 VIF = 2.1 ← 문제없음
SNS 광고비 VIF = 8.7 ← 주의 (TV 광고비와 r=0.81)
할인율 VIF = 1.3 ← 문제없음
[처리] SNS 광고비·TV 광고비 합계 변수 생성 또는 Ridge 회귀 적용
[결과]
R² = 0.84, Adj R² = 0.82
계수 해석: TV 광고비 1억 원 증가 → 매출 3.2억 원 증가 (p < 0.001)
4-2. 기술사 답안 작성 핵심 포인트
| 항목 | 설명 | 수식/기준 |
|---|---|---|
| 피어슨 r | 선형 관계 강도 | -1 ≤ r ≤ +1 |
| R² | 설명된 분산 비율 | 0~1 |
| Adj R² | 변수 수 보정 R² | 변수 추가 페널티 |
| VIF | 다중공선성 진단 | ≥ 10이면 심각 |
| OLS | 최소제곱법 | 잔차 제곱합 최소화 |
📢 섹션 요약 비유: R²는 "기상 예보 정확도"다. R² = 0.85라면 "내일 날씨의 85%를 예측 모델로 설명할 수 있고, 15%는 우리가 모르는 요인"이라는 의미다.
Ⅴ. 기대효과 및 결론
피어슨 상관·회귀·R²·VIF는 통계적 데이터 분석의 기초이자, 머신러닝 모델 해석의 기반이다. 이 개념들을 정확히 이해하면 블랙박스 모델의 특성 중요도 해석도 더 깊어진다.
핵심 요약
| 개념 | 목적 | 주요 판단 기준 |
|---|---|---|
| 피어슨 r | 선형 관계 탐색 | |r| > 0.7 강한 관계 |
| OLS 회귀 | 예측 모델 수립 | 잔차 정규성·등분산성 확인 |
| R² | 모델 설명력 | 목적에 따라 다름 |
| Adj R² | 변수 수 보정 설명력 | R² 대신 다중회귀에서 사용 |
| VIF | 다중공선성 진단 | VIF ≥ 10 경고 |
기술사 시험에서 회귀 분석은 "가정 검토(LINE) + 다중공선성 VIF + R² 한계 + 인과관계 오해 주의" 를 4대 포인트로 서술해야 완성도 높은 답안이 된다.
📢 섹션 요약 비유: 회귀 분석은 "과거 데이터로 미래를 예측하는 타임머신 설계도"다. 좋은 설계도(높은 R²)라도 설계 오류(다중공선성, 가정 위반)가 있으면 타임머신은 엉뚱한 곳으로 간다.
📌 관련 개념 맵
| 관계 | 개념 | 설명 |
|---|---|---|
| 핵심 | Pearson r (피어슨 상관계수) | 선형 관계 강도 -1~+1 |
| 핵심 | OLS (Ordinary Least Squares) | 최소제곱법 회귀 |
| 핵심 | R² (결정계수) | 모델 설명력 |
| 핵심 | Adjusted R² (조정 결정계수) | 변수 수 보정 설명력 |
| 진단 | VIF (Variance Inflation Factor) | 다중공선성 수치 |
| 진단 | Residual Analysis (잔차 분석) | 모델 가정 검토 |
| 비교 | Spearman Correlation (스피어만) | 비모수 단조 관계 |
| 해결 | Ridge Regression | L2 정규화 다중공선성 대응 |
| 해결 | PCA (주성분분석) | 차원 축소로 공선성 제거 |
| 오류 | Correlation ≠ Causation | 상관관계 ≠ 인과관계 |
👶 어린이를 위한 3줄 비유 설명
- 피어슨 상관계수는 "두 친구가 얼마나 같이 움직이는지" 보는 숫자인데, +1이면 항상 같이 올라가고 -1이면 한 명이 올라가면 다른 한 명은 내려간다.
📈 관련 키워드 및 발전 흐름도
상관 분석: Pearson r (-1 ~ +1)
│
▼
회귀 분석: 독립변수 → 종속변수 예측
├─► 단순 선형 회귀: y = β₀ + β₁x
└─► 다중 회귀: y = β₀ + β₁x₁ + β₂x₂ + ...
│
▼
모델 평가: R² · VIF (다중공선성) · 잔차 분석
- R²는 "내 예측이 정답의 몇 %를 맞혔는지" 알려주는 점수표이고, VIF는 "두 선생님이 똑같은 내용을 가르쳐서 어느 선생님이 진짜 도움이 됐는지 모르겠다"는 문제를 찾아내는 것이다.
- 회귀 분석은 과거 데이터로 미래를 예측하는 공식이지만, "아이스크림 잘 팔리면 익사 사고가 늘어나니 아이스크림 금지!"처럼 엉뚱한 인과관계로 착각하지 않도록 조심해야 한다.