핵심 인사이트 (3줄 요약)
- 본질: OLS(Ordinary Least Squares, 최소 자승법)는 잔차(Residual) 제곱합을 최소화해 독립변수와 종속변수의 선형 관계를 추정하며, 회귀 계수의 최량 선형 불편 추정량(BLUE)을 보장한다.
- 가치: 다중공선성(Multicollinearity)은 독립변수들 간 강한 상관관계로 회귀 계수 추정이 불안정해지는 현상 — VIF(Variance Inflation Factor) > 10이면 변수 제거 또는 정규화 필요.
- 판단 포인트: R²는 높지만 VIF도 높은 모델은 신뢰 불가 — 조정된 R²(Adjusted R²)와 VIF를 함께 확인하고, 릿지(Ridge) 또는 라쏘(Lasso) 정규화로 다중공선성을 대처한다.
Ⅰ. 개요 및 필요성
회귀 분석은 예측(Prediction)과 인과 추론(Causal Inference) 양쪽에 활용된다. OLS는 가장 기본적이지만 가정이 위배되면 결과를 신뢰할 수 없다.
OLS의 가우스-마르코프 가정 (Gauss-Markov Assumptions)
- 선형성 (Linearity): Y = β₀ + β₁X₁ + ε
- 등분산성 (Homoscedasticity): Var(ε) = σ² (상수)
- 잔차 정규성 (Normality of Residuals)
- 독립성 (Independence): 관측값 간 상관 없음
- 다중공선성 없음: 독립변수들 간 완전한 선형 관계 없음
BLUE 정리: 위 가정이 모두 만족되면 OLS 추정량이 최량 선형 불편 추정량(BLUE, Best Linear Unbiased Estimator).
- 📢 섹션 요약 비유: OLS는 점들을 가로지르는 선을 그을 때 모든 점에서 선까지의 수직 거리 제곱합을 가장 작게 만드는 선을 선택하는 방법이야. 완벽한 선 하나를 데이터에서 뽑아내는 거지.
Ⅱ. 아키텍처 및 핵심 원리
VIF 계산 흐름과 다중공선성 진단
다중 회귀 모델 구축
│
▼
┌─────────────────────────────────┐
│ VIF 계산: VIFⱼ = 1/(1 - Rⱼ²) │
│ Rⱼ² = Xⱼ를 나머지로 회귀한 R² │
└─────────────────────────────────┘
│
┌────┴────┐
VIF < 5 VIF > 10
정상 심각한 다중공선성
│
┌───────┴────────┐
변수 제거 Ridge / Lasso
(Dropping) 정규화(Regularization)
R² vs 조정된 R²
| 지표 | 공식 | 특성 |
|---|---|---|
| R² | 1 − SS_res / SS_tot | 변수 추가 시 항상 증가 (과적합 위험) |
| Adjusted R² | 1 − (1−R²)(n−1)/(n−k−1) | 쓸모없는 변수 추가 시 감소 → 모델 선택 지표 |
| RMSE | √(SS_res/n) | 예측 오차 원래 단위 |
β 계수 해석: β₁ = "X₁이 1단위 증가할 때 다른 변수를 고정한 상태에서 Y의 평균 변화량."
- 📢 섹션 요약 비유: 다중공선성은 두 선수가 항상 같이 움직이는 것처럼, 키와 몸무게를 함께 독립변수로 쓰면 어느 쪽이 성적에 영향을 주는지 모델이 구별하지 못하는 문제야.
Ⅲ. 비교 및 연결
정규화 방법 비교
| 방법 | 패널티 항 | 특성 | 다중공선성 대처 |
|---|---|---|---|
| Ridge (L2) | λΣβⱼ² | 계수 축소, 0으로 만들지 않음 | 강건 |
| Lasso (L1) | λΣ | βⱼ | |
| Elastic Net | α·L1 + (1-α)·L2 | 두 방법의 혼합 | 균형적 |
다중공선성 vs 과적합 구분:
-
다중공선성: 독립변수 간 관계 문제 → 계수 불안정, CI 넓어짐.
-
과적합(Overfitting): 훈련 데이터에 너무 맞춤 → 일반화 성능 저하.
-
📢 섹션 요약 비유: Ridge는 팀원 모두의 역할을 조금씩 줄이는 것이고, Lasso는 기여도가 낮은 팀원을 아예 팀에서 빼버리는 거야. 중복된 역할의 팀원(다중공선성)이 있을 때 Lasso가 더 깔끔하게 정리해줘.
Ⅳ. 실무 적용 및 기술사 판단
시나리오 - 부동산 가격 예측 모델:
- 독립변수: 면적, 층수, 연식, 주변 편의시설 수, 지하철 거리.
- VIF 결과: 면적 VIF=12.3 (심각), 연식 VIF=1.8 (정상).
- 면적과 가격의 상관이 너무 높아 직접 제거 대신 Ridge 정규화 적용.
- Adjusted R²: OLS=0.82 → Ridge(λ=0.1)=0.81 (약간 감소)
- 그러나 Test RMSE: OLS=4,200만 원 → Ridge=3,600만 원 (일반화 성능 향상).
잔차 진단 절차:
- 잔차 vs 적합값 플롯 → 등분산성(Homoscedasticity) 확인.
- Q-Q 플롯 → 잔차 정규성 확인.
- Durbin-Watson 검정 → 잔차 독립성(자기상관 없음).
기술사 판단 포인트:
-
VIF > 10 독립변수: 상관 높은 변수 중 하나 제거 or 주성분 분석(PCA) 전처리.
-
이분산성(Heteroscedasticity) 발견: WLS(Weighted Least Squares) 또는 로그 변환.
-
📢 섹션 요약 비유: VIF 검사는 팀 프로젝트에서 두 명이 완전히 같은 일을 하고 있는지 확인하는 거야. 둘이 하는 일이 똑같으면 한 명은 빼거나 역할을 나눠야 효율이 올라가.
Ⅴ. 기대효과 및 결론
OLS의 가정 검토와 VIF 진단을 체계적으로 수행하면 예측 성능과 해석 가능성을 동시에 확보할 수 있다.
-
신뢰성 있는 계수 해석: VIF 관리로 안정적인 β 추정 → 인과 추론 가능.
-
과적합 방지: Ridge/Lasso 정규화로 일반화 성능 유지.
-
모델 선택 체계화: Adjusted R², AIC(Akaike Information Criterion), BIC(Bayesian Information Criterion) 기준으로 변수 선택.
-
📢 섹션 요약 비유: 좋은 회귀 모델은 좋은 팀 편성처럼, 서로 다른 역할을 하는 선수들로 구성되어야(다중공선성 없음) 각자의 기여를 정확히 측정하고 미래를 정확히 예측할 수 있어.
📌 관련 개념 맵
| 개념 | 연결 포인트 |
|---|---|
| OLS | 최소 자승법, BLUE · 선형 회귀 추정 |
| VIF | 다중공선성 진단 · 변수 선택 |
| Adjusted R² | 모델 비교 · 변수 추가 여부 판단 |
| Ridge/Lasso | 정규화, 과적합 방지 · 고차원 데이터 |
| 잔차 진단 | 등분산성, 정규성 · 가정 위배 탐지 |
📈 관련 키워드 및 발전 흐름도
[최소 자승법 · BLUE] → [회귀 분석: OLS · VIF] → [등분산성 · 정규성]
👶 어린이를 위한 3줄 비유 설명
- 회귀 분석은 점들이 찍힌 종이에서 가장 잘 맞는 선을 긋는 거야 — OLS는 모든 점과 선의 거리 제곱합이 가장 작은 선을 찾아줘.
- 다중공선성은 여러 힌트 중에 완전히 똑같은 힌트가 있으면 정답을 맞히기 어려운 것처럼, 비슷한 변수들이 겹치면 모델이 헷갈려.
- VIF는 이 겹침이 얼마나 심한지 알려주는 숫자야 — 10보다 크면 "이건 너무 겹쳐!"라는 경고야!