핵심 인사이트 (3줄 요약)

  1. 본질: 피어슨 상관계수(Pearson Correlation Coefficient)는 두 연속 변수 간 선형 관계 강도와 방향을 -1~+1로 나타내며, 단순선형회귀(Simple Linear Regression)는 이 관계를 예측 모델로 발전시킨다.
  2. 가치: R²(R-Squared, 결정계수)는 모델이 종속변수 분산의 몇 %를 설명하는지 알려주며, VIF(Variance Inflation Factor, 분산팽창지수)는 다중회귀에서 독립변수 간 다중공선성(Multicollinearity) 문제를 진단한다.
  3. 판단 포인트: 높은 R²가 좋은 모델을 보장하지 않는다. 과적합(Overfitting)·다중공선성·이분산성을 함께 진단해야 실용적인 회귀 모델이 된다.

Ⅰ. 개요 및 필요성

회귀 분석(Regression Analysis)은 데이터 분석에서 가장 많이 쓰이는 예측 도구다. 마케팅 지출이 매출에 얼마나 기여하는지, 집 크기가 가격을 얼마나 설명하는지를 수치로 표현한다.

분석 흐름

① 상관 분석       → 두 변수가 관련 있는가? (피어슨 r)
        ↓
② 단순선형회귀    → X가 Y를 얼마나 설명하는가? (OLS)
        ↓
③ 다중회귀        → X₁, X₂, ..., Xₙ 복합 영향? (Multiple Regression)
        ↓
④ 모델 진단       → 다중공선성 VIF, 잔차 정규성, 이분산성 확인
        ↓
⑤ 해석 및 예측   → 계수 해석, 신뢰구간, 예측 구간

📢 섹션 요약 비유: 피어슨 상관은 "두 댄서가 얼마나 같이 움직이는지 보는 것"이고, 회귀는 "한 댄서의 동작으로 다른 댄서의 동작을 예측하는 공식"을 만드는 것이다.


Ⅱ. 아키텍처 및 핵심 원리

2-1. 피어슨 상관계수 (Pearson Correlation Coefficient)

        Σ[(xᵢ - x̄)(yᵢ - ȳ)]
r = ─────────────────────────────────────
     √[Σ(xᵢ - x̄)²] × √[Σ(yᵢ - ȳ)²]

범위: -1 ≤ r ≤ +1
r 값 범위해석
+0.9 ~ +1.0매우 강한 양의 선형 관계
+0.7 ~ +0.9강한 양의 선형 관계
+0.4 ~ +0.7중간 양의 선형 관계
-0.3 ~ +0.3관계 매우 약함 또는 없음
-0.7 ~ -0.4중간 음의 선형 관계
-1.0 ~ -0.7강한 음의 선형 관계

주의: 상관 ≠ 인과관계. 아이스크림 판매량과 익사 사고 수는 r ≈ 0.85이지만, 원인은 "더운 날씨"다.

2-2. 단순선형회귀 & OLS (Ordinary Least Squares, 최소제곱법)

모델: ŷ = β₀ + β₁x + ε

OLS 목표: Σ(yᵢ - ŷᵢ)² 를 최소화

       Σ[(xᵢ - x̄)(yᵢ - ȳ)]
β₁ = ──────────────────────  (기울기)
           Σ(xᵢ - x̄)²

β₀ = ȳ - β₁x̄               (절편)

ε: 잔차 (Residual, 실제값 - 예측값)

2-3. R² (R-Squared, 결정계수) 해석

       SSR (설명된 분산)         Σ(ŷᵢ - ȳ)²
R² = ──────────────────── = ─────────────────────
       SST (전체 분산)        Σ(yᵢ - ȳ)²

R² = 1 - SSE/SST  (SSE: 잔차 제곱합)

범위: 0 ≤ R² ≤ 1
R² 값해석주의사항
0.9 이상모델이 90%+ 분산 설명과적합 가능성 확인 필요
0.7 ~ 0.9좋은 설명력잔차 패턴 분석 필요
0.5 ~ 0.7보통 수준변수 추가·변환 고려
0.5 미만설명력 낮음모델 재검토 필요

Adjusted R² (조정 결정계수): 변수 추가로 인한 인위적 R² 상승을 방지. 변수 수 증가 페널티 적용.

           (1 - R²)(n - 1)
Adj R² = 1 - ────────────────
               (n - k - 1)

n: 표본 크기, k: 독립변수 수

2-4. 다중공선성 (Multicollinearity) & VIF

다중회귀에서 독립변수들이 서로 강하게 상관될 때 발생. 계수 추정이 불안정해지고 해석이 왜곡된다.

VIF (Variance Inflation Factor, 분산팽창지수)
──────────────────────────────────────────────
          1
VIFⱼ = ─────────
         1 - Rⱼ²

Rⱼ²: j번째 독립변수를 나머지 변수로 회귀했을 때의 R²

VIF 판단 기준:
VIF = 1        → 공선성 없음
1 < VIF < 5    → 경미한 공선성 (허용 가능)
5 ≤ VIF < 10   → 중간 공선성 (주의 필요)
VIF ≥ 10       → 심각한 공선성 (변수 제거·변환 필요)
다중공선성 진단 도구설명
VIF (분산팽창지수)각 변수별 공선성 수치화
Condition Number (조건수)30 이상이면 심각
Correlation Matrix (상관 행렬)독립변수 간 상관계수 매트릭스
Tolerance (허용도)1/VIF, 0.1 미만이면 위험

📢 섹션 요약 비유: 다중공선성은 "두 사람이 똑같은 증언을 할 때 법원이 혼란스러운 것"과 같다. 변수 A와 B가 거의 같은 정보를 담고 있으면, 어느 쪽이 진짜 원인인지 모델이 구별하지 못한다.


Ⅲ. 비교 및 연결

3-1. 회귀 진단 체크리스트

회귀 모델 진단 4대 가정 (LINE)
─────────────────────────────
L: Linearity         (선형성) → 산점도, 잔차 vs 적합값 플롯
I: Independence      (독립성) → 잔차 자기상관 없음, DW 검정
N: Normality         (정규성) → 잔차 QQ 플롯, Shapiro-Wilk 검정
E: Equal Variance    (등분산성) → Scale-Location 플롯, BP 검정

3-2. 피어슨 vs 스피어만 상관

구분피어슨 상관 (Pearson)스피어만 상관 (Spearman)
데이터 유형연속형, 정규분포 가정순위형, 비정규 분포
측정 대상선형 관계단조 증가/감소 관계
이상값 민감도민감함강건(Robust)
사용 시점정규성 만족 시비정규 또는 순위 데이터

3-3. 다중공선성 해결 전략

전략방법적용 시점
변수 제거VIF 높은 변수 중 하나 제거이론적 근거 있을 때
Ridge 회귀L2 정규화로 계수 압축모든 변수 유지 필요 시
PCA (주성분분석)상관 변수를 독립 주성분으로 변환탐색적 분석
중심화변수를 평균 빼서 변환교호작용 항 포함 시

📢 섹션 요약 비유: 다중공선성 해결은 "비슷한 역할을 하는 사원 중 한 명을 다른 팀으로 이동시키거나, 두 명을 합쳐 한 역할로 만드는 것"과 같다.


Ⅳ. 실무 적용 및 기술사 판단

4-1. 마케팅 ROI(Return on Investment) 분석 시나리오

[목표] TV 광고비·SNS 광고비·할인율 → 매출 예측

[데이터]
TV 광고비(X₁), SNS 광고비(X₂), 할인율(X₃) → 매출(Y)

[VIF 진단 결과]
TV 광고비 VIF = 2.1    ← 문제없음
SNS 광고비 VIF = 8.7   ← 주의 (TV 광고비와 r=0.81)
할인율 VIF = 1.3       ← 문제없음

[처리] SNS 광고비·TV 광고비 합계 변수 생성 또는 Ridge 회귀 적용

[결과]
R² = 0.84, Adj R² = 0.82
계수 해석: TV 광고비 1억 원 증가 → 매출 3.2억 원 증가 (p < 0.001)

4-2. 기술사 답안 작성 핵심 포인트

항목설명수식/기준
피어슨 r선형 관계 강도-1 ≤ r ≤ +1
설명된 분산 비율0~1
Adj R²변수 수 보정 R²변수 추가 페널티
VIF다중공선성 진단≥ 10이면 심각
OLS최소제곱법잔차 제곱합 최소화

📢 섹션 요약 비유: R²는 "기상 예보 정확도"다. R² = 0.85라면 "내일 날씨의 85%를 예측 모델로 설명할 수 있고, 15%는 우리가 모르는 요인"이라는 의미다.


Ⅴ. 기대효과 및 결론

피어슨 상관·회귀·R²·VIF는 통계적 데이터 분석의 기초이자, 머신러닝 모델 해석의 기반이다. 이 개념들을 정확히 이해하면 블랙박스 모델의 특성 중요도 해석도 더 깊어진다.

핵심 요약

개념목적주요 판단 기준
피어슨 r선형 관계 탐색|r| > 0.7 강한 관계
OLS 회귀예측 모델 수립잔차 정규성·등분산성 확인
모델 설명력목적에 따라 다름
Adj R²변수 수 보정 설명력R² 대신 다중회귀에서 사용
VIF다중공선성 진단VIF ≥ 10 경고

기술사 시험에서 회귀 분석은 "가정 검토(LINE) + 다중공선성 VIF + R² 한계 + 인과관계 오해 주의" 를 4대 포인트로 서술해야 완성도 높은 답안이 된다.

📢 섹션 요약 비유: 회귀 분석은 "과거 데이터로 미래를 예측하는 타임머신 설계도"다. 좋은 설계도(높은 R²)라도 설계 오류(다중공선성, 가정 위반)가 있으면 타임머신은 엉뚱한 곳으로 간다.


📌 관련 개념 맵

관계개념설명
핵심Pearson r (피어슨 상관계수)선형 관계 강도 -1~+1
핵심OLS (Ordinary Least Squares)최소제곱법 회귀
핵심R² (결정계수)모델 설명력
핵심Adjusted R² (조정 결정계수)변수 수 보정 설명력
진단VIF (Variance Inflation Factor)다중공선성 수치
진단Residual Analysis (잔차 분석)모델 가정 검토
비교Spearman Correlation (스피어만)비모수 단조 관계
해결Ridge RegressionL2 정규화 다중공선성 대응
해결PCA (주성분분석)차원 축소로 공선성 제거
오류Correlation ≠ Causation상관관계 ≠ 인과관계

👶 어린이를 위한 3줄 비유 설명

  1. 피어슨 상관계수는 "두 친구가 얼마나 같이 움직이는지" 보는 숫자인데, +1이면 항상 같이 올라가고 -1이면 한 명이 올라가면 다른 한 명은 내려간다.

📈 관련 키워드 및 발전 흐름도

상관 분석: Pearson r (-1 ~ +1)
    │
    ▼
회귀 분석: 독립변수 → 종속변수 예측
    ├─► 단순 선형 회귀: y = β₀ + β₁x
    └─► 다중 회귀: y = β₀ + β₁x₁ + β₂x₂ + ...
    │
    ▼
모델 평가: R² · VIF (다중공선성) · 잔차 분석
  1. R²는 "내 예측이 정답의 몇 %를 맞혔는지" 알려주는 점수표이고, VIF는 "두 선생님이 똑같은 내용을 가르쳐서 어느 선생님이 진짜 도움이 됐는지 모르겠다"는 문제를 찾아내는 것이다.
  2. 회귀 분석은 과거 데이터로 미래를 예측하는 공식이지만, "아이스크림 잘 팔리면 익사 사고가 늘어나니 아이스크림 금지!"처럼 엉뚱한 인과관계로 착각하지 않도록 조심해야 한다.