329. 다중 공선성 (Multicollinearity)과 VIF

핵심 인사이트 (3줄 요약)

본질: 다중 공선성(Multicollinearity)은 다중 회귀 분석 모델에 넣은 원인(독립 변수)들끼리 서로 지나치게 똑같거나 강하게 얽혀 있어서, 정작 결과(종속 변수)에 누가 진짜 영향을 미쳤는지 수학적으로 구분할 수 없게 되는 치명적인 데이터 에러 현상이다.

가치: 이 에러를 방치하면 모델이 '키'와 '신발 사이즈'처럼 사실상 똑같은 의미의 데이터를 중복으로 먹고 체해서, 회귀 계수(기울기)가 널뛰고 예측 신뢰도가 완전히 붕괴되는 것을 막아준다.

판단 포인트: 다중 공선성이 의심될 때는 VIF(분산 팽창 지수, Variance Inflation Factor) 값을 뽑아보아야 하며, VIF가 10을 넘어가는 겹치는 변수는 과감히 모델에서 삭제(Drop)하거나, 릿지(Ridge) 회귀, PCA(주성분 분석)를 통해 하나로 압축하는 파이프라인 설계가 필수적이다.

Ⅰ. 개요 및 필요성

집값을 예측하는 다중 회귀 모델($Y = a_1X_1 + a_2X_2 + b$)을 만든다고 치자. $X_1$에 '평수'를 넣고, $X_2$에 '제곱미터($m^2$)'를 넣었다. 둘은 단위만 다를 뿐 사실상 완벽하게 똑같은 정보다.

컴퓨터가 이 모델을 풀려고 하면 대혼란에 빠진다. 집값이 올랐을 때 이게 '평수' 때문인지 '제곱미터' 때문인지 가중치를 나눌 수 없기 때문이다. 이처럼 독립 변수(원인)들끼리 서로 너무 친해서(강한 상관관계) 선형 종속(Linear Dependence)에 빠지는 현상을 **다중 공선성(Multicollinearity)**이라고 부른다. 데이터 전처리 단계에서 이 폭탄을 제거하지 않으면 인공지능 모델 전체가 무너진다.

📢 섹션 요약 비유: 왕(회귀 모델)에게 조언을 하는 참모 두 명(독립 변수)이 매번 토씨 하나 안 틀리고 똑같은 말만 한다면, 왕은 대체 누구의 의견이 진짜 훌륭한지 가려낼 수 없어 판단력을 잃게 된다.

Ⅱ. 아키텍처 및 핵심 원리

다중 공선성이 발생하면 수학적으로 회귀 모델을 푸는 행렬 연산 식 $a = (X^T X)^{-1} X^T Y$에서, $X^T X$의 역행렬을 구할 때 분모가 0에 한없이 가까워지는 에러가 발생한다. 이를 측정하는 가장 확실한 진단기가 **VIF (분산 팽창 지수)**다.

┌────────────────────────────────────────────────────────┐
│             [ 다중 공선성 진단: VIF 작동 원리 ]            │
├────────────────────────────────────────────────────────┤
│ 1. 각 독립 변수가 다른 변수들로 얼마나 잘 설명되는지 검사      │
│    - X₁을 X₂, X₃으로 예측하는 가짜 회귀 모델을 돌려봄         │
│    - 이때 나온 결정 계수(R_j²)를 구함                     │
│                                                        │
│ 2. VIF 수식 적용                                       │
│    - VIF_j = 1 / (1 - R_j²)                             │
│    - (만약 X₁이 X₂와 90% 똑같다면 R²=0.9 -> VIF = 10)  │
│                                                        │
│ 3. VIF 판단 기준 (Rule of Thumb)                       │
│    - VIF < 5  : 문제없음 (안전)                         │
│    - VIF > 10 : 다중 공선성 폭발! (위험, 변수 제거 필요)    │
└────────────────────────────────────────────────────────┘

상관 행렬 (Correlation Matrix): 1차적으로 변수들끼리의 상관계수($r$)를 히트맵으로 뽑아보아, 값이 0.8이나 0.9 이상인 쌍이 있는지 육안으로 확인한다.
VIF 계산: A변수가 나머지 B, C 변수의 조합으로 완벽하게 만들어질 수 있다면(예: 총매출 = A매장매출 + B매장매출), A변수의 VIF 값은 무한대로 치솟는다.
분산 팽창의 결과: VIF가 높다는 것은 그 변수의 회귀 계수($a$)의 '분산(오차 범위)'이 풍선처럼 부풀어 올랐다는 뜻이다. 즉, 계수값이 신뢰할 수 없을 만큼 심하게 흔들린다.

📢 섹션 요약 비유: VIF는 "이 참모(변수)의 의견이 다른 참모들의 의견을 섞어놓은 표절본인가?"를 검사하는 표절 검사기다. 표절률이 90%(VIF 10 이상)가 넘는 참모는 즉각 해고해야 한다.

Ⅲ. 비교 및 연결

다중 공선성을 해결(Treatment)하기 위해 데이터 엔지니어가 쓸 수 있는 3가지 아키텍처 전략을 비교한다.

해결 기법	동작 방식	장점	단점 (트레이드오프)
변수 제거 (Feature Drop)	VIF가 가장 높은 중복 변수를 모델에서 쿨하게 삭제	가장 직관적이고 모델 해석이 깔끔해짐	제거된 변수의 미세한 정보가 유실됨
정규화 회귀 (Ridge / Lasso)	똑같은 변수들이 내는 목소리 크기(계수)를 강제로 억누름 (L1/L2 페널티)	변수를 살리면서 다중 공선성 에러를 방어	회귀 계수가 왜곡되어 비즈니스 설명력이 떨어짐
차원 축소 (PCA)	겹치는 두 변수를 뭉개서 새로운 가상의 변수 하나로 합침	정보 유실 없이 독립된 새 변수를 창출	새로 만든 변수가 뭘 의미하는지 사람이 이해 못 함

가장 흔한 실수는 **더미 변수 함정(Dummy Variable Trap)**이다. "계절"을 봄, 여름, 가을, 겨울 4개의 0/1 변수로 쪼갰을 때 4개를 다 모델에 넣으면 완벽한 다중 공선성에 빠진다 (봄, 여름, 가알이 0이면 무조건 겨울은 1이 되기 때문). 따라서 카테고리가 $N$개면 반드시 $N-1$개만 모델에 넣어야 한다.

📢 섹션 요약 비유: 겹치는 참모를 처리할 때, 아예 한 명을 자르거나(변수 제거), 둘 다 입을 막아 목소리를 작게 하거나(정규화), 두 명을 합체시켜 괴물 참모 한 명(PCA)으로 만드는 세 가지 해결책이 있다.

Ⅳ. 실무 적용 및 기술사 판단

실무 적용 시나리오: 쇼핑몰 이탈 고객 예측 모델을 짠다. 피처 엔지니어링 과정에서 '총 방문 횟수', '최근 1달 방문 횟수', '결제 횟수'를 모두 넣었다. 당연히 이 셋은 같이 움직이므로 VIF가 20을 넘긴다. 만약 이대로 로지스틱 회귀를 돌리면, '총 방문 횟수가 늘수록 이탈 확률이 늘어난다'는 말도 안 되는 예측 결과(계수 부호가 뒤집힘)가 나와 마케팅 팀이 대혼란에 빠진다.

기술사 판단 포인트 (Trade-off): 기술사는 다중 공선성 해결 시 '예측력 중심'인가 '해석력 중심'인가를 먼저 결단해야 한다.

해석(설명)이 중요한 경우: 경영진에게 "A요인이 B결과를 만듭니다"라고 설명해야 하는 화이트박스 모델에서는 반드시 VIF로 변수를 **물리적으로 제거(Drop)**해서 모델을 가볍고 투명하게 유지해야 한다.
예측 정확도만 중요한 경우: 딥러닝 영상 인식이나 텍스트 처리처럼 변수가 수만 개이고 과정 설명이 필요 없는 블랙박스 모델에서는, 다중 공선성을 신경 쓰지 않고 그냥 릿지(Ridge) 정규화를 세게 걸어 모델이 알아서 소화하도록 놔두는 것이 속도 면에서 유리하다.

📢 섹션 요약 비유: 사장님에게 결재를 맡을 보고서(회귀 분석)라면 중복된 내용을 싹 빼고 깔끔하게 1장으로 써야 하지만, 결과만 잘 내면 되는 천재 딥러닝 로봇에게는 비슷한 책 수십 권을 그냥 통째로 던져줘도 알아서 정규화하며 소화해 낸다.

Ⅴ. 기대효과 및 결론

다중 공선성은 데이터 과학 입문자들이 가장 많이 저지르는 치명적 함정이다. 변수를 많이 넣으면 무조건 모델 성능($R^2$)이 오르는 줄 알고 다 쑤셔 넣었다가, 결국 실전에서는 전혀 작동하지 않는 쓰레기(Garbage) 예측 모델을 양산하게 되기 때문이다.

결론적으로 다중 공선성을 걸러내는 과정은 머신러닝 파이프라인에서 데이터의 '군살(Redundancy)'을 빼고 진짜 '뼈대(Signal)'만 남기는 가장 숭고한 정제 작업이다. 기술사는 VIF 진단과 PCA, 정규화(Regularization) 기법을 데이터 전처리(ETL) 아키텍처에 자동화 모듈로 심어두어, AI 모델이 독을 먹고 쓰러지는 것을 원천 차단하는 데이터 거버넌스를 확립해야 한다.

📢 섹션 요약 비유: 다중 공선성 검사는 로켓(AI 모델)에 무작정 연료통을 많이 달면 오히려 무거워서 추락한다는 것을 깨닫고, 겹치는 연료통은 다 떼어내어 로켓을 가장 가볍고 날카롭게 깎아내는 엔지니어링의 핵심이다.

📌 관련 개념 맵

상위 개념: 다중 선형 회귀 (Multiple Linear Regression), 피처 엔지니어링 (Feature Engineering)
하위 개념: VIF (분산 팽창 지수), 차원 축소 (Dimensionality Reduction)
연결 개념: PCA (주성분 분석), 더미 변수 함정, Ridge/Lasso 정규화

👶 어린이를 위한 3줄 비유 설명

로봇에게 날씨를 예측해 달라고 "오늘의 온도", "오늘의 더운 정도", "온도계의 숫자"라는 똑같은 뜻의 힌트 3개를 한꺼번에 줬어요.
다중 공선성은 로봇이 똑같은 힌트만 계속 받아서 "대체 이 중에 어떤 게 진짜 중요한 힌트야?"라고 헷갈려서 머리가 터지는 현상이에요.
그래서 똑똑한 조련사(VIF)가 나서서 "이 3개는 어차피 같은 말이잖아! 2개는 버리고 1개만 로봇에게 줘!"라고 정리해 주는 거랍니다.