373. 릿지 (Ridge) 회귀의 L2 정규화 모델

핵심 인사이트 (3줄 요약)

본질: 릿지(Ridge) 회귀는 수많은 변수들의 가중치($W$) '제곱'을 모두 더한 만큼 오차 함수에 페널티(L2 정규화)를 부과하여, 특정 변수가 혼자 튀지 못하게 둥글게 깎아내리는 수학적 최적화 기법이다.

가치: 쌍둥이처럼 똑같은 변수들이 들어왔을 때 하나를 무자비하게 죽여버리는 라쏘(L1)와 달리, 릿지는 그 변수들의 가중치를 똑같이 사이좋게 나눠 가지도록 강제하므로 다중 공선성(Multicollinearity) 문제를 해결하는 데 탁월하다.

판단 포인트: 가중치를 0에 한없이 가깝게 줄일 수는 있지만 절대 '0'으로 만들지는 못하므로, 쓸데없는 변수를 제거하는 Feature Selection(변수 선택) 기능은 없으며, 모든 변수가 조금씩 다 중요할 때 과적합(Overfitting)을 부드럽게 억제하는 방어막으로 사용해야 한다.

Ⅰ. 개요 및 필요성

다중 회귀 분석을 할 때 변수가 너무 많으면 모델이 학습 데이터의 노이즈까지 외워버리는 과적합(Overfitting)에 빠진다. 이를 막기 위해 가중치(W)의 크기를 억누르는 페널티를 주는데, 이것을 **정규화(Regularization)**라고 부른다.

앞서 배운 라쏘(L1 정규화)는 가중치를 과감하게 '0'으로 만들어 버리는 킬러였다. 하지만 비즈니스 데이터에는 '0'으로 지워버리기엔 아까운, 서로 얽혀있지만 모두가 조금씩은 기여하는 변수들이 많다. "누구 하나 죽이지 말고, 그냥 튀는 놈들의 힘만 골고루 부드럽게 빼버릴 순 없을까?" 이 평화로운 타협안에서 탄생한 것이 가중치의 '제곱'에 페널티를 주는 릿지(Ridge, L2 정규화) 회귀다.

📢 섹션 요약 비유: 라쏘가 10명의 직원 중 1명만 살리고 9명을 해고하는 피도 눈물도 없는 구조조정이라면, 릿지는 10명의 직원을 다 살려두는 대신 유난히 월급을 많이 받는 에이스들의 월급을 깎아 모두가 비슷한 월급을 받게 만드는 연봉 평준화 정책이다.

Ⅱ. 아키텍처 및 핵심 원리

릿지 회귀의 핵심은 오차식(MSE) 끝에 붙는 **L2 페널티 항(가중치의 제곱합)**이다.

┌────────────────────────────────────────────────────────┐
│             [ 릿지(Ridge) 회귀의 L2 정규화 수식과 원리 ]       │
├────────────────────────────────────────────────────────┤
│ 1. 릿지 회귀의 목적 함수 (Loss Function)                │
│    Loss = (실제값 - 예측값)² + λ * Σ(W_i)²            │
│         [ 기존 MSE 오차 ]   [ L2 페널티 항 ]           │
│                                                        │
│ 2. 페널티 항의 역할 (람다, λ)                           │
│    - W_i (가중치)를 '제곱'해서 모두 더한 만큼 벌금을 매김     │
│    - W값이 10일 때 벌금이 100이라면, 20일 때는 400! (폭발)    │
│    - 특정 W값이 혼자 비정상적으로 커지는 것을 절대 용납 못 함!  │
│                                                        │
│ 3. L2 정규화의 기하학적 특성 (원형)                      │
│    - W의 제약 조건 모양이 둥근 원(Circle) 형태임            │
│    - 오차의 등고선이 원의 테두리와 닿으므로, 축의 모서리(W=0)에│
│      닿을 확률이 극히 희박함 (즉, W가 0이 되지는 않음!)        │
└────────────────────────────────────────────────────────┘

가중치 분산 (Weight Distribution): L2 페널티는 W가 커질수록 제곱으로 벌금을 때린다. 따라서 모델은 $W_1=10, W_2=0$ (총합 10, 벌금 100)으로 극단적인 선택을 하기보다, $W_1=5, W_2=5$ (총합 10, 벌금 50)처럼 가중치를 여러 변수에 사이좋게 나눠주는 쪽으로 진화한다.
닫힌 형태의 해 (Closed-form Solution): L1(라쏘)의 절댓값은 0에서 미분이 안 되지만, L2(릿지)의 제곱은 모든 구간에서 부드럽게 미분된다. 따라서 릿지는 단 한 번의 행렬 계산 수식으로 정답을 1초 만에 찰떡같이 구해낼 수 있다.

📢 섹션 요약 비유: 1명이 100kg짜리 짐을 혼자 들게 두지 않고, 10명이 10kg씩 사이좋게 나눠 들도록 강제하는 규율이다. 덕분에 어떤 한 변수(특징)가 모델 전체의 운명을 쥐고 흔드는 횡포를 완벽하게 막아준다.

Ⅲ. 비교 및 연결

회귀 모델 3대장의 특성을 비교하면, 언제 릿지를 꺼내 들어야 할지 명확해진다.

비교 항목	일반 선형 회귀 (OLS)	라쏘 회귀 (Lasso / L1)	릿지 회귀 (Ridge / L2)
페널티의 종류	없음	가중치의 절댓값 합	가중치의 제곱 합
제약 공간 모양	무한대	마름모 (모서리 존재)	원형 (둥글고 매끄러움)
다중 공선성 대처	모델 연산 터짐	중복 변수 중 무작위로 1개만 살림	중복 변수의 가중치를 공평하게 1/N로 분배함
변수 0으로 압축	안 함	변수 0으로 날려버림 (Sparsity)	0에 가깝게 줄어들 뿐 0은 안 됨
최고의 용도	단순 예측	변수 선택 (Feature Selection)	수많은 변수가 다 조금씩 중요할 때 (과적합 방지)

L2 정규화의 철학은 회귀 분석을 넘어 딥러닝에서 **가중치 감쇠(Weight Decay)**라는 이름으로 똑같이 쓰인다. 파이토치 옵티마이저(AdamW 등)에 들어가는 weight_decay=0.01 파라미터가 바로 이 L2 정규화의 람다($\lambda$) 값을 의미한다.

📢 섹션 요약 비유: OLS는 먹고 싶은 대로 다 먹어 살이 찌는(과적합) 상태고, 라쏘는 음식의 종류 자체를 2~3개로 극단적으로 제한하는 다이어트라면, 릿지는 모든 반찬을 골고루 먹되 한 입씩만 먹게 해서 날씬함을 유지하는 다이어트다.

Ⅳ. 실무 적용 및 기술사 판단

실무 적용 시나리오: 쇼핑몰 고객 이탈 예측을 하는데, 변수로 '최근 1주 접속 횟수', '최근 1달 접속 횟수', '최근 3달 접속 횟수'가 있다. 이 셋은 다중 공선성(상관관계 0.9 이상)이 매우 높다. 만약 라쏘를 쓰면 셋 중 하나만 랜덤으로 살아남아 결과가 매번 출렁인다. 하지만 릿지를 쓰면 셋 다 지우지 않고 가중치를 $0.33$씩 예쁘게 나눠 가져, 예측 모델이 흔들리지 않고 매우 안정적(Robust)으로 돌아간다.

기술사 판단 포인트 (Trade-off): 릿지 아키텍처를 적용할 때 기술사는 반드시 **'람다($\lambda$ 혹은 $\alpha$) 튜닝'과 '스케일링(Scaling)'**을 파이프라인의 최우선 방어막으로 쳐야 한다.

스케일링 필수: 릿지는 '가중치(W)의 크기'로 벌금을 매긴다. 만약 변수 1의 단위가 '원'이고 변수 2의 단위가 '조 원'이라면, 스케일이 작은 변수의 가중치가 억지로 커지게 되어 릿지 페널티를 부당하게 다 뒤집어쓴다. 따라서 릿지 앞에는 반드시 StandardScaler가 결합되어야 한다.
람다($\lambda$) 찾기: $\lambda$가 0이면 일반 회귀와 똑같고, $\lambda$가 무한대면 모든 가중치가 0이 되어 수평선(평균)이 그어진다. 기술사는 이 사이에서 모델의 일반화 성능이 최고가 되는 $\lambda$를 찾기 위해, RidgeCV 라이브러리로 수십 개의 $\lambda$를 교차 검증하여 최적의 타점을 자동으로 찾아내야 한다.

📢 섹션 요약 비유: 릿지는 직원(변수)들에게 징수하는 벌금($\lambda$)이다. 월급 단위가 다르면 억울한 직원이 생기니 먼저 월급을 똑같이 맞추고(스케일링), 벌금을 너무 세게 매기면 직원들이 일을 아예 안 하니(가중치 0 수렴) 적당한 벌금액을 찾아야 한다.

Ⅴ. 기대효과 및 결론

릿지 회귀(L2 정규화)는 1970년대에 도입되어, 수학적으로 해를 구할 수 없었던 '다중 공선성'의 역행렬 에러를 분모에 미세한 숫자(페널티)를 더해줌으로써 우아하게 풀어낸 통계학의 구원자다. 노이즈에 극도로 민감한 선형 모델에 묵직한 닻을 내려준 셈이다.

결론적으로 릿지는 화려하게 튀는 변수를 솎아내는 영웅은 아니지만, 모든 변수가 손잡고 같이 굴러갈 수 있도록 밸런스를 잡아주는 든든한 방패다. 오늘날 거대 언어 모델(LLM)이나 추천 시스템 행렬 분해(ALS) 등 가중치가 수십억 개인 모델들이 훈련 데이터만 달달 외워버리는 참사를 막고 있는 보이지 않는 힘은 모두 이 L2 정규화(릿지)의 철학에서 나왔음을 명심해야 한다.

📢 섹션 요약 비유: 라쏘가 쓸데없는 잔가지를 예리하게 다 쳐내어 나무의 뼈대만 남기는 가위라면, 릿지는 나무가 어느 한쪽으로 치우쳐 쓰러지지 않게 둥글고 튼튼하게 다듬어주는 둥근 조경용 톱이다.

📌 관련 개념 맵

상위 개념: 회귀 분석 (Regression), 정규화 (Regularization)
하위 개념: L2 Norm, 가중치 감쇠 (Weight Decay), 람다($\lambda$, $\alpha$)
연결 개념: 라쏘 (Lasso, L1), 엘라스틱 넷 (Elastic Net), 다중 공선성 (Multicollinearity), 데이터 스케일링

👶 어린이를 위한 3줄 비유 설명

10명의 친구가 줄다리기를 하는데, 힘센 친구 한 명만 너무 세게 당기면 줄이 뚝 끊어지거나 밸런스가 무너지겠죠? (과적합)
릿지 선생님은 "힘센 친구야, 혼자서 튀지 말고 힘을 살짝 빼! 다 같이 힘을 합쳐야지!"라고 벌점을 주면서 힘(가중치)을 골고루 나눠줘요.
덕분에 한두 명의 천재에게 휘둘리지 않고, 10명이 모두 힘을 둥글게 모아서 어떤 시험 문제(새로운 데이터)가 나와도 안 넘어지고 잘 푼답니다!