91. L1/L2 규제 (L1/L2 Regularization / 가중치 감쇠)

⚠️ 이 문서는 딥러닝 모델이 훈련 데이터에 너무 과하게 집착하여 미친 듯이 구불구불한 선을 그려내는 **'과적합(Overfitting)' 현상을 막기 위해, 오직 정답을 맞히는 것(Loss 최소화)에만 혈안이 된 손실 함수에 강제로 "너 변수(가중치)를 너무 크게 가져가면 벌점을 주겠다"는 수학적 제동 장치(Penalty)를 다는 'L1, L2 규제 기법'**을 다룹니다.

핵심 인사이트 (3줄 요약)

  1. 본질: 모델이 불필요한 노이즈(예: 이미지의 배경 먼지)에 집착하면 특정 가중치($W$) 값이 비정상적으로 커진다. 이를 막기 위해 손실 함수(Loss) 공식 뒤에 가중치들의 크기 자체를 더해서 징벌하는 수학적 족쇄다.
  2. 가치: 이 족쇄를 채우면 파라미터들이 튀지 않고 전반적으로 숫자가 작아지며, 부드럽고 둥글둥글한 일반적인 예측 선을 긋게 되어 처음 보는 실전 데이터(Test Set)에서도 안정적인 정답률을 보여준다.
  3. 기술 체계: 불필요한 가중치를 무자비하게 완전한 **'0'**으로 쳐내버리는 가혹한 가지치기인 **L1 규제(Lasso)**와, 0으로 만들진 않지만 튀는 놈들을 꾹꾹 억눌러 평탄하게 깎아내는 유연한 **L2 규제(Ridge, Weight Decay)**로 나뉘며 딥러닝에서는 L2가 절대적으로 애용된다.

Ⅰ. 과적합과 거대 가중치의 저주

너무 완벽하게 외운 학생은 응용력이 제로가 된다.

  1. 과적합(Overfitting)의 수학적 형태:
    • 강아지를 구별하는 AI를 훈련시킬 때, 모델이 '귀 모양' 뿐만 아니라 '사진 배경의 초록 잔디밭 픽셀'까지 법칙으로 외워버렸다 치자.
    • 이때 잔디밭 픽셀과 연결된 뉴런의 가중치($W_{잔디}$) 값이 $5,000$처럼 비정상적으로 기형적으로 커진다. 이 거대한 가중치 하나가 예측값 전체를 멱살 잡고 흔들어, "초록색만 있으면 무조건 강아지다"라고 우기는 바보 모델이 탄생한다.
  2. 손실 함수(Loss)에 벌점(Penalty) 추가:
    • 기존 모델은 오직 $(\text{정답} - \text{예측값})^2$ 의 오차만 줄이려고 필사적으로 가중치를 미친 듯이 키운다.
    • 과학자들은 기존 오차 공식 뒤에 $\lambda \times (\text{가중치 크기 합})$을 살짝 더해버렸다.
    • 이제 모델이 억지로 오차를 0으로 만들려고 가중치를 5,000으로 키워버리면, 뒤에 붙은 벌점 항이 폭발해서 전체 Loss 점수가 커져 버린다. 모델은 딜레마에 빠진다. "아, 오차를 줄이면서도 가중치를 작게 유지해야겠구나!"

📢 섹션 요약 비유: 오직 '수학 100점 맞기(오차 최소화)'에만 혈안이 된 학생(AI)이 매일 밤을 새워서 수학 교과서를 통째로 외우는 병적인 집착(과적합)을 보입니다. 선생님이 규칙을 바꿔 "수학 점수에다가, 네가 하루에 잔 시간(가중치 벌점)이 적으면 전체 성적을 깎겠다"라고 선언해 버립니다. 학생은 울며 겨자 먹기로 적당히 자면서(가중치를 작게 유지) 공부를 하게 되어 둥글둥글한 모범생으로 자라나는 교정 요법입니다.


Ⅱ. L1 규제 (Lasso) - 냉혹한 가지치기

쓸모없는 놈은 가차 없이 모가지(0)를 날려버린다.

  1. L1 규제의 수식 (절댓값 합):
    • 기존 손실 함수 $+$ $\lambda \sum |W|$ (가중치들의 절댓값을 몽땅 더해 벌점으로 쓴다).
  2. 특성 선택 (Feature Selection) 효과:
    • L1 규제의 수학적 기하학 구조(마름모꼴) 때문에, 손실을 줄이는 과정에서 중요하지 않은 변수(예: 잔디밭 픽셀)의 가중치가 정확히 '0'으로 완전히 소멸해 버리는 마법 같은 일이 벌어진다.
    • 즉, 수만 개의 변수 중에 진짜 중요한 핵심 변수 몇 개만 남기고 다 죽여버리는 '자동 가지치기(Sparse Model)' 효과가 있다.
  3. 단점:
    • 미분이 불가능한 뾰족한 점(절댓값)을 가져 딥러닝 역전파(Backprop) 계산에 까다롭고, 신경망 세포들을 너무 많이 죽여버려 정보 유실이 심해 딥러닝에서는 잘 쓰이지 않는다.

📢 섹션 요약 비유: 회사(모델)가 경영난에 빠져 군살(오차)을 빼려 할 때 L1 규제(구조조정)를 발동합니다. L1은 성과가 조금이라도 모자란 직원(덜 중요한 변수)들을 무자비하게 해고(가중치 0으로 쳐냄)해 버려 책상을 완전히 빼버립니다. 조직은 극단적으로 슬림해져 핵심 인재만 남지만, 회사의 분위기가 삭막해지는 극약 처방입니다.


Ⅲ. L2 규제 (Ridge)와 Weight Decay - 둥글게 깎아내기

아무도 죽이지 않되, 모두가 겸손하게 허리띠를 졸라매게 한다.

  1. L2 규제의 수식 (제곱 합):
    • 기존 손실 함수 $+$ $\lambda \sum W^2$ (가중치들의 제곱을 몽땅 더해 벌점으로 쓴다).
  2. 가중치 감쇠 (Weight Decay) 효과:
    • $W$를 제곱하므로 큰 놈일수록 어마어마한 벌점 폭탄을 맞는다 ($5,000^2$ vs $1^2$).
    • 모델은 벌점을 피하기 위해 유독 크게 튀는 가중치($5,000$)들을 꾹꾹 눌러서 $0.1$ 수준으로 평탄하게 깎아내린다. L1처럼 아예 '0'으로 죽여버리지는 않는다. (0에 한없이 가까워질 뿐이다.)
  3. 딥러닝의 절대 표준:
    • 특출나게 튀는 천재(거대 가중치)를 없애고 모든 뉴런이 골고루 조금씩 책임을 나눠 가지게 되어, 곡선이 부드러워지고 노이즈(이상치) 하나에 흔들리지 않는 극강의 안정성(Robustness)을 확보한다. 딥러닝에서 'Weight Decay 파라미터를 줬다'고 하면 99% 이 L2 규제를 켰다는 뜻이다.

📢 섹션 요약 비유: L2 규제(연봉 삭감)는 회사를 살리기 위해 아무도 해고(가중치 0)하지 않습니다. 대신 유독 연봉을 100억씩 독식하던 임원들(거대 가중치)의 연봉을 대폭 깎아서 모든 직원이 골고루 평등한 연봉을 받게 만듭니다. 특출난 독재자는 사라졌지만, 모든 직원이 다 함께 조금씩 힘을 보태어 회사(모델 예측)를 부드럽고 끈끈하게 굴러가게 만드는 민주적인 체질 개선입니다.