440. L1 / L2 정규화 (Regularization)와 페널티

핵심 인사이트 (3줄 요약)

본질: L1과 L2 정규화는 머신러닝 모델이 훈련 데이터에 너무 집착하여 과대적합(Overfitting)되는 것을 막기 위해, 가중치(W) 숫자가 커질 때마다 손실 함수(Loss)에 강제로 '벌점(Penalty)'을 부과하여 모델을 단순하게 다이어트시키는 수학적 통제 기법이다.

가치: L1(라쏘)은 쓸데없는 가중치를 완벽히 '0'으로 지워버려(희소성) 핵심 변수만 남기는 피처 선택(Feature Selection)에 탁월하며, L2(릿지)는 특정 가중치가 혼자 튀지 못하게 둥글게 깎아내려 모든 변수를 골고루 쓰게 만들어 모델의 일반화(Generalization) 성능을 높인다.

판단 포인트: 딥러닝 파이프라인에서 L2 정규화는 **'가중치 감쇠(Weight Decay)'**라는 이름으로 AdamW 옵티마이저 등 최적화의 디폴트 코어로 작동하고 있으며, 모델이 크고 데이터 노이즈가 심할수록 규제 파라미터($\lambda$)를 세밀하게 올려 줘야만 환각(Hallucination) 없는 견고한 AI를 만들 수 있다.

Ⅰ. 개요 및 필요성

데이터 과학자가 집값을 예측하는 딥러닝 모델을 만들었다. 모델은 집값과 상관없는 "어제 본 영화" 같은 노이즈 데이터를 보고, 우연히 이 변수의 가중치(W)를 10,000으로 비정상적으로 키워버렸다. 결과는 참혹하다. 새로운 집값을 예측할 때 "어제 본 영화" 변수 때문에 모델의 예측값이 10억씩 널뛰기를 한다 (분산 폭발, 과대적합).

이처럼 모델이 복잡해지고 데이터에 집착할수록 내부의 가중치(W) 값들은 미친 듯이 커진다. "가중치가 커지면 커질수록, 정답을 맞히더라도 칭찬 대신 몽둥이(벌점)를 때려서 가중치를 억지로 작게 억눌러 버릴 순 없을까?" 이 가혹한 통제 철학을 수학 공식으로 손실 함수(Loss Function) 뒤에 이어 붙인 안전장치가 바로 **정규화(Regularization)**다.

📢 섹션 요약 비유: 시험공부를 할 때 중요하지도 않은 쓸데없는 지문(노이즈)까지 완벽하게 외우려고 밤을 새우는 학생(과대적합)에게, "쓸데없는 지문 외울 때마다 체벌을 가하겠다!"고 협박하여, 학생이 핵심 원리만 얇고 넓게 공부하도록(일반화) 강제하는 호랑이 선생님이다.

Ⅱ. 아키텍처 및 핵심 원리

정규화는 기존 손실 함수(예: MSE) 뒤에 가중치 덩치를 측정하는 꼬리표(Penalty Term)를 붙인 아키텍처다.

┌────────────────────────────────────────────────────────┐
│             [ L1 및 L2 정규화의 수학적 벌점 파이프라인 ]         │
├────────────────────────────────────────────────────────┤
│ 1. 규제된 손실 함수 (Regularized Loss Function)         │
│    - 총 Loss = (실제값 - 예측값)²  +  λ * (가중치 벌점)     │
│    - λ (람다): 벌금의 강도 (0이면 벌금 없음, 클수록 가혹함)   │
│                                                        │
│ 2. L1 정규화 (라쏘, Lasso) : "가중치의 절댓값 합"           │
│    - 벌점 = λ * Σ|W|                                   │
│    - 특징: 덜 중요한 W를 가차 없이 '0'으로 만들어버림 (희소성)   │
│    - 효과: 변수가 100개여도 진짜 중요한 10개만 남기고 싹 다 지움!│
│                                                        │
│ 3. L2 정규화 (릿지, Ridge) : "가중치의 제곱 합"             │
│    - 벌점 = λ * Σ(W)²                                 │
│    - 특징: W가 커지면 '제곱'으로 벌금이 폭발하므로 혼자 튀지 못함 │
│    - 효과: W를 0으로 만들진 않지만, 전체적으로 둥글고 작게 깎아냄│
└────────────────────────────────────────────────────────┘

희소성 (Sparsity): L1 정규화의 기하학적 제약 공간은 마름모 꼴이라, 최적해가 항상 축의 모서리(W=0)에서 형성된다. 즉, 딥러닝 뉴런들의 선을 진짜 끊어버려서 네트워크를 듬성듬성한 거미줄(Sparse)로 만들어 연산량을 극적으로 줄여준다.
가중치 감쇠 (Weight Decay): L2 정규화를 미분해서 역전파 업데이트 식에 넣어보면, $W_{new} = W_{old} - \eta \frac{\partial L}{\partial W} - \eta \lambda W_{old}$ 가 된다. 즉, 매 턴마다 $W$값 자체를 아주 조금씩 갉아먹어서(Decay) 숫자가 절대 커지지 못하게 방어하는 완벽한 브레이크가 된다.

📢 섹션 요약 비유: 가방의 무게를 줄일 때, L1 정규화는 "쓸데없는 책 5권을 통째로 쓰레기통에 버려!(W=0)"라는 무자비한 엄마고, L2 정규화는 "책을 버리진 말고, 10권 모두 반으로 잘게 쪼개서 무게만 가볍게 만들자!(골고루 작게)"라는 합리적인 아빠다.

Ⅲ. 비교 및 연결

머신러닝과 딥러닝에서 '과적합(Overfitting)'을 막는 3대 규제 기술을 전격 비교한다.

비교 항목	L1 정규화 (라쏘 계열)	L2 정규화 (릿지, Weight Decay)	드롭아웃 (Dropout)
작동 원리	수식에 절댓값 벌금 추가	수식에 제곱 벌금 추가	뉴런을 물리적으로 껐다 켬
W값의 변화	덜 중요한 값은 정확히 0이 됨	0에 가깝게 작아질 뿐 0은 안 됨	스케일링으로 보정
주요 효과	변수 선택 (Feature Selection)	다중 공선성 극복, 안정적 수렴	뉴런 동조화 박살, 앙상블 효과
딥러닝 활용	희소 행렬 연산용으로 제한적 사용	옵티마이저(AdamW)의 코어로 100% 필수 사용	은닉층에 100% 필수 사용

전통적인 회귀 분석에서는 L1과 L2를 반반 섞은 **엘라스틱 넷(Elastic Net)**을 썼다. 하지만 딥러닝에서는 드롭아웃(Dropout)이 이미 L1의 효과(선을 끊어버림)를 물리적으로 완벽하게 흉내 내고 있기 때문에, 최신 아키텍처는 대부분 **"드롭아웃 + L2 정규화(AdamW)"**의 강력한 조합으로 과적합을 이중 방어한다.

📢 섹션 요약 비유: 엘리트 팀을 만들 때, L1 정규화는 무능한 직원을 바로 잘라버리는 해고 통지서다. L2 정규화는 에이스가 혼자 상여금을 다 독식하지 못하게 연봉 상한선을 두는 샐러리 캡(Salary Cap)이다. 딥러닝은 샐러리 캡(L2)을 씌워놓고, 매일 랜덤으로 직원을 휴가(Dropout) 보내는 방식으로 최고의 팀워크를 짠다.

Ⅳ. 실무 적용 및 기술사 판단

실무 적용 시나리오: 1,000억 파라미터의 자연어 처리 모델을 학습시킨다. 모델이 커서 무조건 훈련 데이터를 통째로 외워버리는 과적합에 빠진다. 기술사는 파이토치의 optimizer = torch.optim.AdamW(model.parameters(), lr=1e-4, weight_decay=0.01) 코드를 작성한다. weight_decay=0.01이 바로 L2 정규화의 $\lambda$(벌점 강도) 파라미터다. 기존 Adam은 이 L2 정규화 수식이 모멘텀 식과 꼬여서 제대로 작동하지 않았지만, 최신 AdamW는 이 가중치 감쇠 수식을 완벽하게 독립적으로 빼내어, 매 스텝 파라미터를 1%씩 강제로 깎아버려(Decay) 거대 모델이 헛똑똑이가 되는 것을 완벽하게 막아냈다.

기술사 판단 포인트 (Trade-off): 아키텍처 설계 시 기술사는 **'$\lambda$(람다)의 크기'와 '표현력(Capacity)'**의 트레이드오프를 튜닝해야 한다.

$\lambda$를 0으로 주면 벌점이 없어서 모델이 미친 듯이 정답을 외운다(과대적합).
$\lambda$를 너무 큰 값(예: 100)으로 주면, 벌금이 무서워서 모델이 가중치를 전부 0에 가깝게 죽여버려 아무런 예측도 하지 못하는 깡통 모델(과소적합, Underfitting)이 된다.
따라서 기술사는 Optuna나 GridSearchCV를 띄워, $\lambda = 0.1, 0.01, 0.001$ 등 로그 스케일(Log-scale)로 탐색하며 Validation Loss가 U자형 곡선의 가장 낮은 바닥을 찍는 최고의 $\lambda$ 타점을 찾아 파이프라인에 주입해야 한다.

📢 섹션 요약 비유: 브레이크(람다)를 아예 안 밟으면 차가 낭떠러지로 떨어지고(과대적합), 브레이크를 너무 세게 밟으면 차가 아예 출발을 못 한다(과소적합). 코너(데이터의 복잡도)를 부드럽게 돌아갈 수 있는 가장 완벽한 텐션의 브레이크 답력을 찾아내는 것이 엔지니어의 운전 실력이다.

Ⅴ. 기대효과 및 결론

L1, L2 정규화는 "모델의 오차(Loss)가 0이라고 해서 무조건 좋은 모델은 아니다"라는 데이터 과학의 성숙함을 수식으로 증명한 철학적 잣대다. 기계에게 '가성비(Parsimony)'라는 개념을 주입하여, 불필요하게 꼬여있는 수식(큰 가중치)을 부드럽게 오컴의 면도날로 깎아냈다.

결론적으로 딥러닝이 아무리 깊어지고 파라미터가 수조 개로 늘어나더라도, 데이터를 맹목적으로 추종하려는 기계의 본능(Variance)은 영원히 사라지지 않는다. 기술사는 단순히 모델의 레이어를 복사-붙여넣기 하는 코더를 넘어, 손실 함수 이면에 숨겨진 이 가혹한 페널티 룰($\lambda$)을 조율하여 인공지능이 과거의 데이터에 얽매이지 않고 처음 보는 미래(Test Data)에도 유연하게 대처하는 '일반화의 지혜'를 갖추도록 통제해야 한다.

📢 섹션 요약 비유: 정규화는 과외 선생님이 학생에게 내리는 기발한 벌칙이다. "정답을 맞힌 건 좋은데, 너무 복잡한 꼼수로 풀었으니 -10점을 주겠다!" 이 벌칙 덕분에 학생은 꼼수(노이즈 암기)를 버리고 가장 단순하고 본질적인 공식(일반화)만을 머릿속에 남기게 된다.

📌 관련 개념 맵

상위 개념: 과적합 방지 (Overfitting Prevention), 손실 함수 (Loss Function)
하위 개념: 람다 ($\lambda$, 페널티 강도), L1/L2 Norm, 가중치 감쇠 (Weight Decay)
연결 개념: 라쏘/릿지 회귀 (Lasso/Ridge), 드롭아웃 (Dropout), AdamW 옵티마이저

👶 어린이를 위한 3줄 비유 설명

레고 성을 만들 때, 블록을 1만 개나 써서 억지로 화려하게 만든 친구가 있어요. 근데 그 성은 너무 무거워서 살짝 건드리면 무너져요 (과대적합).
L1, L2 정규화 선생님은 "블록을 많이 쓰면 쓸수록 벌점을 줄 거야!"라고 무서운 룰을 정했어요.
벌점이 무서워진 친구는 꼭 필요한 튼튼한 뼈대 블록 100개만 남기고 나머지는 다 버렸더니, 아무리 흔들어도 부서지지 않는 단단하고 완벽한 성이 되었답니다!