핵심 인사이트 (3줄 요약)
- 본질: 라쏘(Lasso) 회귀는 회귀 분석을 할 때, 수많은 변수(Feature)들의 가중치($W$) 절댓값을 모두 더한 만큼 오차 함수에 페널티(L1 정규화)를 부과하여 모델이 쓸데없는 변수를 무시하도록 강제하는 기법이다.
- 가치: 가장 큰 특징은 수학적으로 덜 중요한 변수의 가중치를 정확히 '0'으로 만들어 버린다는 점이며, 이 덕분에 모델의 과적합(Overfitting)을 막는 동시에 수백 개의 변수 중 핵심 변수만 골라내는 '자동 변수 선택(Feature Selection)' 기능을 공짜로 제공한다.
- 판단 포인트: 상관관계가 높은(비슷한) 변수 그룹이 있을 때, 라쏘는 그중 하나만 살리고 나머지는 다 0으로 죽여버리는 무자비한 성질(희소성, Sparsity)이 있으므로, 변수들이 얽혀있는 데이터에서는 릿지(Ridge) 회귀나 둘을 섞은 엘라스틱 넷(Elastic Net)으로 보완해야 한다.
Ⅰ. 개요 및 필요성
데이터 과학자가 집값을 예측하는 다중 회귀 모델($Y = W_1 X_1 + W_2 X_2 ...$)을 짠다. 정확도를 높이려고 '집 평수', '방 개수' 외에도 '창문 개수', '화장실 타일 색깔', '앞집 주인의 나이' 같은 수백 개의 변수를 쓸어 담았다.
결과는 대참사다. 변수가 너무 많아지면 모델은 과거 데이터에 포함된 잡다한 우연의 일치(노이즈)까지 다 외워버려, 새로운 집값을 전혀 예측하지 못하는 과적합(Overfitting)에 빠진다. 이를 막기 위해 "변수 개수를 줄여! 그리고 각 변수의 영향력(W)을 최대한 작게 만들어!"라고 억누르는 페널티를 고안했는데, 그중에서도 가장 혹독하게 페널티를 주어 불필요한 변수의 목숨(W)을 아예 끊어버리는(0으로 만드는) 킬러 알고리즘이 바로 **라쏘(Lasso, L1 정규화)**다.
📢 섹션 요약 비유: 이삿짐(변수)을 쌀 때, 쓸데없는 짐까지 다 싸면 가방이 터진다(과적합). 라쏘는 "꼭 필요한 짐 3개만 빼고 나머지는 무조건 버려!"라고 가방 용량을 칼같이 제한하는 미니멀리즘 정리 전문가다.
Ⅱ. 아키텍처 및 핵심 원리
라쏘 회귀의 핵심은 기본 선형 회귀의 오차식(MSE) 끝에 붙는 L1 페널티 항이다.
┌────────────────────────────────────────────────────────┐
│ [ 라쏘(Lasso) 회귀의 L1 정규화 수식과 원리 ] │
├────────────────────────────────────────────────────────┤
│ 1. 라쏘 회귀의 목적 함수 (Loss Function) │
│ Loss = (실제값 - 예측값)² + λ * Σ|W_i| │
│ [ 기존 MSE 오차 ] [ L1 페널티 항 ] │
│ │
│ 2. 페널티 항의 역할 (람다, λ) │
│ - W_i (가중치)의 '절댓값'을 모두 더한 만큼 벌금을 매김 │
│ - λ가 0이면: 페널티 없음 (일반 선형 회귀와 똑같음) │
│ - λ가 클수록: 벌금이 무서워서 W들을 강제로 작게 만듦 │
│ │
│ 3. L1 정규화의 기하학적 특성 (마름모 꼴) │
│ - W의 제약 조건 모양이 뾰족한 마름모(다이아몬드) 형태임 │
│ - 오차의 타원형 등고선이 마름모의 '모서리'와 닿을 확률이 극도로 높음│
│ - 모서리에 닿는다 = 특정 W값이 정확히 '0'이 된다는 뜻! │
└────────────────────────────────────────────────────────┘
- 가중치 축소 (Weight Decay): 모델이 복잡해지는 원인은 W 값이 비정상적으로 커지기 때문이다. $\lambda$ 값을 올려 페널티를 주면 모델은 오차를 약간 손해 보더라도 W 값들을 전체적으로 작게 눌러 과적합을 방어한다.
- 희소성 (Sparsity): L1 페널티의 절댓값 합산이라는 수학적 특성 때문에, 최적해는 항상 좌표축의 모서리 위에서 형성된다. 즉, 100개의 변수를 넣어도 람다를 세게 걸면 90개의 W 값이 정확히 0이 되어 사라지고, 가장 강력한 변수 10개만 남는 희소(Sparse) 모델이 탄생한다.
📢 섹션 요약 비유: 벌금을 매길 때, 돈(오차)을 조금 더 내더라도 직원(W)들의 수를 강제로 0명으로 만들어 구조조정하는 악덕 기업 사냥꾼이다. 덕분에 회사는 군살 없이 가장 일 잘하는 에이스 몇 명만 남게 된다.
Ⅲ. 비교 및 연결
회귀 모델에 페널티를 주는 두 형제인 라쏘(L1)와 릿지(L2)를 비교해 보면 쓰임새가 완벽히 갈린다.
| 비교 항목 | 일반 선형 회귀 (OLS) | 라쏘 회귀 (Lasso / L1 정규화) | 릿지 회귀 (Ridge / L2 정규화) |
|---|---|---|---|
| 페널티 항 수식 | 없음 | $\lambda \sum|W_i|$ (절댓값 합) | $\lambda \sum W_i^2$ (제곱 합) |
| 제약 조건의 모양 | 없음 | 마름모 (다이아몬드형) | 원 (동그라미형) |
| W=0으로 만듦? | 아님 | 정확히 0으로 만듦 (변수 삭제 가능) | 0에 가깝게 줄일 뿐 0은 안 됨 |
| 최고의 용도 | 기본 예측 (과적합 취약) | 변수 선택 (Feature Selection) | 다중 공선성 극복 (중복 변수 제어) |
| 다중 공선성 대처 | 모델 터짐 | 중복 변수 중 1개만 살리고 다 죽임 | 중복 변수들의 가중치를 똑같이 나눠 가짐 |
데이터 엔지니어가 수천 개의 쓸데없는 변수(차원)를 들고 와서 "이 중에 힌트가 되는 변수가 뭔지 골라내 줘!"라고 할 때는 라쏘가 최고의 툴이다. 하지만 변수들이 대부분 다 의미가 있어서 골고루 써야 할 때는 릿지를 써야 한다.
📢 섹션 요약 비유: 라쏘(L1)는 10명의 비슷하게 생긴 놈들이 오면 1명만 살려두고 9명을 가차 없이 총살(W=0)해버리는 킬러고, 릿지(L2)는 10명의 월급(W)을 똑같이 깎아서 다 같이 살려두는 평화주의자다.
Ⅳ. 실무 적용 및 기술사 판단
실무 적용 시나리오: 유전자(DNA) 발현 데이터를 통해 암을 예측한다. 환자는 100명뿐인데, 유전자(변수) 종류는 2만 개다 ($P \gg N$ 문제). 일반 회귀는 돌리지도 못한다. 이때 라쏘 회귀를 돌리면, 라쏘는 19,990개의 유전자 가중치를 '0'으로 만들어 버리고 암과 진짜 관련 있는 10개의 핵심 유전자 변수만 남겨준다. 완벽한 변수 선택 파이프라인이다.
기술사 판단 포인트 (Trade-off): 라쏘 아키텍처를 도입할 때 기술사는 **'상관관계가 높은 변수(다중 공선성)들 간의 랜덤 킬링 현상'**을 방어해야 한다.
- '강남 아파트의 평수'와 '강남 아파트의 제곱미터'는 완벽히 똑같은 정보다. 라쏘는 이런 쌍둥이 변수들이 들어오면, 논리적인 이유 없이 그냥 그날그날 랜덤하게 하나를 살리고 하나를 죽여버린다.
- 따라서 도메인 변수 간의 연관성이 높다면 순수 라쏘를 쓰는 것은 위험하다. 이럴 때는 L1과 L2 정규화 비율을 5:5로 섞어서, 쌍둥이 변수들의 목숨도 같이 살리면서 덜 중요한 변수는 0으로 쳐내는 **엘라스틱 넷(Elastic Net)**으로 모델을 업그레이드해야 한다.
📢 섹션 요약 비유: 100점짜리 똑똑한 쌍둥이 형제가 지원했을 때, 라쏘는 무조건 동전 던지기로 1명만 합격시킨다. 쌍둥이 둘 다 떨어뜨려 버릴 수는 없지만, 그렇다고 둘 다 뽑는 것도 낭비라고 생각하는 극단적인 면접관이기 때문이다.
Ⅴ. 기대효과 및 결론
라쏘 회귀는 '더 적은 것이 더 낫다(Less is More)'는 데이터 과학의 오컴의 면도날 원칙을 수식 한 줄로 구현해 낸 천재적인 알고리즘이다. 과적합을 막는 방패 역할과 동시에, 데이터 과학자의 귀찮은 Feature Selection(변수 선택) 노가다를 자동화해 주는 완벽한 도구다.
결론적으로 L1 정규화(라쏘)의 철학은 회귀 분석을 넘어 딥러닝 신경망으로 이어지고 있다. 수천억 개의 파라미터를 가진 거대 언어 모델(LLM)을 스마트폰에 넣기 위해 가중치를 쳐내는 프루닝(Pruning)과 희소성(Sparsity) 연구의 기저에는 라쏘의 '0으로 만들어버리는' 삭감의 미학이 깔려 있다. 기술사는 모델의 성능뿐만 아니라, 이처럼 해석 가능하고 군살 없는 모델을 깎아내는 역량을 최우선으로 갖춰야 한다.
📢 섹션 요약 비유: 아무리 화려한 조각상이라도 쓸데없는 돌덩이가 붙어 있으면 무겁고 흉측하다. 라쏘는 군더더기 돌덩이들을 정확히 정으로 쳐내어(W=0), 데이터의 진짜 본질만 날렵하게 남겨주는 위대한 조각가다.
📌 관련 개념 맵
- 상위 개념: 회귀 분석 (Regression), 정규화 (Regularization)
- 하위 개념: 람다($\lambda$) 파라미터, L1 Norm, 과적합 (Overfitting)
- 연결 개념: 릿지(Ridge) 회귀, 엘라스틱 넷 (Elastic Net), Feature Selection, 차원의 저주
👶 어린이를 위한 3줄 비유 설명
- 여행 갈 때 쓸데없는 장난감을 100개나 가방에 우겨넣으면 무거워서 제대로 못 걷겠죠? (과적합)
- 라쏘는 가방 검사를 하는 무서운 엄마예요. 꼭 필요한 장난감 3개만 빼고 나머지는 가차 없이 전부 쓰레기통(0)에 버려버려요.
- 버릴 땐 울음이 났지만, 막상 여행을 가보면 짐이 가벼워서(가중치가 작아서) 훨씬 빠르고 정확하게 달릴 수 있답니다!