핵심 인사이트 (3줄 요약)
- 본질: 최소 제곱법(OLS)은 점들(실제 데이터) 사이를 관통하는 가장 완벽한 추세선(회귀선)을 긋기 위해, 선과 점들 사이의 수직 거리(잔차, Error)를 제곱하여 모두 더한 값이 '최소'가 되도록 선의 기울기와 절편을 찾는 수학적 엔진이다.
- 가치: 왜 하필 오차를 '제곱'할까? 오차가 양수(+)일 수도 음수(-)일 수도 있어 그냥 더하면 0이 되어 상쇄되는 문제를 막아주고, 오차가 클수록 제곱하면 페널티가 기하급수적으로 커져서 튀는 데이터(이상치)를 더 적극적으로 반영한 균형 잡힌 선을 그려주기 때문이다.
- 판단 포인트: OLS는 이상치(Outlier) 하나가 있으면 그 오차를 줄이려고 선 전체가 심하게 틀어지는 치명적 약점이 있으므로, 실무에서는 반드시 산점도를 띄워 이상치를 제거하거나 제곱 대신 절대값(L1)을 쓰는 로버스트(Robust) 회귀로 보완해야 한다.
Ⅰ. 개요 및 필요성
회귀 분석에서 컴퓨터에게 "이 수많은 데이터 점들을 가장 잘 대표하는 선($Y = aX + b$)을 하나만 그어봐!"라고 시키면, 컴퓨터는 '어떤 선이 가장 좋은 선인지' 판단할 기준이 필요하다.
어떤 선은 위쪽 점들과는 가깝지만 아래쪽 점들과는 너무 멀다. 모든 점과의 거리가 골고루 가장 짧은 선이 최고의 선일 것이다. 이 '가장 가까운 거리'를 찾는 절대적인 수학적 기준을 1800년대 초, 천재 수학자 카를 프리드리히 가우스(Gauss)와 르장드르(Legendre)가 발명했다. 이것이 바로 회귀 분석의 심장인 **최소 제곱법(OLS, Ordinary Least Squares)**이다.
📢 섹션 요약 비유: 수십 명의 친구들이 각자 다른 위치에 서 있을 때, 모든 친구가 한 발자국이라도 덜 걸어와도 되게끔 정확히 한가운데의 '황금 약속 장소(최적의 회귀선)'를 찍어주는 계산법이다.
Ⅱ. 아키텍처 및 핵심 원리
OLS의 작동 원리는 데이터 포인트($y_i$)와 회귀선 위의 예측점($\hat{y}_i$) 간의 차이인 **잔차(Residual)**를 다루는 방식에 있다.
┌────────────────────────────────────────────────────────┐
│ [ OLS (최소 제곱법)의 수학적 매커니즘 ] │
├────────────────────────────────────────────────────────┤
│ 1. 잔차 (Residual, 오차) 계산 │
│ - 선 위에 있지 않은 삐져나온 점의 수직 거리: e_i = y_i - ŷ_i │
│ │
│ 2. 잔차 제곱합 (RSS: Residual Sum of Squares) 도출 │
│ - 단순히 오차를 더하면? (+3) + (-3) = 0 (오차가 사라짐!) │
│ - 오차를 제곱해서 더함! (+3)^2 + (-3)^2 = 18 │
│ - RSS = Σ(e_i)^2 = e₁² + e₂² + ... + e_n² │
│ │
│ 3. 최적화 (Optimization) │
│ - 이 RSS 값이 가장 작아지는 선의 기울기(a)와 절편(b)을 구함 │
│ - 미분(미분값이 0인 지점)을 통해 단번에 해를 찾음 │
└────────────────────────────────────────────────────────┘
- 오차 상쇄 방지: 오차 중에는 선보다 위에 있는 점(+$e$)도 있고 선보다 아래에 있는 점(-$e$)도 있다. 이를 그냥 더하면 오차가 0이 되는 착시가 발생한다. 그래서 전부 제곱($e^2$)을 취해 양수로 만들어 더하는 것이다 (절댓값을 쓰면 미분이 불가능해 수학적으로 풀기 어렵다).
- 이상치에 대한 가중 페널티: 제곱의 무서운 점은 오차가 2일 때는 4가 되지만, 오차가 10일 때는 100으로 페널티가 폭발한다는 것이다. 즉, OLS는 선에서 아주 멀리 떨어진 튀는 점(이상치)을 극도로 싫어해서, 그 점과의 거리를 어떻게든 줄이기 위해 선 전체를 그쪽으로 억지로 꺾어버린다.
📢 섹션 요약 비유: 벌점을 매길 때 지각 1분은 1점이지만 10분은 100점을 매기는 것과 같다. 그래서 10분 지각한 사람 한 명의 벌점을 줄이기 위해 전체 반의 규칙(선)이 휘청거리는 약점이 발생한다.
Ⅲ. 비교 및 연결
회귀선을 긋기 위한 오차 계산법을 비교하면 왜 OLS가 여전히 킹(King)인지 알 수 있다.
| 비교 항목 | 최소 제곱법 (OLS / L2 Loss) | 최소 절대 편차 (LAD / L1 Loss) |
|---|---|---|
| 오차 계산법 | 오차의 제곱을 합산 ($\sum e^2$) | 오차의 절댓값을 합산 ($\sum |e|$) |
| 최적해(선) 도출 | 미분으로 한 번에 계산 (명확한 수식 존재) | 반복 연산(시행착오)을 통해 찾아야 함 |
| 이상치(Outlier) 민감도 | 매우 민감함 (선이 이상치 쪽으로 심하게 끌려감) | 덜 민감함 (선이 이상치를 무시하고 꿋꿋하게 그어짐) |
| 딥러닝 연결 | MSE (Mean Squared Error) 손실 함수 | MAE (Mean Absolute Error) 손실 함수 |
| 정규화 연결 | 릿지(Ridge) 회귀의 L2 정규화 기반 | 라쏘(Lasso) 회귀의 L1 정규화 기반 |
이 고전적인 OLS의 개념은 딥러닝 시대로 넘어와 **MSE (Mean Squared Error, 평균 제곱 오차)**라는 이름으로 모습을 바꿨다. 신경망이 수만 개의 파라미터를 튜닝할 때 정답과 예측값의 오차를 최소화하는 로직의 수학적 조상이 바로 OLS다.
📢 섹션 요약 비유: OLS는 오차가 조금만 커도 사이렌을 울리며 페널티를 주는 예민한 수학 공식이라 미적분으로 풀기 편하다. 반면 절댓값 방식은 계산하기 까다로워서 컴퓨터가 좋아하지 않는다.
Ⅳ. 실무 적용 및 기술사 판단
실무 적용 시나리오: 부동산 가격 예측 모델을 만들 때, 평수(X)에 따른 집값(Y)의 OLS 회귀 모델을 돌린다. 하지만 한남동에 있는 재벌의 초호화 저택(Outlier)이 데이터에 한 채만 섞여 있어도, OLS 모델은 이 저택의 오차(제곱)를 줄이려다 전체 서민 아파트들의 집값 예측선을 비정상적으로 높게 끌어올리는 참사가 발생한다.
기술사 판단 포인트 (Trade-off): OLS를 기반으로 한 모델 아키텍처를 설계할 때는 **'이상치(Outlier) 처리'**와 **'가정 검증'**이 분석 품질의 99%를 좌우한다.
- OLS로 구한 선이 신뢰를 얻으려면 잔차가 '정규성(종 모양), 등분산성(일정한 띠 모양), 독립성'이라는 가우스-마르코프 정리를 만족해야 한다. 잔차도(Residual Plot)를 눈으로 봤을 때 나팔꽃 모양으로 퍼진다면 OLS 모델은 폐기하고 로그(Log) 변환을 씌워야 한다.
- 강력한 이상치(Leverage Point)가 존재할 경우, OLS를 고집하지 말고 가중 최소 제곱법(WLS)이나 오차 절대값(L1) 기반의 로버스트(Robust) 회귀, 또는 나무(Tree) 기반의 랜덤포레스트 모델로 앙상블(Ensemble)해야 한다.
📢 섹션 요약 비유: OLS는 튀는 놈 한 명(이상치)의 불만을 잠재우려고 전체 다수의 권익을 희생하는 다소 불공평한 심판관이다. 그래서 기술사가 사전에 튀는 놈을 교실에서 쫓아내 주어야 평화로운 선이 그어진다.
Ⅴ. 기대효과 및 결론
OLS는 점이 1,000개든 1억 개든, 행렬 연산 $a = (X^T X)^{-1} X^T Y$ 단 한 줄의 수식만으로 단 1초 만에 완벽한 정답선을 찾아내는 인류 최고의 통계학적 걸작이다. 이 수식 하나가 통계학, 경제학, 공학을 수백 년간 지배해 왔다.
결론적으로 OLS는 인공지능이 "과연 내 예측이 정답과 얼마나 틀렸는가(Loss)?"를 측정하는 사고방식의 뿌리다. 비록 오늘날의 초거대 AI가 미적분을 쓰지 않고 GPU로 경사 하강법(Gradient Descent)을 돌려 억지로 답을 찾아내고 있지만, 그들이 내려가는 손실 곡선의 바닥에는 언제나 200년 전 가우스가 세워둔 '최소 제곱'의 철학이 깔려 있음을 명심해야 한다.
📢 섹션 요약 비유: 200년 전 수학자가 손으로 풀던 최소 제곱법이라는 나침반이 없었다면, 오늘날 수조 번을 계산하는 인공지능도 짙은 안갯속에서 방향을 잃고 헛돌았을 것이다.
📌 관련 개념 맵
- 상위 개념: 회귀 분석 (Regression Analysis), 최적화 (Optimization)
- 하위 개념: 잔차 (Residual), 미분, 행렬 연산
- 연결 개념: MSE (평균 제곱 오차), 경사 하강법 (Gradient Descent), 릿지/라쏘 회귀
👶 어린이를 위한 3줄 비유 설명
- 운동장에 수십 명의 친구들이 흩어져 있을 때, 모두가 가장 덜 걷고 모일 수 있는 완벽한 긴 밧줄을 하나 땅에 놓고 싶어요.
- OLS는 친구들이 밧줄까지 걸어와야 하는 거리를 몽땅 계산해서, 밧줄의 위치를 이리저리 옮겨보며 '가장 완벽한 자리'를 찾아주는 수학 마법이에요.
- 이 마법 덕분에 컴퓨터는 수만 개의 흩어진 점들 사이를 뚫고 지나가는 가장 예쁘고 공평한 직선을 1초 만에 그릴 수 있답니다!