332. 최대 우도 추정법 (MLE, Maximum Likelihood Estimation)

핵심 인사이트 (3줄 요약)

본질: 최대 우도 추정법(MLE)은 이미 눈앞에 일어난 사건(관측된 데이터)들을 보고, "이런 일들이 발생하려면, 애초에 이 동전(확률 모델)은 어떤 모양이었어야 가장 말이 될까?"를 역추적하는 통계적 파라미터 추정 기법이다.

가치: 딥러닝이나 로지스틱 회귀가 학습할 때 "내가 찍은 답이 실제 정답일 확률(우도, Likelihood)"을 최대로 끌어올리기 위해 가중치를 튜닝하는 모든 과정의 근원적인 수학적 엔진 역할을 한다.

판단 포인트: 여러 사건이 동시에 일어날 확률을 곱하다 보면 숫자가 0에 수렴하여 컴퓨터(CPU)가 에러(Underflow)를 뱉으므로, 실무에서는 확률에 로그(Log)를 씌워 곱셈을 덧셈으로 바꾸는 **로그 우도(Log-Likelihood)**를 사용하는 것이 필수적이다.

Ⅰ. 개요 및 필요성

눈앞에 동전이 하나 있다. 이 동전을 100번 던졌더니 앞면이 70번이나 나왔다. 일반적인 동전이라면 앞면이 50번쯤 나와야 정상이다. 데이터 과학자는 생각한다. "아마 이 동전은 앞면이 나올 확률이 0.5가 아니라 0.7쯤 되도록 찌그러진 동전일 거야!"

이처럼 이미 관측된 '결과'를 바탕으로, 그런 결과를 낳게 한 '원인(확률 분포의 파라미터)'을 가장 그럴듯하게(Maximum) 찾아내는(Estimation) 역발상의 수학적 도구가 바로 **최대 우도 추정법(MLE)**이다. 기계학습은 모델의 오차를 줄이는 것도 목표지만, 역으로 "우리가 가진 데이터가 나올 확률(우도)을 최대로 만드는 모델 세팅값 찾기"가 궁극적인 학습의 본질이기 때문에 MLE는 통계학의 심장과도 같다.

📢 섹션 요약 비유: 바닥에 떨어진 총알 탄피들(데이터)의 위치를 보고, "범인이 어디서 총을 쏴야 저렇게 탄피가 떨어질 확률이 가장 높을까?"를 역추적해서 범인의 위치(파라미터)를 찾아내는 과학 수사 기법이다.

Ⅱ. 아키텍처 및 핵심 원리

MLE를 이해하려면 먼저 '확률(Probability)'과 '우도(Likelihood)'의 차이를 명확히 구분해야 한다.

┌────────────────────────────────────────────────────────┐
│             [ 확률(Probability) vs 우도(Likelihood) ]        │
├────────────────────────────────────────────────────────┤
│ 1. 확률 (Probability)                                  │
│    - 원인을 알 때 결과를 예측하는 것                       │
│    - "앞면 확률이 50%인 동전을 던지면, 앞면이 나올 확률은?"│
│    - P(데이터 | 모델)                                    │
│                                                        │
│ 2. 우도 (Likelihood)                                   │
│    - 결과를 알 때 원인을 역추적하는 것                     │
│    - "앞면이 70번 나왔는데, 이 동전의 진짜 앞면 확률은 얼마일까?"│
│    - L(모델 | 데이터)                                    │
│                                                        │
│ 3. MLE (Maximum Likelihood Estimation)                 │
│    - 관측된 데이터가 나올 우도(L)를 가장 극대화(Max)시키는 │
│      모델의 파라미터(θ)를 미분해서 찾아내는 과정!             │
└────────────────────────────────────────────────────────┘

우도 함수 (Likelihood Function): 데이터 1이 나올 확률 $\times$ 데이터 2가 나올 확률 $\times \dots \times$ 데이터 $N$이 나올 확률을 모두 곱한 식이다.
로그 우도 (Log-Likelihood): 0.5 같은 소수를 100번 곱하면 $0.000...001$이 되어 컴퓨터가 계산을 포기(Underflow)한다. 그래서 양변에 로그($\ln$)를 씌운다. 로그의 마법 덕분에 곱하기($\times$)가 더하기($+$)로 바뀌어 컴퓨터가 안전하게 계산할 수 있게 된다.
최적화 (미분): 이 로그 우도 함수의 꼭대기(극댓값)를 찾기 위해 함수를 미분해서 0이 되는 지점의 파라미터($\theta$)를 구하면 끝이다.

📢 섹션 요약 비유: 우도는 "이 과녁의 총알 구멍들을 보건대, 스나이퍼의 실력이 90점일 가능성은 10%, 70점일 가능성은 90%다"라고 거꾸로 점수를 매기는 것이다. MLE는 그중 가장 가능성 높은 70점을 스나이퍼의 진짜 실력으로 확정 짓는 행동이다.

Ⅲ. 비교 및 연결

회귀 모델을 학습시키는 두 가지 대표적인 엔진인 OLS와 MLE를 비교해 보면, 그 철학이 맞닿아 있음을 알 수 있다.

비교 항목	최소 제곱법 (OLS)	최대 우도 추정법 (MLE)
철학	오차(Error)를 가장 작게 만들자	데이터가 나올 확률(우도)을 가장 크게 만들자
수학적 전개	잔차의 제곱합을 최소화 (덧셈 기반)	발생 확률의 곱을 최대화 (로그 덧셈 기반)
데이터의 가정	가정이 덜 엄격함	데이터가 특정 확률 분포(정규분포 등)를 따른다고 가정함
주요 적용 모델	선형 회귀 (Linear Regression)	로지스틱 회귀, 딥러닝(Cross-Entropy)
결과	오차 정규분포 가정 시 OLS와 MLE의 결과는 완전히 동일함!

딥러닝의 분류(Classification) 문제에서 쓰이는 교차 엔트로피(Cross-Entropy) 손실 함수는, 사실 이 최대 우도 추정법(MLE)에 마이너스(-) 기호를 붙인 것과 완벽하게 똑같은 식이다. "우도를 최대화하는 것"은 곧 "교차 엔트로피 손실을 최소화하는 것"과 같다.

📢 섹션 요약 비유: 활을 쏠 때, "과녁 중심에서 빗나간 거리(오차)를 최소화해라(OLS)"라고 말하는 것과 "10점 만점을 맞출 확률(우도)을 최대화해라(MLE)"라고 말하는 것은 결국 똑같은 행동을 지시하는 것이다.

Ⅳ. 실무 적용 및 기술사 판단

실무 적용 시나리오: 넷플릭스의 이탈 예측 모델을 학습시킬 때 쓴다. A고객이 해지할 확률 식을 세운 뒤, "실제로 해지한 사람들이 해지할 확률"이 가장 높게 나오도록 모델의 가중치(파라미터)들을 조절해 나간다. 이때 컴퓨터 내부에서 작동하는 미분 공식의 기반이 바로 MLE다.

기술사 판단 포인트 (Trade-off): MLE를 기반으로 한 예측 아키텍처를 설계할 때, 기술사는 **'사전 지식(Prior)의 부재로 인한 과적합(Overfitting)'**을 가장 조심해야 한다.

만약 동전을 3번 던졌는데 우연히 앞면이 3번 다 나왔다고 치자. MLE는 매우 단순하고 정직해서 "이 동전은 100% 앞면만 나오는 동전이다"라고 바보 같은 결론을 내려버린다. (과적합)
우리는 상식적으로 "동전은 대략 50% 확률로 앞뒤가 나온다"는 사전 지식(Prior)을 알고 있다. 따라서 데이터가 너무 적을 때는 MLE만 믿지 말고, 인간의 상식(사전 확률)을 식에 끼워 넣는 최대 사후 추정(MAP, Maximum A Posteriori / 베이지안 통계) 기법으로 폴백(Fallback)해야 모델의 강건성(Robustness)을 지킬 수 있다.

📢 섹션 요약 비유: 길 가던 사람 3명에게 물어봤더니 모두 짜장면을 좋아한다고 해서, "전 국민은 100% 짜장면만 먹는다"고 결론 내리는 순진한 탐정이 MLE다. 샘플이 적을 땐 탐정의 상식(MAP)을 꼭 섞어줘야 오판을 막을 수 있다.

Ⅴ. 기대효과 및 결론

최대 우도 추정법(MLE)은 20세기 초 영국의 천재 통계학자 로널드 피셔(R.A. Fisher)가 확립한 이래, 머신러닝과 딥러닝이 모델을 학습시키는 '표준 정답지'가 되었다. 데이터가 주어졌을 때 모델을 어떻게 세팅해야 최선인지를 결정하는 완벽한 수학적 나침반이기 때문이다.

결론적으로 MLE는 인공지능이 "내가 지금 맞게 배우고 있는가?"를 측정하는 평가 기준이다. 기술사는 단순히 파이토치나 텐서플로의 Loss.backward() 함수를 호출하는 것을 넘어, 그 블랙박스 내부에서 MLE가 데이터의 확률 분포를 어떻게 추정하고 우도를 높여가는지 그 근원적인 역학을 꿰뚫고 있어야 진정한 모델 최적화를 이룰 수 있다.

📢 섹션 요약 비유: MLE는 인공지능이라는 등산객이 산을 오를 때, "이쪽으로 한 걸음 내디디면 정상(정답)에 가까워질 확률이 높아지는가?"를 매 순간 계산해 주는 만능 고도계와 같다.

📌 관련 개념 맵

상위 개념: 통계적 추론 (Statistical Inference), 기계 학습 (Machine Learning)
하위 개념: 우도 (Likelihood), Log-Likelihood, 최적화 (미분)
연결 개념: Cross-Entropy (교차 엔트로피 손실 함수), MAP (최대 사후 추정), 베이즈 정리

👶 어린이를 위한 3줄 비유 설명

바닥에 진흙 발자국이 잔뜩 찍혀 있는데, 발자국이 엄청 커요.
MLE는 "이렇게 큰 발자국을 남기려면, 범인은 키가 2미터인 사람이어야 가장 말이 되겠네!"라고 거꾸로 범인의 모습을 맞춰보는 명탐정의 추리법이에요.
결과(발자국)를 보고 원인(범인의 키)을 가장 그럴듯하게(Maximum) 상상해 내기 때문에 인공지능이 공부할 때 가장 많이 쓰는 방법이랍니다!