131. 손실 함수·옵티마이저·경사 하강법 - 딥러닝 학습의 3대 축

핵심 인사이트 (3줄 요약)

본질: 딥러닝 학습은 ①손실 함수(Loss Function)로 예측과 정답의 차이를 측정하고, ②경사 하강법(Gradient Descent)으로 손실을 줄이는 방향을 계산하며, ③옵티마이저(Optimizer)가 가중치를 업데이트하는 3단계 순환이다.

가치: 이 3가지가 잘못되면 학습이 수렴하지 않거나(발산), 지역 최솟값에 갇히거나(과소적합), 과적합되므로 각 요소의 선택이 모델 성능을 직접 결정한다.

판단 포인트: 분류(Cross-Entropy), 회귀(MSE), 옵티마이저(Adam이 사실상 표준), 학습률 스케줄러(Cosine Annealing)가 현대 딥러닝의 표준 조합이다.

Ⅰ. 개요 및 필요성

학습 루프: 예측 → 손실 계산 → 역전파 → 가중치 업데이트 → 반복
  Loss: Cross-Entropy (분류), MSE (회귀)
  Optimizer: SGD → Momentum → Adam (표준)

📢 섹션 요약 비유: 손실 함수는 시험 채점, 경사 하강법은 "어떻게 공부하면 점수가 오를까" 방향 계산, 옵티마이저는 실제 공부 전략이다.

Ⅱ. 아키텍처 및 핵심 원리

옵티마이저	특징
SGD	기본, 느림
Momentum	관성 추가, 진동↓
Adam	Momentum+RMSProp, 표준
AdamW	Adam+Weight Decay

Ⅲ~Ⅴ. 결론

손실 함수·옵티마이저·경사 하강법은 딥러닝 학습의 핵심 엔진이며, Adam/AdamW가 현재 사실상 표준이다.

📌 관련 개념 맵

개념	연결 포인트
Loss Function	예측↔정답 차이 측정
Gradient Descent	손실 최소화 방향
Adam	적응형 옵티마이저 (표준)
Learning Rate	학습 보폭
Backpropagation	역전파 (기울기 계산)

📈 관련 키워드 및 발전 흐름도

[SGD (1951)] → [Momentum (1964)] → [AdaGrad (2011)]
    → [RMSProp (2012)] → [Adam (2014) — 표준]
    → [AdamW (2018)] → [현재: Lion·Sophia — 차세대 옵티마이저]

👶 어린이를 위한 3줄 비유 설명

손실 함수는 시험 채점이에요. 틀린 게 많으면 점수(손실)가 높아요.
경사 하강법은 "어떻게 공부하면 점수가 오를까" 방향을 알려줘요.
옵티마이저(Adam)는 가장 효율적인 공부법이라 시험 점수가 빨리 올라요!