핵심 인사이트 (3줄 요약)
- 본질: 딥러닝 학습은 ①손실 함수(Loss Function)로 예측과 정답의 차이를 측정하고, ②경사 하강법(Gradient Descent)으로 손실을 줄이는 방향을 계산하며, ③옵티마이저(Optimizer)가 가중치를 업데이트하는 3단계 순환이다.
- 가치: 이 3가지가 잘못되면 학습이 수렴하지 않거나(발산), 지역 최솟값에 갇히거나(과소적합), 과적합되므로 각 요소의 선택이 모델 성능을 직접 결정한다.
- 판단 포인트: 분류(Cross-Entropy), 회귀(MSE), 옵티마이저(Adam이 사실상 표준), 학습률 스케줄러(Cosine Annealing)가 현대 딥러닝의 표준 조합이다.
Ⅰ. 개요 및 필요성
학습 루프: 예측 → 손실 계산 → 역전파 → 가중치 업데이트 → 반복
Loss: Cross-Entropy (분류), MSE (회귀)
Optimizer: SGD → Momentum → Adam (표준)
- 📢 섹션 요약 비유: 손실 함수는 시험 채점, 경사 하강법은 "어떻게 공부하면 점수가 오를까" 방향 계산, 옵티마이저는 실제 공부 전략이다.
Ⅱ. 아키텍처 및 핵심 원리
| 옵티마이저 | 특징 |
| SGD | 기본, 느림 |
| Momentum | 관성 추가, 진동↓ |
| Adam | Momentum+RMSProp, 표준 |
| AdamW | Adam+Weight Decay |
Ⅲ~Ⅴ. 결론
손실 함수·옵티마이저·경사 하강법은 딥러닝 학습의 핵심 엔진이며, Adam/AdamW가 현재 사실상 표준이다.
📌 관련 개념 맵
| 개념 | 연결 포인트 |
| Loss Function | 예측↔정답 차이 측정 |
| Gradient Descent | 손실 최소화 방향 |
| Adam | 적응형 옵티마이저 (표준) |
| Learning Rate | 학습 보폭 |
| Backpropagation | 역전파 (기울기 계산) |
📈 관련 키워드 및 발전 흐름도
[SGD (1951)] → [Momentum (1964)] → [AdaGrad (2011)]
→ [RMSProp (2012)] → [Adam (2014) — 표준]
→ [AdamW (2018)] → [현재: Lion·Sophia — 차세대 옵티마이저]
👶 어린이를 위한 3줄 비유 설명
- 손실 함수는 시험 채점이에요. 틀린 게 많으면 점수(손실)가 높아요.
- 경사 하강법은 "어떻게 공부하면 점수가 오를까" 방향을 알려줘요.
- 옵티마이저(Adam)는 가장 효율적인 공부법이라 시험 점수가 빨리 올라요!