132. Adam 옵티마이저 - 적응형 학습률의 사실상 표준

핵심 인사이트 (3줄 요약)

본질: Adam(Adaptive Moment Estimation)은 **Momentum(1차 모멘트, 이동 평균) + RMSProp(2차 모멘트, 기울기 제곱 이동 평균)**을 결합한 적응형 옵티마이저이며, 파라미터별로 학습률을 자동 조정한다.

가치: SGD는 모든 파라미터에 같은 학습률을 적용하여 희소 기울기·비등방 공간에서 수렴이 느리지만, Adam은 각 파라미터에 적합한 학습률을 자동 계산하여 빠르고 안정적으로 수렴한다.

판단 포인트: AdamW(Weight Decay 분리)가 Transformer 학습의 사실상 표준이며, β₁=0.9·β₂=0.999·lr=1e-3이 기본 하이퍼파라미터이다.

Ⅰ. 개요 및 필요성

Adam = Momentum + RMSProp
  m = β₁·m + (1-β₁)·g      (1차 모멘트, 방향)
  v = β₂·v + (1-β₂)·g²     (2차 모멘트, 크기)
  θ = θ - lr · m̂/√(v̂+ε)    (업데이트)

📢 섹션 요약 비유: Adam은 내비게이션이다. 방향(Momentum)과 속도(RMSProp)를 자동으로 조절하여 목적지(최솟값)에 빠르게 도착한다.

Ⅱ. 아키텍처 및 핵심 원리

비교	SGD	Adam
학습률	고정	적응형
방향	현재 기울기	이동 평균 (안정)
수렴	느림	빠름

Ⅲ~Ⅴ. 결론

Adam/AdamW는 딥러닝 학습의 사실상 표준 옵티마이저이며, Transformer·LLM 학습에 필수이다.

📌 관련 개념 맵

개념	연결 포인트
Adam	Momentum + RMSProp
AdamW	Weight Decay 분리
Learning Rate	학습 보폭
Cosine Annealing	LR 스케줄러
Lion	차세대 옵티마이저

📈 관련 키워드 및 발전 흐름도

[SGD (1951)] → [Momentum (1964)] → [AdaGrad (2011)]
    → [RMSProp (2012)] → [Adam (2014)]
    → [AdamW (2018)] → [현재: Lion·Sophia — 메모리 효율↑]

👶 어린이를 위한 3줄 비유 설명

Adam은 내비게이션이에요. 방향과 속도를 자동으로 조절해줘요.
SGD는 지도 없이 걷기(느림), Adam은 **내비 따라 운전하기(빠름)**예요.
거의 모든 AI 학습에서 Adam이 기본 설정으로 쓰인답니다!