핵심 인사이트 (3줄 요약)
- 본질: ReLU(Rectified Linear Unit)는 **f(x) = max(0, x)**로 정의되는 활성화 함수이며, 양수는 그대로 통과, 음수는 0으로 차단하는 단순한 구조로 Vanishing Gradient 문제를 해결하여 딥러닝을 실용화했다.
- 가치: Sigmoid의 기울기 소실로 깊은 신경망 학습이 불가능했던 한계를 ReLU가 극복하여 2012년 AlexNet의 ImageNet 우승을 이끌었다.
- 판단 포인트: Dead Neuron(음수 영역 영구 0) 문제가 있어 Leaky ReLU·PReLU·ELU 등 변형이 존재하며, Transformer에서는 GELU·SwiGLU가 표준이다.
Ⅰ. 개요 및 필요성
ReLU: f(x) = max(0, x)
x > 0 → x (그대로), x ≤ 0 → 0 (차단)
기울기: x > 0 → 1, x ≤ 0 → 0
→ Vanishing Gradient 없음 (기울기=1 유지)
- 📢 섹션 요약 비유: ReLU는 문(양수=열림, 음수=닫힘)이다. Sigmoid는 반쯤 열린 문(기울기 소실 위험).
Ⅱ. 아키텍처 및 핵심 원리
| 변형 | 수식 | 특징 |
| Leaky ReLU | max(0.01x, x) | Dead Neuron 방지 |
| PReLU | max(αx, x) | α 학습 |
| ELU | α(eˣ-1), x | 부드러운 음수 |
Ⅲ~Ⅴ. 결론
ReLU는 딥러닝의 가장 기본적이고 중요한 활성화 함수이며, CNN/MLP에서 사실상 표준이다.
📌 관련 개념 맵
| 개념 | 연결 포인트 |
| ReLU | max(0,x) — CNN 표준 |
| Vanishing Gradient | Sigmoid의 문제 → ReLU 해결 |
| Dead Neuron | ReLU의 문제 → Leaky ReLU 해결 |
| GELU | Transformer 표준 |
| AlexNet | ReLU를 최초 대규모 적용 (2012) |
📈 관련 키워드 및 발전 흐름도
[Sigmoid (1980s)] → [ReLU (2010, Nair)] → [AlexNet ReLU 성공 (2012)]
→ [Leaky/PReLU (2015)] → [GELU (2016, Transformer)]
→ [SwiGLU (2022, LLM)] → [현재: KAN (2024)]
👶 어린이를 위한 3줄 비유 설명
- ReLU는 문이에요. 좋은 신호(양수)는 열어서 통과, 나쁜 신호(음수)는 닫아서 차단해요.
- 옛날 문(Sigmoid)은 반만 열려서 신호가 점점 약해졌어요(Vanishing).
- ReLU 덕분에 깊은 신경망도 잘 학습할 수 있게 됐답니다!