핵심 인사이트 (3줄 요약)
- 본질: 시그모이드(Sigmoid) 활성화 함수는 기울기 소실(Vanishing Gradient) 문제를 유발해 깊은 신경망 학습을 어렵게 하며, ReLU(Rectified Linear Unit)가 이를 해결하는 핵심 대안이다.
- 가치: 역전파(Backpropagation)의 연쇄 법칙(Chain Rule)을 통해 기울기가 전파되므로, 기울기 소실·폭발(Vanishing/Exploding Gradient) 문제는 신경망 깊이와 활성화 함수 선택에 직접적으로 연결된다.
- 판단 포인트: 은닉층에는 ReLU/GELU, 출력층에는 회귀→선형(Linear), 이진분류→시그모이드, 다중분류→소프트맥스(Softmax)를 사용하는 조합 원칙을 논술에서 명확히 제시해야 한다.
Ⅰ. 개요 및 필요성
기울기 소실 문제 (Vanishing Gradient Problem)
깊은 신경망에서 역전파 시 기울기(Gradient)가 출력층에서 입력층으로 전달되면서 지수적으로 작아지는 현상이다.
원인:
- 시그모이드 함수의 최대 미분값 = 0.25 (입력이 ±2 이상이면 거의 0)
- 30층 신경망에서 0.25^30 ≈ 8.7 × 10^-19 → 사실상 기울기 0
- 초기 층의 가중치가 거의 업데이트되지 않음
결과:
- 깊은 층의 특성 학습 불가
- 학습 속도 극단적 저하
- 네트워크가 수렴하지 않음
기울기 폭발 문제 (Exploding Gradient Problem)
반대로 기울기가 지수적으로 커지는 현상:
- RNN(순환 신경망)에서 자주 발생
- 가중치 업데이트가 너무 커서 학습 발산
- **그래디언트 클리핑(Gradient Clipping)**으로 해결
📢 섹션 요약 비유: 기울기 소실은 깊은 우물에 메시지를 전달하는 것과 같다. 30명이 손에서 손으로 전달하면, 마지막에는 속삭임도 안 들릴 만큼 신호가 사라진다.
Ⅱ. 아키텍처 및 핵심 원리
활성화 함수 비교
활성화 함수 특성 비교
┌──────────────┬────────────┬──────────────┬───────────────────┐
│ 함수 │ 수식 │ 출력 범위 │ 특징 │
├──────────────┼────────────┼──────────────┼───────────────────┤
│ Sigmoid │ 1/(1+e^-x) │ (0, 1) │ 기울기 소실 심각 │
│ Tanh │ (e^x-e^-x) │ (-1, 1) │ 기울기 소실 존재 │
│ │ /(e^x+e^-x)│ │ │
│ ReLU │ max(0, x) │ [0, ∞) │ 빠름, Dead ReLU │
│ Leaky ReLU │ max(0.01x,x│ (-∞, ∞) │ Dead ReLU 개선 │
│ ELU │ x if x>0 │ (-1, ∞) │ 음수 포화 개선 │
│ │ α(e^x-1) else│ │ │
│ GELU │ x·Φ(x) │ (-∞, ∞) │ Transformer 표준 │
│ Softmax │ e^xi/Σe^xj │ (0, 1), Σ=1│ 다중 클래스 출력 │
└──────────────┴────────────┴──────────────┴───────────────────┘
역전파(Backpropagation)와 연쇄 법칙(Chain Rule)
순전파 (Forward Pass):
Input → [Layer1] → [Layer2] → [Layer3] → Output
x a1=f(W1·x) a2=f(W2·a1) ŷ=f(W3·a2)
역전파 (Backward Pass):
Loss L 계산 → ∂L/∂W3 → ∂L/∂W2 → ∂L/∂W1
연쇄 법칙: ∂L/∂W1 = ∂L/∂ŷ · ∂ŷ/∂a2 · ∂a2/∂a1 · ∂a1/∂W1
배치 정규화(Batch Normalization)의 역할:
- 각 층의 입력 분포를 정규화 → 기울기 소실 완화
- 더 높은 학습률 사용 가능
- 드롭아웃 효과를 부분 대체
📢 섹션 요약 비유: 역전파는 성적표 피드백이다. 선생님(출력층)이 틀렸다고 알려주면, 그 오류 신호가 거꾸로 전달되어 각 학생(레이어)이 자신의 실수를 고친다.
Ⅲ. 비교 및 연결
ReLU vs 변형 비교
| 함수 | Dead Neuron | 기울기 소실 | 수렴 속도 | 주요 사용 환경 |
|---|---|---|---|---|
| Sigmoid | 없음 | 심각 | 느림 | 이진 분류 출력 |
| ReLU | 있음(x<0) | 거의 없음 | 빠름 | 일반 은닉층 |
| Leaky ReLU | 없음 | 없음 | 빠름 | GAN, 깊은 네트워크 |
| GELU | 없음 | 없음 | 빠름 | BERT, GPT, Transformer |
| Softmax | - | - | - | 다중 분류 출력층만 |
Dead ReLU 문제와 해결
ReLU의 음수 입력 시 기울기 = 0 → 뉴런이 "죽음(Dead)"
해결 방법:
- Leaky ReLU: 음수 구간에서도 작은 기울기(0.01) 유지
- ELU: 음수 구간에서 지수함수로 포화
- 적절한 가중치 초기화(He Initialization)
- 학습률 조정으로 뉴런 죽음 예방
📢 섹션 요약 비유: Dead ReLU는 전구가 타버린 것과 같다. 한번 꺼지면 신호가 통과를 못 한다. Leaky ReLU는 타지 않도록 최소한의 전류를 흘려준다.
Ⅳ. 실무 적용 및 기술사 판단
출력층 활성화 함수 선택 원칙
| 태스크 | 출력층 활성화 | 손실 함수 |
|---|---|---|
| 회귀 | 없음(Linear) | MSE (Mean Squared Error) |
| 이진 분류 | Sigmoid | BCE (Binary Cross-Entropy) |
| 다중 분류 | Softmax | CCE (Categorical Cross-Entropy) |
| 다중 레이블 | Sigmoid (각 출력) | BCE (각 레이블 독립) |
| 언어 모델 | Softmax (어휘 크기) | CCE |
소프트맥스 (Softmax) 상세
Softmax(xi) = exp(xi) / Σ exp(xj)
예시: [2.0, 1.0, 0.5] →
exp([2.0, 1.0, 0.5]) = [7.39, 2.72, 1.65]
합계 = 11.76
결과: [0.628, 0.231, 0.140] (합 = 1.0)
- 모든 출력을 0~1 사이의 확률로 변환
- 합이 1이므로 확률 분포로 해석 가능
- 온도 파라미터(Temperature): T>1 → 분포 평탄화, T<1 → 분포 첨예화
📢 섹션 요약 비유: 소프트맥스는 득표율 계산이다. 세 후보가 7표, 2표, 1표를 받으면 득표율이 70%, 20%, 10%가 되고, 이 비율의 합은 100%다.
Ⅴ. 기대효과 및 결론
현대 신경망 설계 원칙 정리
| 층 | 권장 활성화 함수 | 이유 |
|---|---|---|
| 은닉층 (일반) | ReLU 또는 Leaky ReLU | 기울기 소실 없음, 빠른 수렴 |
| 은닉층 (Transformer) | GELU | 부드러운 비선형성, 성능 우수 |
| 출력층 (회귀) | 없음 (Linear) | 값 범위 제한 없음 |
| 출력층 (이진 분류) | Sigmoid | 확률 출력 |
| 출력층 (다중 분류) | Softmax | 확률 분포 출력 |
결론
ReLU와 그 변형들은 딥러닝의 깊이 문제를 해결한 핵심 혁신이다. 배치 정규화, 잔차 연결(Residual Connection), 그리고 GELU 같은 부드러운 활성화 함수가 결합되어 수백 층의 신경망도 안정적으로 학습할 수 있게 되었다. 기술사 논술에서는 각 활성화 함수의 수학적 특성과 사용 맥락을 함께 설명해야 한다.
📢 섹션 요약 비유: 활성화 함수는 뇌의 뉴런 발화 규칙이다. 어떤 자극에 어떻게 반응할지 결정하는 규칙이고, 이 규칙의 선택이 뇌(신경망)의 학습 능력을 결정한다.
📌 관련 개념 맵
| 관계 | 개념 | 설명 |
|---|---|---|
| 문제 | 기울기 소실 (Vanishing Gradient) | 시그모이드 함수의 깊은 층 학습 장애 |
| 해결 | ReLU (Rectified Linear Unit) | 양수 구간 기울기 = 1 유지 |
| 변형 | Leaky ReLU, GELU, ELU | Dead ReLU 및 기울기 소실 개선 |
| 출력 활성화 | Softmax | 다중 분류 확률 분포 |
| 학습 알고리즘 | 역전파 + 연쇄 법칙 | 기울기 계산 및 전파 |
| 보조 기법 | 배치 정규화 | 기울기 소실 완화 |
| 보조 기법 | 잔차 연결 (ResNet) | 기울기 통로 확보 |
👶 어린이를 위한 3줄 비유 설명
- 기울기 소실은 속삭임 전화 게임이야. 30명이 순서대로 전달하면 마지막엔 아무 소리도 안 들려.
📈 관련 키워드 및 발전 흐름도
Sigmoid/Tanh → 기울기 소실 (깊은 네트워크 학습 불가)
│
▼
ReLU: max(0,x) → 기울기 소실 해결 · Dying ReLU 문제
├─► Leaky ReLU · PReLU · ELU · Swish · GELU
│
▼
Softmax (출력층): 다중 클래스 확률 분포
│
▼
역전파 + Chain Rule → Autograd (자동 미분)
- ReLU는 양수면 그대로 전달하고, 음수면 0으로 만드는 간단한 규칙이야. 이 덕분에 신호가 소리치듯 전달돼.
- 소프트맥스는 시험 점수를 퍼센트로 바꾸는 것이야. 모든 답의 확률을 더하면 100%가 되니까 "이게 고양이일 확률이 70%야"라고 말할 수 있어.