핵심 인사이트 (3줄 요약)

  1. 본질: 시그모이드(Sigmoid) 활성화 함수는 기울기 소실(Vanishing Gradient) 문제를 유발해 깊은 신경망 학습을 어렵게 하며, ReLU(Rectified Linear Unit)가 이를 해결하는 핵심 대안이다.
  2. 가치: 역전파(Backpropagation)의 연쇄 법칙(Chain Rule)을 통해 기울기가 전파되므로, 기울기 소실·폭발(Vanishing/Exploding Gradient) 문제는 신경망 깊이와 활성화 함수 선택에 직접적으로 연결된다.
  3. 판단 포인트: 은닉층에는 ReLU/GELU, 출력층에는 회귀→선형(Linear), 이진분류→시그모이드, 다중분류→소프트맥스(Softmax)를 사용하는 조합 원칙을 논술에서 명확히 제시해야 한다.

Ⅰ. 개요 및 필요성

기울기 소실 문제 (Vanishing Gradient Problem)

깊은 신경망에서 역전파 시 기울기(Gradient)가 출력층에서 입력층으로 전달되면서 지수적으로 작아지는 현상이다.

원인:

  • 시그모이드 함수의 최대 미분값 = 0.25 (입력이 ±2 이상이면 거의 0)
  • 30층 신경망에서 0.25^30 ≈ 8.7 × 10^-19 → 사실상 기울기 0
  • 초기 층의 가중치가 거의 업데이트되지 않음

결과:

  • 깊은 층의 특성 학습 불가
  • 학습 속도 극단적 저하
  • 네트워크가 수렴하지 않음

기울기 폭발 문제 (Exploding Gradient Problem)

반대로 기울기가 지수적으로 커지는 현상:

  • RNN(순환 신경망)에서 자주 발생
  • 가중치 업데이트가 너무 커서 학습 발산
  • **그래디언트 클리핑(Gradient Clipping)**으로 해결

📢 섹션 요약 비유: 기울기 소실은 깊은 우물에 메시지를 전달하는 것과 같다. 30명이 손에서 손으로 전달하면, 마지막에는 속삭임도 안 들릴 만큼 신호가 사라진다.


Ⅱ. 아키텍처 및 핵심 원리

활성화 함수 비교

활성화 함수 특성 비교
┌──────────────┬────────────┬──────────────┬───────────────────┐
│  함수         │  수식       │  출력 범위   │  특징             │
├──────────────┼────────────┼──────────────┼───────────────────┤
│ Sigmoid      │ 1/(1+e^-x) │  (0, 1)      │ 기울기 소실 심각  │
│ Tanh         │ (e^x-e^-x) │  (-1, 1)     │ 기울기 소실 존재  │
│              │ /(e^x+e^-x)│              │                   │
│ ReLU         │ max(0, x)  │  [0, ∞)      │ 빠름, Dead ReLU   │
│ Leaky ReLU   │ max(0.01x,x│  (-∞, ∞)    │ Dead ReLU 개선    │
│ ELU          │ x if x>0   │  (-1, ∞)    │ 음수 포화 개선    │
│              │ α(e^x-1) else│            │                   │
│ GELU         │ x·Φ(x)     │  (-∞, ∞)    │ Transformer 표준  │
│ Softmax      │ e^xi/Σe^xj │  (0, 1), Σ=1│ 다중 클래스 출력  │
└──────────────┴────────────┴──────────────┴───────────────────┘

역전파(Backpropagation)와 연쇄 법칙(Chain Rule)

순전파 (Forward Pass):
Input → [Layer1] → [Layer2] → [Layer3] → Output
  x      a1=f(W1·x)  a2=f(W2·a1)  ŷ=f(W3·a2)

역전파 (Backward Pass):
Loss L 계산 → ∂L/∂W3 → ∂L/∂W2 → ∂L/∂W1
연쇄 법칙: ∂L/∂W1 = ∂L/∂ŷ · ∂ŷ/∂a2 · ∂a2/∂a1 · ∂a1/∂W1

배치 정규화(Batch Normalization)의 역할:

  • 각 층의 입력 분포를 정규화 → 기울기 소실 완화
  • 더 높은 학습률 사용 가능
  • 드롭아웃 효과를 부분 대체

📢 섹션 요약 비유: 역전파는 성적표 피드백이다. 선생님(출력층)이 틀렸다고 알려주면, 그 오류 신호가 거꾸로 전달되어 각 학생(레이어)이 자신의 실수를 고친다.


Ⅲ. 비교 및 연결

ReLU vs 변형 비교

함수Dead Neuron기울기 소실수렴 속도주요 사용 환경
Sigmoid없음심각느림이진 분류 출력
ReLU있음(x<0)거의 없음빠름일반 은닉층
Leaky ReLU없음없음빠름GAN, 깊은 네트워크
GELU없음없음빠름BERT, GPT, Transformer
Softmax---다중 분류 출력층만

Dead ReLU 문제와 해결

ReLU의 음수 입력 시 기울기 = 0 → 뉴런이 "죽음(Dead)"

해결 방법:

  1. Leaky ReLU: 음수 구간에서도 작은 기울기(0.01) 유지
  2. ELU: 음수 구간에서 지수함수로 포화
  3. 적절한 가중치 초기화(He Initialization)
  4. 학습률 조정으로 뉴런 죽음 예방

📢 섹션 요약 비유: Dead ReLU는 전구가 타버린 것과 같다. 한번 꺼지면 신호가 통과를 못 한다. Leaky ReLU는 타지 않도록 최소한의 전류를 흘려준다.


Ⅳ. 실무 적용 및 기술사 판단

출력층 활성화 함수 선택 원칙

태스크출력층 활성화손실 함수
회귀없음(Linear)MSE (Mean Squared Error)
이진 분류SigmoidBCE (Binary Cross-Entropy)
다중 분류SoftmaxCCE (Categorical Cross-Entropy)
다중 레이블Sigmoid (각 출력)BCE (각 레이블 독립)
언어 모델Softmax (어휘 크기)CCE

소프트맥스 (Softmax) 상세

Softmax(xi) = exp(xi) / Σ exp(xj)

예시: [2.0, 1.0, 0.5] →
  exp([2.0, 1.0, 0.5]) = [7.39, 2.72, 1.65]
  합계 = 11.76
  결과: [0.628, 0.231, 0.140]  (합 = 1.0)
  • 모든 출력을 0~1 사이의 확률로 변환
  • 합이 1이므로 확률 분포로 해석 가능
  • 온도 파라미터(Temperature): T>1 → 분포 평탄화, T<1 → 분포 첨예화

📢 섹션 요약 비유: 소프트맥스는 득표율 계산이다. 세 후보가 7표, 2표, 1표를 받으면 득표율이 70%, 20%, 10%가 되고, 이 비율의 합은 100%다.


Ⅴ. 기대효과 및 결론

현대 신경망 설계 원칙 정리

권장 활성화 함수이유
은닉층 (일반)ReLU 또는 Leaky ReLU기울기 소실 없음, 빠른 수렴
은닉층 (Transformer)GELU부드러운 비선형성, 성능 우수
출력층 (회귀)없음 (Linear)값 범위 제한 없음
출력층 (이진 분류)Sigmoid확률 출력
출력층 (다중 분류)Softmax확률 분포 출력

결론

ReLU와 그 변형들은 딥러닝의 깊이 문제를 해결한 핵심 혁신이다. 배치 정규화, 잔차 연결(Residual Connection), 그리고 GELU 같은 부드러운 활성화 함수가 결합되어 수백 층의 신경망도 안정적으로 학습할 수 있게 되었다. 기술사 논술에서는 각 활성화 함수의 수학적 특성과 사용 맥락을 함께 설명해야 한다.

📢 섹션 요약 비유: 활성화 함수는 뇌의 뉴런 발화 규칙이다. 어떤 자극에 어떻게 반응할지 결정하는 규칙이고, 이 규칙의 선택이 뇌(신경망)의 학습 능력을 결정한다.


📌 관련 개념 맵

관계개념설명
문제기울기 소실 (Vanishing Gradient)시그모이드 함수의 깊은 층 학습 장애
해결ReLU (Rectified Linear Unit)양수 구간 기울기 = 1 유지
변형Leaky ReLU, GELU, ELUDead ReLU 및 기울기 소실 개선
출력 활성화Softmax다중 분류 확률 분포
학습 알고리즘역전파 + 연쇄 법칙기울기 계산 및 전파
보조 기법배치 정규화기울기 소실 완화
보조 기법잔차 연결 (ResNet)기울기 통로 확보

👶 어린이를 위한 3줄 비유 설명

  1. 기울기 소실은 속삭임 전화 게임이야. 30명이 순서대로 전달하면 마지막엔 아무 소리도 안 들려.

📈 관련 키워드 및 발전 흐름도

Sigmoid/Tanh → 기울기 소실 (깊은 네트워크 학습 불가)
    │
    ▼
ReLU: max(0,x) → 기울기 소실 해결 · Dying ReLU 문제
    ├─► Leaky ReLU · PReLU · ELU · Swish · GELU
    │
    ▼
Softmax (출력층): 다중 클래스 확률 분포
    │
    ▼
역전파 + Chain Rule → Autograd (자동 미분)
  1. ReLU는 양수면 그대로 전달하고, 음수면 0으로 만드는 간단한 규칙이야. 이 덕분에 신호가 소리치듯 전달돼.
  2. 소프트맥스는 시험 점수를 퍼센트로 바꾸는 것이야. 모든 답의 확률을 더하면 100%가 되니까 "이게 고양이일 확률이 70%야"라고 말할 수 있어.