핵심 인사이트 (3줄 요약)

  1. 본질: 활성화 함수는 신경망의 각 뉴런 출력에 적용되는 비선형 변환이며, 이것이 없으면 아무리 깊은 신경망도 단일 선형 변환과 동일(표현력 없음)하다.
  2. 가치: Sigmoid→Tanh→ReLU→GELU→SwiGLU의 발전이 딥러닝 성능을 직접적으로 향상시켰으며, ReLU가 Vanishing Gradient 문제를 해결하여 딥러닝 르네상스를 열었다.
  3. 판단 포인트: CNN/MLP는 ReLU, Transformer는 GELU, 최신 LLM(Llama)은 SwiGLU가 표준이며, 출력층은 분류(Softmax)·회귀(Linear)·확률(Sigmoid)로 구분한다.

Ⅰ. 개요 및 필요성

활성화 함수 비교:
Sigmoid: σ(x) = 1/(1+e⁻ˣ)     → 0~1, Vanishing
ReLU:    f(x) = max(0, x)       → 현재 표준, Dead Neuron
GELU:    f(x) = x·Φ(x)         → Transformer 표준
SwiGLU:  f(x) = Swish(xW₁)⊙xW₂ → LLM 최신
  • 📢 섹션 요약 비유: 활성화 함수는 신경망의 스위치이다. 스위치가 없으면 전기(정보)가 그냥 흐를 뿐 아무 기능을 못 한다.

Ⅱ. 아키텍처 및 핵심 원리

함수범위장점문제
Sigmoid0~1확률 출력Vanishing
ReLU0~∞Vanishing 해결Dead Neuron
GELU연속Transformer 최적-
SwiGLU연속LLM 최고 성능파라미터↑

Ⅲ. 비교 및 연결

용도함수
은닉층ReLU / GELU / SwiGLU
이진 분류Sigmoid
다중 분류Softmax
회귀Linear (없음)

Ⅳ~Ⅴ. 결론

활성화 함수는 딥러닝의 비선형 표현력의 원천이며, ReLU→GELU→SwiGLU의 진화가 모델 성능을 직접 견인한다.


📌 관련 개념 맵

개념연결 포인트
ReLUCNN/MLP 표준
GELUTransformer 표준
SwiGLULLM 최신 (Llama/PaLM)
Vanishing GradientSigmoid/Tanh 문제
Softmax출력층 분류 활성화

📈 관련 키워드 및 발전 흐름도

[Sigmoid (1980s)] → [Tanh (1990s)] → [ReLU (2010, Nair)]
    → [GELU (2016)] → [SwiGLU (2022, PaLM/Llama)]
    → [현재: 학습 가능 활성화 (KAN, 2024)]

👶 어린이를 위한 3줄 비유 설명

  1. 활성화 함수는 신경망의 스위치예요. 켜야(비선형) 뇌가 생각할 수 있어요.
  2. 옛날 스위치(Sigmoid)는 느렸지만, 새 스위치(ReLU)는 빠르고 강해요.
  3. 최신 스위치(SwiGLU)는 AI가 더 똑똑하게 생각할 수 있게 해줘요!