활성화 함수 (Activation Function)

핵심 인사이트 (3줄 요약)

활성화 함수는 인공 신경망의 뉴런에서 입력받은 신호의 총합을 출력 신호로 변환할 때, 데이터에 비선형성(Non-linearity)을 부여하는 핵심 요소이다.
비선형 활성화 함수가 없다면 신경망은 아무리 층을 깊게 쌓아도 단일 선형 회귀 모델과 동일해져 복잡한 패턴 학습이 불가능하다.
Sigmoid에서 시작하여 딥러닝 부흥을 이끈 ReLU, 그리고 최신 Swish/GELU 등으로 발전하며 학습 속도와 정확도를 결정짓는 필수 파라미터가 되었다.

Ⅰ. 개요 (Context & Background)

인간의 뉴런은 특정 임계값 이상의 자극이 들어와야만 다음 뉴런으로 신호를 전달한다. 이 '임계치 기반 전이'를 수학적으로 모사한 것이 활성화 함수다. 초기에는 이진 분류에 적합한 Step 함수나 확률 표현이 가능한 Sigmoid가 쓰였으나, 딥러닝이 깊어짐에 따라 발생하는 기울기 소실(Vanishing Gradient) 문제를 해결하기 위해 다양한 함수들이 개발되었다.

Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)

활성화 함수는 선형 결합값 $z = \sum w_i x_i + b$를 입력받아 비선형 출력 $a = f(z)$를 생성한다.

[ Activation Function Flow / 활성화 함수 흐름 ]

 Input (X) --(W, b)--> [ Linear Z: Σwx+b ] --(f)--> [ Activation Output: a ]
                                                        |
         ------------------------------------------------
         |                                              |
    [ Step Fn ]      [ Sigmoid/Tanh ]      [ ReLU/Leaky ReLU ]
    Hard On/Off      S-curve (Prob.)       Linear for Z > 0

Sigmoid: 0~1 사이 값으로 압축. 초기 신경망의 표준이었으나 층이 깊어지면 미분값이 0에 수렴하여 학습이 중단되는 기울기 소실 문제가 발생한다.
Tanh (Hyperbolic Tangent): -1~1 사이 값. Sigmoid보다 중심값이 0에 가까워 학습 효율이 좋으나 여전히 기울기 소실 문제가 존재한다.
ReLU (Rectified Linear Unit): $f(z) = \max(0, z)$. 양수 영역에서 미분값이 1로 일정하여 딥러닝의 심층 학습을 가능하게 한 결정적 기술이다. 연산이 매우 빠르다.
Softmax: 출력층에서 주로 사용하며, 모든 출력값의 합이 1이 되도록 만들어 다중 클래스 분류의 확률값으로 해석 가능하게 한다.

Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)

함수 종류	수식	장점	단점
Sigmoid	$1/(1+e^{-z})$	확률 표현 용이 (이진 분류)	기울기 소실, 연산 비용(exp) 높음
ReLU	$\max(0, z)$	학습 속도 매우 빠름, 기울기 소실 해결	Dying ReLU (음수 영역 뉴런 사멸)
Leaky ReLU	$\max(ax, x)$	Dying ReLU 문제 해결	하이퍼파라미터(a) 추가
Softmax	$e^{z_i}/\sum e^{z_j}$	다중 분류 확률 출력	마지막 층에 국한됨

Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)

함수 선택 전략: 현대 딥러닝에서는 은닉층에는 무조건 ReLU를 기본으로 사용하고, 성과에 따라 Leaky ReLU나 ELU를 시도하는 것이 정석이다. 출력층에서는 이진 분류 시 Sigmoid, 다중 분류 시 Softmax를 사용한다.
수리적 의미: 활성화 함수가 미분 가능해야 역전파(Backpropagation) 과정에서 오차를 전달할 수 있다. ReLU는 0에서 미분 불가능하지만 실무적으로는 우미분 계수를 사용하여 문제를 해결한다.

Ⅴ. 기대효과 및 결론 (Future & Standard)

활성화 함수는 신경망의 표현력을 결정하는 '스위치'와 같다. 최근에는 트랜스포머(Transformer) 아키텍처에서 GELU(Gaussian Error Linear Unit)가 표준으로 사용되는 등 데이터의 특성과 아키텍처에 최적화된 함수들이 계속 등장하고 있다. 효율적인 함수 선택은 학습 시간 단축과 모델의 일반화 성능 향상에 직결된다.

📌 관련 개념 맵 (Knowledge Graph)

상위 개념: 인공 신경망 연산 (ANN Operations)
연관 개념: 기울기 소실 (Vanishing Gradient), 역전파 (Backpropagation), 비선형성 (Non-linearity)
응용 기술: 심층 신경망 (DNN), 트랜스포머 (GELU), CNN (ReLU)

👶 어린이를 위한 3줄 비유 설명

신경망 세포들이 친구에게 정보를 전달할 때, "이 소식은 정말 중요해!"라고 강조하거나 "이건 별로 안 중요해"라고 걸러주는 필터예요.
이 필터가 없으면 모든 정보가 뒤섞여서 컴퓨터가 중요한 내용을 공부할 수 없게 돼요.
마치 맛있는 음식만 입으로 쏙 넣어주고 맛없는 건 걸러내는 입구와 같답니다!