핵심 인사이트 (3줄 요약)
- 위치별 독립 연산: 트랜스포머의 어텐션 층 이후에 각 단어(토큰)마다 동일한 파라미터를 사용하여 독립적으로 적용되는 2층 신경망임.
- 비선형성 부여: 두 개의 선형 변환(Linear Projection)과 활성화 함수(ReLU 또는 GeLU)를 통해 어텐션으로 추출된 정보에 복잡한 비선형 특징을 학습시킴.
- 병렬 연산 최적화: 단어 간 상호작용 없이 각 위치에서 수직적으로 연산이 수행되므로 대규모 병렬 처리에 매우 효율적인 구조임.
Ⅰ. 개요 (Context & Background)
- 개념: 트랜스포머 블록의 두 번째 핵심 요소로, 멀티 헤드 어텐션(MHA)이 단어 간의 '관계'를 계산한다면, FFNN은 각 단어의 '표현력'을 강화하는 역할을 함.
- 수식: $FFN(x) = max(0, xW_1 + b_1)W_2 + b_2$ (여기서 $max(0, \cdot)$은 ReLU 활성화 함수임).
Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)
1. FFNN의 구조적 특성
- 차원 확장: 일반적으로 입력 차원($d_{model}=512$)을 4배($d_{ff}=2048$)로 확장했다가 다시 축소하는 병목(Bottleneck) 구조를 가짐.
[ Position-wise FFNN Architecture ]
(Next Block)
^
|
+-------+-------+
| Linear (512) | <-- Dimension Reduction
+-------+-------+
^
|
+-------+-------+
| Activation | <-- ReLU / GeLU (Non-linearity)
+-------+-------+
^
|
+-------+-------+
| Linear (2048) | <-- Dimension Expansion
+-------+-------+
^
|
(From MHA)
2. Position-wise의 의미
- 동일한 가중치($W_1, W_2$)가 시퀀스의 모든 위치(Position)에 공통으로 적용되지만, 각 위치의 데이터는 서로 간섭 없이 독립적으로 연산됨. 이는 1x1 합성곱(1x1 Convolution)과 수학적으로 동일한 효과임.
Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)
| 비교 항목 | 멀티 헤드 어텐션 (MHA) | 피드 포워드 신경망 (FFNN) |
| 주요 역할 | 단어 간 문맥적 관계 파악 (Mixing) | 단어별 특징 벡터 가공 (Processing) |
| 연산 범위 | 시퀀스 전체 (Across tokens) | 단어 개별 (Inside each token) |
| 파라미터 비중 | 상대적으로 적음 | 매우 높음 (대부분의 학습 능력) |
| 비유 | 정보 교환 (Communication) | 정보 숙성 (Computation) |
Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)
- 실무 적용: GPT, BERT 등 모든 트랜스포머 기반 모델의 필수 구성 요소.
- 기술사적 판단: MHA가 "누구에게 집중할 것인가"를 정한다면, FFNN은 "집중한 결과를 어떻게 해석할 것인가"를 결정함. 최근 연구에 따르면 FFNN은 일종의 '키-값 메모리(Key-Value Memory)' 역할을 하며, 사전 학습 시 습득한 지식을 저장하는 저장소로 기능함. 따라서 모델의 크기를 키울 때 FFNN의 은닉층 크기를 늘리는 것이 지식 함양에 효과적임.
Ⅴ. 기대효과 및 결론 (Future & Standard)
- 기대효과: 어텐션만으로 부족한 모델의 표현력을 보완하고, 심층 신경망의 비선형 학습 능력을 극대화하여 복잡한 언어 지능을 형성함.
- 결론: FFNN은 단순해 보이지만 트랜스포머 파라미터의 약 2/3를 차지하는 핵심 중추이며, 효율적인 병렬 처리를 가능케 하는 아키텍처의 정수임.
📌 관련 개념 맵 (Knowledge Graph)
- 상위 개념: Transformer Block
- 유사 기술: 1x1 Convolution, Multi-Layer Perceptron (MLP)
- 발전 기술: SwiGLU (최신 LLM에서 ReLU 대신 사용), MoE (FFNN을 여러 개 두어 선택적으로 사용)
👶 어린이를 위한 3줄 비유 설명
- 어텐션이 친구들과 "어떤 정보가 중요해?"라고 상의하는 과정이라면, FFNN은 상의한 내용을 "혼자서 곰곰이 생각하며 정리하는 시간"이에요.
- 모든 단어가 똑같은 '생각하는 기계'를 통과하지만, 각자 자기만의 답을 내는 것과 같아요.
- 마치 공장에서 재료를 골라온 다음(어텐션), 각 재료를 예쁘게 다듬어서 요리를 완성하는(FFNN) 단계예요.