핵심 인사이트 (3줄 요약)

  1. 위치별 독립 연산: 트랜스포머의 어텐션 층 이후에 각 단어(토큰)마다 동일한 파라미터를 사용하여 독립적으로 적용되는 2층 신경망임.
  2. 비선형성 부여: 두 개의 선형 변환(Linear Projection)과 활성화 함수(ReLU 또는 GeLU)를 통해 어텐션으로 추출된 정보에 복잡한 비선형 특징을 학습시킴.
  3. 병렬 연산 최적화: 단어 간 상호작용 없이 각 위치에서 수직적으로 연산이 수행되므로 대규모 병렬 처리에 매우 효율적인 구조임.

Ⅰ. 개요 (Context & Background)

  • 개념: 트랜스포머 블록의 두 번째 핵심 요소로, 멀티 헤드 어텐션(MHA)이 단어 간의 '관계'를 계산한다면, FFNN은 각 단어의 '표현력'을 강화하는 역할을 함.
  • 수식: $FFN(x) = max(0, xW_1 + b_1)W_2 + b_2$ (여기서 $max(0, \cdot)$은 ReLU 활성화 함수임).

Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)

1. FFNN의 구조적 특성

  • 차원 확장: 일반적으로 입력 차원($d_{model}=512$)을 4배($d_{ff}=2048$)로 확장했다가 다시 축소하는 병목(Bottleneck) 구조를 가짐.
[ Position-wise FFNN Architecture ]
   (Next Block)
        ^
        |
+-------+-------+
| Linear (512)  |  <-- Dimension Reduction
+-------+-------+
        ^
        |
+-------+-------+
| Activation    |  <-- ReLU / GeLU (Non-linearity)
+-------+-------+
        ^
        |
+-------+-------+
| Linear (2048) |  <-- Dimension Expansion
+-------+-------+
        ^
        |
   (From MHA)

2. Position-wise의 의미

  • 동일한 가중치($W_1, W_2$)가 시퀀스의 모든 위치(Position)에 공통으로 적용되지만, 각 위치의 데이터는 서로 간섭 없이 독립적으로 연산됨. 이는 1x1 합성곱(1x1 Convolution)과 수학적으로 동일한 효과임.

Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)

비교 항목멀티 헤드 어텐션 (MHA)피드 포워드 신경망 (FFNN)
주요 역할단어 간 문맥적 관계 파악 (Mixing)단어별 특징 벡터 가공 (Processing)
연산 범위시퀀스 전체 (Across tokens)단어 개별 (Inside each token)
파라미터 비중상대적으로 적음매우 높음 (대부분의 학습 능력)
비유정보 교환 (Communication)정보 숙성 (Computation)

Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)

  • 실무 적용: GPT, BERT 등 모든 트랜스포머 기반 모델의 필수 구성 요소.
  • 기술사적 판단: MHA가 "누구에게 집중할 것인가"를 정한다면, FFNN은 "집중한 결과를 어떻게 해석할 것인가"를 결정함. 최근 연구에 따르면 FFNN은 일종의 '키-값 메모리(Key-Value Memory)' 역할을 하며, 사전 학습 시 습득한 지식을 저장하는 저장소로 기능함. 따라서 모델의 크기를 키울 때 FFNN의 은닉층 크기를 늘리는 것이 지식 함양에 효과적임.

Ⅴ. 기대효과 및 결론 (Future & Standard)

  • 기대효과: 어텐션만으로 부족한 모델의 표현력을 보완하고, 심층 신경망의 비선형 학습 능력을 극대화하여 복잡한 언어 지능을 형성함.
  • 결론: FFNN은 단순해 보이지만 트랜스포머 파라미터의 약 2/3를 차지하는 핵심 중추이며, 효율적인 병렬 처리를 가능케 하는 아키텍처의 정수임.

📌 관련 개념 맵 (Knowledge Graph)

  • 상위 개념: Transformer Block
  • 유사 기술: 1x1 Convolution, Multi-Layer Perceptron (MLP)
  • 발전 기술: SwiGLU (최신 LLM에서 ReLU 대신 사용), MoE (FFNN을 여러 개 두어 선택적으로 사용)

👶 어린이를 위한 3줄 비유 설명

  1. 어텐션이 친구들과 "어떤 정보가 중요해?"라고 상의하는 과정이라면, FFNN은 상의한 내용을 "혼자서 곰곰이 생각하며 정리하는 시간"이에요.
  2. 모든 단어가 똑같은 '생각하는 기계'를 통과하지만, 각자 자기만의 답을 내는 것과 같아요.
  3. 마치 공장에서 재료를 골라온 다음(어텐션), 각 재료를 예쁘게 다듬어서 요리를 완성하는(FFNN) 단계예요.