셀프 어텐션 (Self-Attention)

핵심 인사이트 (3줄 요약)

입력 시퀀스 내의 모든 단어가 서로를 참조하여 문맥적 의미를 파악하는 내부 응집 기법이다.
"The animal didn't cross the street because it was too tired"에서 'it'이 'animal'임을 수학적으로 찾아내는 핵심 기술이다.
거리에 상관없이 단어 간의 직접적인 연결을 형성하여 RNN의 고질적인 장기 의존성(Long-term Dependency) 문제를 해결한다.

Ⅰ. 개요 (Context & Background)

전통적인 RNN은 단어를 순차적으로 처리하며 정보를 압축하기 때문에, 문장이 길어지면 앞쪽의 정보를 잃어버리는 한계가 있었다. 셀프 어텐션은 문장 전체를 한꺼번에 입력받아, 모든 단어 쌍(Pairwise)에 대해 유사도를 계산한다. 이를 통해 각 단어는 자신을 둘러싼 주변 맥락(Context)을 완벽하게 반영한 새로운 벡터 표현을 얻게 된다.

Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)

셀프 어텐션은 동일한 시퀀스에서 유래한 Q, K, V를 사용하여 연산을 수행한다.

[Self-Attention Mechanism: Intra-sequence Relationship]

Input Sequence: "I love learning AI"
                 X1  X2     X3    X4

Step 1: Each Xi generates Qi, Ki, Vi via weight matrices.

Step 2: Score Calculation (Similarity check within same sentence)
   Score(X1, X1), Score(X1, X2), Score(X1, X3), Score(X1, X4)
   - "I" relates to "I", "love", "learning", "AI"

Step 3: Softmax Normalization
   Weights = Softmax(Scores)

Step 4: Weighted Sum of Values
   Contextual_X1 = Σ (Weights * Vi)

[Architecture Diagram]
     [I]    [love]   [learning]   [AI]
      |       |          |         |
   +--v-------v----------v---------v--+
   |        Self-Attention Layer      |  <-- Every word looks at 
   |      (All-to-All Interaction)    |      every other word.
   +--|-------|----------|---------|--+
      v       v          v         v
    [C1]    [C2]       [C3]      [C4]    <-- Context-aware vectors

Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)

비교 항목 (Criteria)	셀프 어텐션 (Self-Attention)	RNN (Recurrent)	CNN (Convolutional)
문맥 참조 범위	전체 시퀀스 (Global)	이전 상태 (Sequential)	윈도우 크기 내 (Local)
병렬 처리	완전 가능 (Highly Parallel)	불가능 (Step-by-step)	가능 (Filter-based)
장거리 의존성	상수 시간 O(1) 연결	선형 시간 O(n) 소실	로그 시간 O(log n)
연산 복잡도	O(n² · d) (시퀀스 길이 제곱)	O(n · d²)	O(k · n · d²)

Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)

(문맥적 중의성 해결) "Bank"라는 단어가 "River bank"인지 "Investment bank"인지 주변 단어와의 셀프 어텐션 강도를 통해 즉각적으로 판별한다.
(연산 비용 이슈) 시퀀스 길이(n)의 제곱에 비례하는 연산 복잡도 때문에, 아주 긴 문서(Long Context) 처리 시 메모리 부족 문제가 발생한다. 이를 위해 Linear Attention이나 Flash Attention 같은 최적화 기법이 실무적으로 중요하다.
(기술사적 가치) 셀프 어텐션은 '정적인 단어장'을 '살아있는 문맥'으로 변환하는 다이나믹 그래프 생성 기술이며, 이는 인공지능이 인간의 언어 이해 방식과 유사한 추론을 수행하게 하는 결정적 계기가 되었다.

Ⅴ. 기대효과 및 결론 (Future & Standard)

셀프 어텐션은 트랜스포머의 핵심 엔진으로서 NLP를 넘어 비전(Vision Transformer), 단백질 구조 예측(AlphaFold 2) 등 다양한 도메인으로 확장되고 있다. 데이터 내의 숨겨진 모든 관계를 스스로 찾아내는 이 메커니즘은 '범용 인공지능(AGI)'으로 가는 가장 중요한 수학적 도구로 평가받는다.

📌 관련 개념 맵 (Knowledge Graph)

부모 개념: 어텐션 메커니즘(Attention Mechanism)
자식/확장 개념: 멀티 헤드 어텐션(Multi-Head Attention), 마스크드 셀프 어텐션(Masked Self-Attention)
유사 개념: 그래프 신경망(GNN - 노드 간 관계 처리), 완전 연결망(Fully Connected)

👶 어린이를 위한 3줄 비유 설명

교실에 있는 모든 친구들이 서로를 쳐다보면서 "누가 나랑 제일 친한가?" 생각해요.
"나(it)"라는 단어는 "강아지(animal)"라는 친구를 가장 빤히 쳐다보며 그 뜻을 이해해요.
이렇게 서로를 꼼꼼히 살펴보면 문장 속의 숨은 뜻을 완벽하게 알 수 있답니다!