138. Attention Mechanism - 동적 가중치로 핵심 정보에 집중

핵심 인사이트 (3줄 요약)

본질: Attention은 입력 시퀀스의 모든 위치에 대해 현재 출력과의 관련도(유사도)를 계산하여 동적 가중치를 부여하는 메커니즘이며, Transformer의 핵심 구성 요소(Self-Attention)이다.

가치: RNN은 긴 문장에서 초반 정보를 잊지만(Vanishing), Attention은 거리에 무관하게 관련 위치에 직접 접근하여 장기 의존성 문제를 근본적으로 해결한다.

판단 포인트: Scaled Dot-Product Attention(Q·K·V)이 표준이며, Multi-Head Attention으로 다양한 관점의 관련도를 동시에 학습한다.

Ⅰ. 개요 및 필요성

Attention(Q, K, V) = softmax(QK^T / √d_k) · V
  Q: Query (현재 위치) → "무엇에 집중할까?"
  K: Key (모든 위치) → "관련도 계산"
  V: Value (모든 위치) → "가중 합산"

📢 섹션 요약 비유: Attention은 시험 문제(Query)에 맞는 교과서 페이지(Key)를 찾아 해당 내용(Value)에 집중하는 것이다.

Ⅱ~Ⅴ. 결론

Attention은 현대 AI의 가장 중요한 메커니즘이며, Transformer·LLM·Vision의 핵심 구성 요소이다.

📌 관련 개념 맵

개념	연결 포인트
Attention	동적 가중치
Self-Attention	자기 자신에 대한 Attention
Multi-Head	다관점 Attention
Q·K·V	Query·Key·Value
Transformer	Attention 기반 아키텍처

📈 관련 키워드 및 발전 흐름도

[Seq2Seq (2014)] → [Bahdanau Attention (2014)]
    → [Luong Attention (2015)]
    → [Self-Attention → Transformer (2017)]
    → [현재: Flash Attention — 메모리 효율↑]

👶 어린이를 위한 3줄 비유 설명

Attention은 **시험 문제(Query)**에 맞는 **교과서 페이지(Key)**를 찾아요.
관련 있는 페이지의 **내용(Value)**에 집중하고 나머지는 무시해요.
긴 문장에서도 중요한 단어만 골라 이해할 수 있어요!