핵심 인사이트 (3줄 요약)
- 본질: Attention은 입력 시퀀스의 모든 위치에 대해 현재 출력과의 관련도(유사도)를 계산하여 동적 가중치를 부여하는 메커니즘이며, Transformer의 핵심 구성 요소(Self-Attention)이다.
- 가치: RNN은 긴 문장에서 초반 정보를 잊지만(Vanishing), Attention은 거리에 무관하게 관련 위치에 직접 접근하여 장기 의존성 문제를 근본적으로 해결한다.
- 판단 포인트: Scaled Dot-Product Attention(Q·K·V)이 표준이며, Multi-Head Attention으로 다양한 관점의 관련도를 동시에 학습한다.
Ⅰ. 개요 및 필요성
Attention(Q, K, V) = softmax(QK^T / √d_k) · V
Q: Query (현재 위치) → "무엇에 집중할까?"
K: Key (모든 위치) → "관련도 계산"
V: Value (모든 위치) → "가중 합산"
- 📢 섹션 요약 비유: Attention은 시험 문제(Query)에 맞는 교과서 페이지(Key)를 찾아 해당 내용(Value)에 집중하는 것이다.
Ⅱ~Ⅴ. 결론
Attention은 현대 AI의 가장 중요한 메커니즘이며, Transformer·LLM·Vision의 핵심 구성 요소이다.
📌 관련 개념 맵
| 개념 | 연결 포인트 |
|---|---|
| Attention | 동적 가중치 |
| Self-Attention | 자기 자신에 대한 Attention |
| Multi-Head | 다관점 Attention |
| Q·K·V | Query·Key·Value |
| Transformer | Attention 기반 아키텍처 |
📈 관련 키워드 및 발전 흐름도
[Seq2Seq (2014)] → [Bahdanau Attention (2014)]
→ [Luong Attention (2015)]
→ [Self-Attention → Transformer (2017)]
→ [현재: Flash Attention — 메모리 효율↑]
👶 어린이를 위한 3줄 비유 설명
- Attention은 **시험 문제(Query)**에 맞는 **교과서 페이지(Key)**를 찾아요.
- 관련 있는 페이지의 **내용(Value)**에 집중하고 나머지는 무시해요.
- 긴 문장에서도 중요한 단어만 골라 이해할 수 있어요!