140. Self-Attention·Multi-Head·Positional Encoding 상세

핵심 인사이트 (3줄 요약)

본질: Self-Attention은 시퀀스 내 모든 위치 쌍의 관련도를 계산하는 메커니즘이고, Multi-Head는 h개의 독립 Attention을 병렬 수행하여 다양한 관점의 패턴을 학습하며, Positional Encoding은 순서 정보를 주입한다.

가치: RNN은 순차 처리로 위치 정보가 자연 반영되지만, Transformer는 순서 정보가 없으므로 Positional Encoding(사인/코사인 or 학습)으로 위치를 알려줘야 한다.

판단 포인트: head 수(h=8~96)·d_model(512~4096)이 핵심 하이퍼파라미터이며, RoPE(Rotary PE)가 LLM의 표준 위치 인코딩이다.

Ⅰ. 개요 및 필요성

Self-Attention: Q=K=V (같은 시퀀스에서 생성)
Multi-Head: h개 Attention 병렬 → Concat → Linear
  d_k = d_model / h (예: 512/8 = 64)
Positional Encoding:
  사인/코사인 (고정) 또는 RoPE (회전, LLM 표준)

📢 섹션 요약 비유: Multi-Head는 여러 탐정이 동시에 다른 관점으로 조사하는 것이다. 한 탐정보다 여러 탐정이 더 정확하다.

Ⅱ~Ⅴ. 결론

Self-Attention+Multi-Head+PE는 Transformer의 3대 핵심 구성이며, RoPE가 LLM 위치 인코딩의 표준이다.

📌 관련 개념 맵

개념	연결 포인트
Self-Attention	자기 참조 관련도
Multi-Head	다관점 병렬
Positional Encoding	순서 정보 주입
RoPE	회전 위치 인코딩
ALiBi	위치 바이어스 대안

📈 관련 키워드 및 발전 흐름도

[Sinusoidal PE (2017, 원본)] → [학습 PE (BERT)]
    → [RoPE (2021, LLaMA 표준)]
    → [ALiBi (2021, 학습 없이 위치)]
    → [현재: YaRN — RoPE 확장 (긴 컨텍스트)]

👶 어린이를 위한 3줄 비유 설명

Multi-Head는 여러 탐정이에요. 각각 다른 관점으로 동시에 조사해요.
Positional Encoding은 번호표예요. "이 단어는 3번째입니다" 알려줘요.
번호표가 없으면 AI가 순서를 모르니까 문장을 이해 못 해요!