핵심 인사이트 (3줄 요약)
- 본질: GPT Decoder는 Transformer Decoder에서 Masked Self-Attention(Causal Mask)을 사용하여 왼→오 방향으로만 문맥을 참조하며 다음 토큰을 예측(CLM)하는 자기회귀 생성 모델이다.
- 가치: BERT(양방향)는 생성 불가이지만, GPT(단방향)는 토큰을 하나씩 순차 생성하여 텍스트·코드·대화를 자연스럽게 만들어낸다. 생성 시 Temperature·Top-k·Top-p로 다양성을 제어한다.
- 판단 포인트: KV Cache로 이전 토큰의 Key·Value를 재사용하여 추론 속도를 O(n²)→O(n)으로 최적화하며, Speculative Decoding이 추가 가속 기법이다.
Ⅰ. 개요 및 필요성
GPT 생성: "나는" → "학교에" → "갔다" (순차)
Causal Mask: 미래 토큰 참조 차단
KV Cache: 이전 K,V 재사용 → 추론 가속
디코딩 전략: Greedy | Top-k | Top-p (Nucleus)
- 📢 섹션 요약 비유: GPT는 릴레이 소설이다. 앞사람이 쓴 내용만 보고 다음 문장을 이어 쓴다.
Ⅱ~Ⅴ. 결론
GPT Decoder는 텍스트 생성의 핵심 아키텍처이며, KV Cache와 Speculative Decoding이 추론 최적화의 핵심이다.
📌 관련 개념 맵
| 개념 | 연결 포인트 |
|---|---|
| Causal Mask | 미래 토큰 차단 |
| CLM | 다음 토큰 예측 |
| KV Cache | 추론 가속 |
| Temperature | 생성 다양성 |
| Top-p | Nucleus Sampling |
📈 관련 키워드 및 발전 흐름도
[GPT-1 (2018)] → [GPT-2 (2019)] → [GPT-3 (2020)]
→ [KV Cache 최적화 (2021~)]
→ [Speculative Decoding (2023)]
→ [현재: Medusa/Eagle — 다중 토큰 동시 생성]
👶 어린이를 위한 3줄 비유 설명
- GPT는 릴레이 소설이에요. 앞 내용만 보고 다음 문장을 써요.
- 뒤 내용은 아직 없으니까 볼 수 없어요(Causal Mask).
- KV Cache는 이미 쓴 부분을 기억해서 더 빨리 써요!