139. Transformer 아키텍처 - Self-Attention 기반 병렬 처리

핵심 인사이트 (3줄 요약)

본질: Transformer는 RNN의 순차 처리를 Self-Attention으로 대체하여 시퀀스 전체를 병렬 처리하는 아키텍처이며, "Attention Is All You Need"(2017, Google)에서 제안되었다.

가치: RNN은 시퀀스를 순차 처리하여 병렬화 불가·장기 의존성 약점이 있지만, Transformer는 O(1) 거리로 모든 위치에 접근하고 GPU 병렬화가 완벽하여 대규모 학습이 가능하다.

판단 포인트: Encoder-only(BERT, 이해)·Decoder-only(GPT, 생성)·Encoder-Decoder(T5, 번역)로 변형되며, Multi-Head Attention·Positional Encoding·Feed-Forward Network가 핵심 구성이다.

Ⅰ. 개요 및 필요성

Transformer = Encoder + Decoder
  Encoder: [Multi-Head Self-Attention → FFN] × N
  Decoder: [Masked Self-Attention → Cross-Attention → FFN] × N
  + Positional Encoding (순서 정보)

📢 섹션 요약 비유: RNN은 줄 서서 한 명씩 통과(순차), Transformer는 **모든 사람이 동시에 대화(병렬)**하는 것이다.

Ⅱ~Ⅴ. 결론

Transformer는 현대 AI의 기반 아키텍처이며, BERT·GPT·T5·LLM·ViT 모두 Transformer 변형이다.

📌 관련 개념 맵

개념	연결 포인트
Transformer	Self-Attention 기반
Self-Attention	모든 위치 간 관련도
Multi-Head	다관점 Attention
Positional Encoding	순서 정보 주입
GPT/BERT	Decoder/Encoder 변형

📈 관련 키워드 및 발전 흐름도

[Seq2Seq+Attention (2014)] → [Transformer (2017, Google)]
    → [BERT (Encoder, 2018)] → [GPT-2/3 (Decoder, 2019~)]
    → [T5 (Enc-Dec, 2019)] → [GPT-4/LLM (2023~)]
    → [현재: Mamba/RWKV — Transformer 대안 탐색]

👶 어린이를 위한 3줄 비유 설명

RNN은 한 줄로 서서 순서대로 이야기를 전달해요(느림).
Transformer는 모든 사람이 동시에 대화해서 훨씬 빨라요(병렬).
ChatGPT, BERT, 번역기 등 거의 모든 AI가 Transformer를 사용해요!