LLM, GPT, 트랜스포머

출제 빈도: ★★★★★ | ★132,135회 기출


답안.

Ⅰ. 개요

대규모 언어 모델(LLM, Large Language Model)은 수십억~수조 개의 파라미터를 가진 트랜스포머(Transformer) 기반 신경망으로, 대규모 텍스트 코퍼스에서 사전학습(Pre-training)하여 자연어 이해·생성·추론 능력을 획득한 AI 모델이다. GPT(Generative Pre-trained Transformer)는 OpenAI가 개발한 대표적 LLM이다.

Ⅱ. 트랜스포머 구조

입력 토큰 → [임베딩 + 위치 인코딩]
                    ↓
         ┌──────────────────┐
         │  Multi-Head       │ ← Q, K, V 행렬 연산
         │  Self-Attention   │   Attention(Q,K,V)
         ├──────────────────┤   = softmax(QK^T/√d)V
         │  Feed-Forward     │
         │  Network          │
         └────────┬─────────┘
                  │ × N layers (GPT-4: ~120층)
                  ↓
         [출력 확률 분포] → 다음 토큰 예측

셀프 어텐션(Self-Attention)은 입력 시퀀스 내 모든 토큰 간 관계를 병렬로 계산하여, RNN의 순차 처리 한계를 극복했다. 이것이 LLM 성능 혁신의 핵심이다.

Ⅲ. 사전학습과 미세조정

단계방법데이터목적
사전학습다음 토큰 예측 (CLM)인터넷 텍스트 수 TB일반 언어 능력
SFT지도 미세조정고품질 Q&A 데이터지시 따르기
RLHF인간 피드백 강화학습선호도 라벨링안전성·유용성 정렬
LoRA/QLoRA파라미터 효율 미세조정도메인 데이터적은 자원으로 특화

Ⅳ. 스케일링 법칙

Chinchilla 스케일링 법칙에 의하면 모델 파라미터 수와 학습 데이터 토큰 수를 균형 있게 늘려야 최적 성능을 달성한다. 파라미터만 키우면 학습 부족(Under-training), 데이터만 늘리면 모델 용량 부족이 된다.

Ⅴ. 한계와 전망

환각(Hallucination), 최신 정보 부족, 추론 비용 문제가 존재하며, RAG(검색증강생성), MoE(Mixture of Experts), 소형화(SLM) 등으로 보완하고 있다. Agentic AI와 결합하여 자율적 작업 수행이 가능한 방향으로 진화 중이다.


관련: RAG(03번) · 파인튜닝(06번) · 멀티모달(08번) · Agentic AI(11번)