LLM, GPT, 트랜스포머

출제 빈도: ★★★★★ | ★132,135회 기출

답안.

Ⅰ. 개요

대규모 언어 모델(LLM, Large Language Model)은 수십억~수조 개의 파라미터를 가진 트랜스포머(Transformer) 기반 신경망으로, 대규모 텍스트 코퍼스에서 사전학습(Pre-training)하여 자연어 이해·생성·추론 능력을 획득한 AI 모델이다. GPT(Generative Pre-trained Transformer)는 OpenAI가 개발한 대표적 LLM이다.

Ⅱ. 트랜스포머 구조

입력 토큰 → [임베딩 + 위치 인코딩]
                    ↓
         ┌──────────────────┐
         │  Multi-Head       │ ← Q, K, V 행렬 연산
         │  Self-Attention   │   Attention(Q,K,V)
         ├──────────────────┤   = softmax(QK^T/√d)V
         │  Feed-Forward     │
         │  Network          │
         └────────┬─────────┘
                  │ × N layers (GPT-4: ~120층)
                  ↓
         [출력 확률 분포] → 다음 토큰 예측

셀프 어텐션(Self-Attention)은 입력 시퀀스 내 모든 토큰 간 관계를 병렬로 계산하여, RNN의 순차 처리 한계를 극복했다. 이것이 LLM 성능 혁신의 핵심이다.

Ⅲ. 사전학습과 미세조정

단계	방법	데이터	목적
사전학습	다음 토큰 예측 (CLM)	인터넷 텍스트 수 TB	일반 언어 능력
SFT	지도 미세조정	고품질 Q&A 데이터	지시 따르기
RLHF	인간 피드백 강화학습	선호도 라벨링	안전성·유용성 정렬
LoRA/QLoRA	파라미터 효율 미세조정	도메인 데이터	적은 자원으로 특화

Ⅳ. 스케일링 법칙

Chinchilla 스케일링 법칙에 의하면 모델 파라미터 수와 학습 데이터 토큰 수를 균형 있게 늘려야 최적 성능을 달성한다. 파라미터만 키우면 학습 부족(Under-training), 데이터만 늘리면 모델 용량 부족이 된다.

Ⅴ. 한계와 전망

환각(Hallucination), 최신 정보 부족, 추론 비용 문제가 존재하며, RAG(검색증강생성), MoE(Mixture of Experts), 소형화(SLM) 등으로 보완하고 있다. Agentic AI와 결합하여 자율적 작업 수행이 가능한 방향으로 진화 중이다.

관련: RAG(03번) · 파인튜닝(06번) · 멀티모달(08번) · Agentic AI(11번)