핵심 인사이트 (3줄 요약)
- 본질: 양자화(Quantization)는 FP32/FP16 가중치를 INT8/INT4로 축소하여 메모리·연산을 줄이는 모델 압축 기법이며, QLoRA는 4비트 양자화된 모델에 LoRA를 적용하여 단일 소비자 GPU(24GB)에서 LLM Fine-tuning을 가능하게 했다.
- 가치: 7B 모델 FP16은 14GB 메모리이지만, 4비트 양자화 시 3.5GB로 축소되어 소비자 GPU에서 추론·학습이 가능하다.
- 판단 포인트: PTQ(Post-Training Quantization, 학습 후)·QAT(Quantization-Aware Training, 학습 중)로 구분하며, GPTQ·AWQ·bitsandbytes가 LLM 양자화의 핵심 도구이다.
Ⅰ. 개요 및 필요성
FP16: 7B × 2B = 14GB
INT4: 7B × 0.5B = 3.5GB (4배 축소)
QLoRA = NF4 양자화 + LoRA + Double Quantization
→ 단일 24GB GPU에서 65B 모델 Fine-tuning
- 📢 섹션 요약 비유: 양자화는 고해상도 사진을 압축하는 것이다. 파일(메모리)은 작아지지만 품질(성능)은 거의 유지된다.
Ⅱ~Ⅴ. 결론
양자화+QLoRA는 LLM 민주화의 핵심 기술이며, 소비자 GPU에서 대규모 모델 활용을 가능하게 한다.
📌 관련 개념 맵
| 개념 | 연결 포인트 |
|---|---|
| 양자화 | FP→INT 축소 |
| QLoRA | 4비트+LoRA |
| GPTQ | PTQ 도구 |
| AWQ | 활성화 기반 양자화 |
| NF4 | 정규 분포 4비트 |
📈 관련 키워드 및 발전 흐름도
[FP32 학습 (전통)] → [FP16/BF16 Mixed Precision (2018)]
→ [INT8 양자화 (2020)] → [GPTQ (2022)]
→ [QLoRA (2023)] → [현재: AWQ·GGUF — 추론 최적화]
👶 어린이를 위한 3줄 비유 설명
- 양자화는 사진 압축이에요. 파일은 작아지지만 사진은 거의 같아요.
- QLoRA는 **압축 사진에 포스트잇(LoRA)**을 붙이는 거예요. 빠르고 저렴해요.
- 보통 컴퓨터에서도 큰 AI를 돌릴 수 있게 해줘요!