PEFT (Parameter-Efficient Fine-Tuning)

핵심 인사이트 (3줄 요약)

PEFT는 수십억 개의 파라미터를 가진 초거대 모델 전체를 재학습하지 않고, 극히 일부의 파라미터만 미세 조정(Fine-tuning)하는 고효율 학습 기법이다.
기존 모델의 가중치를 고정(Freeze)한 상태에서 작은 추가 모듈(Adapter, LoRA 등)을 삽입하여 연산 자원과 메모리 사용량을 획기적으로 줄인다.
이를 통해 일반 소비자용 GPU(VRAM 24GB 등)에서도 초거대 언어 모델(LLM)을 맞춤형으로 튜닝할 수 있게 되었다.

Ⅰ. 개요 (Context & Background)

정의: 대규모 사전 학습 모델(Foundation Model)의 성능을 유지하면서, 특정 다운스트림 작업(Downstream Task)에 맞게 최소한의 파라미터(보통 전체의 1% 미만)만 업데이트하는 기술의 총칭이다.
등장 배경: GPT-3, Llama 등 모델 크기가 기하급수적으로 커지면서 전체 파라미터를 재학습하는 전통적 방식(Full Fine-tuning)은 엄청난 비용과 저장 공간이 필요해져 현실적으로 불가능에 가까워졌다.

Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)

핵심 메커니즘: 사전 학습된 가중치 행렬 $W$를 고정하고, 학습 가능한 작은 변화량 $\Delta W$를 효율적으로 설계하여 최적화한다.

[ PEFT Architecture (LoRA Example) ]
    +---------------------------+
    |   Input Vector (x)        |
    +---------------------------+
          /               \
         /                 \
+-------------------+   +-----------------------+
|  Frozen Pre-trained|   |    Learnable LoRA     |
|     Weights (W)    |   |  Low-Rank Adaptation  |
| (175B Parameters)  |   | (Matrix A * Matrix B) |
+-------------------+   +-----------------------+
         \                 /
          \               /
    +---------------------------+
    |    Output (y = Wx + ABx)  |
    +---------------------------+

대표 기술:
- LoRA (Low-Rank Adaptation): 가중치 변화량을 저차원(Rank) 행렬로 분해하여 파라미터 수를 극적으로 줄인다.
- Adapters: 트랜스포머 층 사이에 작은 신경망 층을 삽입하여 이 부분만 학습한다.
- Prompt Tuning: 입력 프롬프트 앞에 학습 가능한 가상 토큰(Soft Prompts)을 붙여 튜닝한다.

Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)

비교 항목	전체 파인튜닝 (Full FT)	PEFT (LoRA 등)
업데이트 파라미터	100%	0.01% ~ 1%
메모리(VRAM) 사용	매우 높음 (H100/A100 필수)	매우 낮음 (RTX 3090/4090 가능)
저장 용량	모델당 수백 GB	모델당 수십 MB (어댑터만 저장)
Catastrophic Forgetting	기존 지식 소실 위험 있음	기존 지식 보존이 우수함
추론 지연(Latency)	없음	구조에 따라 약간 발생 가능 (병합 시 제거 가능)

Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)

기술사적 판단: PEFT는 단순히 '비용 절감' 기술이 아니라, 개별 기업이 자신들의 특화 데이터를 LLM에 안전하게 주입할 수 있게 한 '기업용 AI'의 핵심 촉매제이다.
실무 구현 전략:
- QLoRA (Quantized LoRA): 4비트 양자화와 LoRA를 결합하여 VRAM 사용량을 극한으로 낮춰 더 큰 모델을 더 저사양 장비에서 돌릴 수 있게 한다.
- Multi-tasking: 하나의 거대 모델에 여러 개의 PEFT 어댑터를 장착하여, 작업(Task)에 따라 어댑터만 갈아 끼우며 서비스하는 유연성을 확보한다.

Ⅴ. 기대효과 및 결론 (Future & Standard)

기대효과: 하드웨어 제약을 넘어서는 AI 민주화와 더불어, 실시간 개인화(Personalization)가 가능한 온디바이스(On-Device) AI 구현을 앞당긴다.
결론: 초거대 모델 시대에 PEFT는 선택이 아닌 필수이며, 효율성과 성능 사이의 최적 지점을 찾는 파라미터 엔지니어링 능력이 기술사의 핵심 경쟁력이 될 것이다.

📌 관련 개념 맵 (Knowledge Graph)

핵심 기술: LoRA, QLoRA, Adapter, Prefix Tuning, Prompt Tuning
상위 기술: 전이 학습 (Transfer Learning), 파인 튜닝 (Fine-tuning)
관련 인프라: HuggingFace PEFT Library, bitsandbytes

👶 어린이를 위한 3줄 비유 설명

"엄청 큰 도서관에 있는 모든 책을 고치는 대신, 틀린 부분만 적은 얇은 메모지만 붙이는 것"과 같아요.
도서관 전체를 새로 짓지 않아도 되니까 돈도 안 들고 시간도 아주 조금밖에 안 걸려요.
아주 작은 쪽지만 있으면 똑똑한 거인 컴퓨터를 내 입맛대로 부릴 수 있게 된답니다!