핵심 인사이트 (3줄 요약)
- 본질: LLM 추론은 연산(Compute Bound)이 아닌 메모리 대역폭(Memory Bandwidth Bound) 병목이 지배적이며, HBM(High Bandwidth Memory)은 DRAM을 수직 적층해 1TB/s 이상의 대역폭으로 이 병목을 완화한다.
- 가치: GPU 텐서 코어(Tensor Core)는 FP16/BF16 혼합 정밀도 행렬 연산을 가속하지만, LLM 추론의 KV 캐시는 O(레이어 × 헤드 × 시퀀스 길이)로 메모리를 소비해 결국 HBM 용량과 대역폭이 서빙 규모를 결정한다.
- 판단 포인트: H100(HBM3, 3.35TB/s, 80GB)은 A100(HBM2e, 2TB/s, 80GB) 대비 대역폭 1.67배 우위로, 배포 하드웨어 선택 시 MFU(Model FLOPs Utilization)와 메모리 대역폭을 함께 분석해야 한다.
Ⅰ. 개요 및 필요성
대형 언어 모델은 훈련 시 연산 집약적이지만, 추론 시에는 배치 크기가 작아 메모리 대역폭 병목이 지배적이다. 70B 모델의 FP16 가중치만 약 140GB — 단일 GPU로는 적재조차 불가능하다.
LLM 하드웨어 병목 이중 구조
-
연산 병목(Compute Bound): 배치 크기 크고 행렬 연산 많을 때
-
메모리 병목(Memory Bandwidth Bound): 배치 크기 작고 가중치 로드가 주를 이룰 때
-
LLM 자기회귀(Autoregressive) 추론: 한 번에 토큰 1개씩 생성 → 배치 크기 1 → 메모리 바운드 지배
-
📢 섹션 요약 비유: 요리사(GPU 연산)는 빠른데 냉장고에서 재료 꺼내는 속도(메모리 대역폭)가 느리면 결국 기다릴 수밖에 없다.
Ⅱ. 아키텍처 및 핵심 원리
┌─────────────────────────────────────────────────┐
│ GPU 메모리 계층 │
│ │
│ ┌─────────────────────────────────────────┐ │
│ │ HBM(High Bandwidth Memory) │ │
│ │ ┌──────┐ TSV ┌──────┐ TSV ┌──────┐ │ │
│ │ │DRAM_1│──────│DRAM_2│──────│DRAM_3│ │ │
│ │ │ Die │ │ Die │ │ Die │ │ │
│ │ └──────┘ └──────┘ └──────┘ │ │
│ │ 수직 적층(3D Stacking) │ │
│ │ 대역폭: 2~4 TB/s │ │
│ └─────────────────────────────────────────┘ │
│ │ │
│ ┌───────────────────▼──────────────────────┐ │
│ │ SM(Streaming Multiprocessor) │ │
│ │ ┌──────────────────────────────────┐ │ │
│ │ │ 텐서 코어(Tensor Core) │ │ │
│ │ │ FP16/BF16/INT8 행렬 곱 가속 │ │ │
│ │ └──────────────────────────────────┘ │ │
│ └──────────────────────────────────────────┘ │
└─────────────────────────────────────────────────┘
HBM 구조
- TSV(Through-Silicon Via, 실리콘 관통 비아)로 DRAM 다이(Die)를 수직 적층
- HBM2e(A100): 2.0 TB/s, HBM3(H100): 3.35 TB/s, HBM3e(H200): 4.8 TB/s
- 용량: A100 40/80GB, H100 80GB, H200 141GB
H100 vs A100 비교
| 항목 | A100 SXM4 | H100 SXM5 |
|---|---|---|
| HBM 세대 | HBM2e | HBM3 |
| 메모리 대역폭 | 2.0 TB/s | 3.35 TB/s |
| 메모리 용량 | 80GB | 80GB |
| FP16 텐서 성능 | 312 TFLOPS | 989 TFLOPS |
| NVLink 대역폭 | 600 GB/s | 900 GB/s |
| TDP | 400W | 700W |
- 📢 섹션 요약 비유: H100은 A100보다 냉장고(HBM) 문이 훨씬 빠르게 열리고, 요리 화구(텐서 코어)도 3배 더 강력하다.
Ⅲ. 비교 및 연결
KV 캐시 메모리 소비
트랜스포머의 KV(Key-Value) 캐시는 이전 토큰의 어텐션 계산 결과를 저장:
KV 캐시 크기 = 2 × 레이어 수 × 헤드 수 × 헤드 차원 × 시퀀스 길이 × 정밀도 바이트
- Llama 3 70B, FP16, 시퀀스 4096 토큰: ≈ 8GB (모델 가중치 140GB에 추가)
- 시퀀스 길이 증가 시 KV 캐시 선형 증가 → HBM 용량 한계 도달
연산 강도(Arithmetic Intensity)와 루프라인 분석
| 작업 | 연산 강도 | 병목 |
|---|---|---|
| 행렬 곱(Training/Prefill) | 높음 | Compute Bound |
| 자기회귀 Decode | 낮음 | Memory Bound |
| 배치 Decode(대형 배치) | 중간 | 혼합 |
- 📢 섹션 요약 비유: Prefill은 책 전체를 한 번에 읽는 것(연산 집약), Decode는 단어 하나씩 사전에서 찾는 것(메모리 집약)이다.
Ⅳ. 실무 적용 및 기술사 판단
LLM 서빙 하드웨어 선택 기준
-
모델 파라미터 수 → 최소 HBM 용량 계산
- 7B FP16: ~14GB → 단일 A100 40GB 가능
- 70B FP16: ~140GB → A100 2장 또는 H100 2장 필요
-
처리량 목표 → 대역폭 기준 TPS 계산
- Tokens/s ≈ 대역폭(GB/s) / 모델 크기(GB) × 1000
-
전력 효율: H100 TDP 700W → TCO(Total Cost of Ownership) 계산에 포함
-
MFU(Model FLOPs Utilization): 실제 사용 비율, 50% 이상이면 좋은 설계
GPU 인프라 대안 비교
| 플랫폼 | 장점 | 단점 |
|---|---|---|
| NVIDIA H100 | 최고 성능, 생태계 | 고비용, 공급 부족 |
| AMD MI300X | 192GB HMC, 가성비 | 소프트웨어 생태계 열세 |
| Google TPU v5 | 구글 클라우드 특화 | 유연성 제한 |
- 📢 섹션 요약 비유: H100은 F1 레이싱카, A100은 스포츠카 — 둘 다 빠르지만 가격과 유지비가 다르다.
Ⅴ. 기대효과 및 결론
HBM과 텐서 코어의 발전은 LLM 서빙의 처리량을 수년 만에 수십 배 향상시켰다. 그러나 자기회귀 추론의 메모리 바운드 특성은 근본적 한계이므로, PagedAttention·FlashAttention·모델 병렬화 등 소프트웨어 최적화를 병행해야 한다. H200·Blackwell 아키텍처로 대역폭이 5TB/s를 넘어서면서 더욱 긴 컨텍스트 처리가 가능해질 전망이다.
- 📢 섹션 요약 비유: HBM 발전은 AI 두뇌의 혈관을 점점 굵게 만드는 과정 — 피(데이터)가 빠르게 흐를수록 사고도 빨라진다.
📌 관련 개념 맵
| 개념 | 연결 포인트 |
|---|---|
| HBM(High Bandwidth Memory) | GPU 메모리 · 수직 적층 고대역폭 메모리 |
| TSV(Through-Silicon Via) | HBM 구조 · 다이 간 수직 연결 |
| 텐서 코어(Tensor Core) | GPU 연산 · 혼합 정밀도 행렬 가속 |
| KV 캐시 | LLM 추론 · 어텐션 키-값 캐시 |
| MFU | 성능 지표 · 모델 FLOPs 활용률 |
📈 관련 키워드 및 발전 흐름도
[GPU 메모리 · 수직 적층 고대역폭 메모리] → [HBM GPU 병렬 대역폭과 LLM 병목 완화] → [성능 지표 · 모델 FLOPs 활용률]
👶 어린이를 위한 3줄 비유 설명
- AI 두뇌(GPU)가 아무리 빨라도 정보를 담은 기억창고(HBM)에서 꺼내는 속도가 느리면 기다려야 해요.
- HBM은 기억창고를 여러 층으로 쌓아 문을 엄청 크게 만든 것이에요 — 한 번에 많은 정보를 꺼낼 수 있어요.
- H100은 A100보다 이 문이 1.67배 더 크고, AI 두뇌도 3배 더 강해요.