AI 가속기 (AI Accelerator) - GPU·TPU·NPU·PIM 비교 분석
핵심 인사이트 (3줄 요약)
AI 연산의 폭발적 증가로 범용 CPU만으로는 처리가 불가능해, 행렬 연산 특화 가속기가 필수화됨. GPU는 병렬성, TPU는 행렬 특화, NPU는 저전력 추론, PIM은 메모리 내 연산이 핵심. ChatGPT 학습에 A100 GPU 수천 개, 추론 시 H100 클러스터가 사용된다.
1. 등장 배경: CPU의 한계와 AI 연산 특성
AI/ML 연산의 특성:
┌─────────────────────────────────────────┐
│ y = Wx + b (행렬-벡터 곱) │
│ W: 수천×수천 행렬 │
│ → 동일한 단순 연산을 수억 번 반복 │
│ → 병렬화에 완전히 최적화 가능! │
└─────────────────────────────────────────┘
CPU의 문제:
코어 수: 8~64개 (복잡한 제어 로직)
강점: 복잡한 순차 로직 (if/else, 분기)
약점: 수천 개 동시 행렬 곱셈 → 느림
GPU의 해결:
CUDA 코어: 수천~수만 개 (단순 산술)
강점: 같은 연산을 동시에 수천 번 실행
약점: 전력 소비 큼, 범용성 떨어짐
2. AI 가속기 4대 유형 비교 ★ (기술사 핵심)
| 특성 | CPU | GPU | TPU (Google) | NPU |
|---|---|---|---|---|
| 특화 영역 | 범용 | 병렬 그래픽/AI | AI 학습 특화 | AI 추론 특화 |
| 코어 수 | 8~128개 | 수천~수만 개 | 수만 MXU | 수십~수백 PE |
| 행렬 연산 | 느림 | 빠름 | 매우 빠름 | 빠름 |
| 전력 효율 | 중간 | 낮음 | 중간 | 높음 |
| 정밀도 | FP64 중심 | FP32·FP16 | BFloat16·INT8 | INT8·INT4 |
| 메모리 | 범용 DRAM | GDDR/HBM | HBM2 | On-chip SRAM |
| 활용 | 범용 서버 | AI 학습·추론 | Google 데이터센터 | 스마트폰·엣지 |
| 대표 제품 | Intel Xeon | NVIDIA H100 | Cloud TPU v5 | Apple Neural Engine |
3. 핵심 구조 및 원리
GPU 아키텍처 (NVIDIA H100 기준)
H100 GPU:
┌──────────────────────────────────────┐
│ GPC (Graphics Processing Cluster) x 8 │
│ ┌────────────────────────────────┐ │
│ │ SM (Streaming Multiprocessor) x 132 │ │
│ │ ┌──────┐ ┌──────┐ ┌──────┐ │ │
│ │ │CUDA×4│ │TC×1 │ │LD/ST │ │ │
│ │ │(FP32)│ │(FP16)│ │Cache │ │ │
│ │ └──────┘ └──────┘ └──────┘ │ │
│ └────────────────────────────────┘ │
│ HBM3: 80GB (3.35TB/s 대역폭!) │
│ Interconnect: NVLink 4 (900GB/s) │
└──────────────────────────────────────┘
TC = Tensor Core (행렬 연산 전용)
TPU 아키텍처 (구글 특화)
TPU v5:
┌──────────────────────────────────────┐
│ MXU (Matrix Multiply Unit) × N개 │
│ → 256×256 Systolic Array │
│ → 1클럭에 256×256×2 = 131,072 MACs │
│ (CPU는 동시에 수~수십 MACs) │
└──────────────────────────────────────┘
Systolic Array: 데이터가 격자 형태로 흘러가며
인접 PE들이 데이터를 주고받는 구조.
메모리 접근 최소화 → 전력 효율 ↑
NPU (Neural Processing Unit)
스마트폰·엣지 기기 내장 AI 칩:
Apple M4 Neural Engine (38TOPS):
- 16코어 Neural Engine
- 추론(Inference) 전용 최적화
- FaceID: 10ms 이내 처리
- Siri 로컬 음성 인식
특징: 저전력 + 실시간 추론
용도: 온디바이스 AI (프라이버시 보호)
4. PIM (Processing-In-Memory) - 차세대 기술
기존 폰 노이만 구조의 문제:
CPU ←──── (버스: 병목!) ────→ 메모리
연산은 CPU에서, 데이터는 메모리에서
→ 데이터 이동 자체가 전력 소비의 30~40%!
PIM의 혁신:
메모리 칩 내부에 연산 유니트 내장!
데이터를 꺼내오지 않고 메모리 안에서 계산
SAMSUNG HBM-PIM:
┌──────────────────────┐
│ HBM 레이어 │
│ ┌──────────────────┐ │
│ │ 데이터 저장 │ │
│ │ ┌────────────┐ │ │
│ │ │Compute Unit│ │ │ ← 연산 유닛이 메모리 안에!
│ │ └────────────┘ │ │
│ └──────────────────┘ │
└──────────────────────┘
효과: 대역폭 문제 해결, 전력 60% 절감
5. 실무 적용 사례
| 시나리오 | 사용 가속기 | 이유 |
|---|---|---|
| GPT-4 학습 | H100 GPU 수천 개 | 범용 병렬성 + InfiniBand 연결 |
| GPT-4 추론 | H100/A100 클러스터 | 배치 처리 효율 |
| 스마트폰 얼굴인식 | NPU (Neural Engine) | 저전력 + 프라이버시 |
| 자율주행 차 | GPU+NPU 혼용 | 학습은 GPU, 실차 추론은 NPU |
| Google Search AI | Cloud TPU | 구글 내부 대규모 서비스 최적화 |
6. 실무에서? (기술사적 판단)
- 학습 vs 추론 분리: 학습(Training) → GPU/TPU, 추론(Inference) → NPU/CPU 혼합
- 온프레미스 vs 클라우드: AWS(Trainium), Google(TPU v5), NVIDIA(DGX)
- 국내 동향: 삼성 엑시노스 NPU, SK하이닉스 HBM-PIM 개발 경쟁
- 시험 포인트: GPU vs TPU vs NPU 3자 비교 + Systolic Array 구조 설명
📝 기술사 모의답안 (2.5페이지 분량)
📌 예상 문제
"AI 가속기의 종류(CPU·GPU·TPU·NPU)를 비교 설명하고, PIM(Processing-In-Memory)의 등장 배경과 원리, 향후 AI 컴퓨팅 아키텍처에 미치는 영향을 논하시오."
Ⅰ. 개요
**AI 가속기(AI Accelerator)**란 인공지능의 핵심 연산인 **행렬 곱셈(Matrix Multiplication)**을 고속·저전력으로 처리하기 위해 설계된 특수 목적 프로세서를 총칭한다.
- 등장 배경: 딥러닝 모델의 파라미터 수 급증(GPT-3: 1750억, GPT-4: ~1조 이상)으로 범용 CPU만으로는 학습이 불가능해졌고, 실시간 AI 서비스 수요 폭발로 추론(Inference) 전용 최적화도 필수화.
- 핵심 목적: CPU 대비 수십~수천 배 AI 연산 처리량 확보, 데이터센터 전력 효율(PUE) 최적화.
Ⅱ. AI 가속기 유형별 구성 요소 및 핵심 원리
1. 유형별 구성 요소 비교
| 가속기 | 핵심 연산 단위 | 메모리 유형 | 주요 정밀도 | 용도 |
|---|---|---|---|---|
| CPU | ALU (8~128코어) | DRAM | FP64/32 | 제어 흐름, 순차 처리 |
| GPU | CUDA Core + Tensor Core | HBM3 (80GB) | FP32/FP16/INT8 | 병렬 학습·추론 |
| TPU | MXU (Systolic Array) | HBM2 | BFloat16/INT8 | 행렬 연산 특화 학습 |
| NPU | Neural Processing Element | On-Chip SRAM | INT8/INT4 | 저전력 온디바이스 추론 |
2. 핵심 원리: Systolic Array (데이터 흐름 행렬 연산기)
Systolic Array (TPU 핵심):
┌───┐ ┌───┐ ┌───┐
│PE │→ │PE │→ │PE │ ← 각 PE(Processing Element)가
└─┬─┘ └─┬─┘ └─┬─┘ 데이터를 다음 PE에 전달하며
↓ ↓ ↓ 동시에 연산 수행
┌───┐ ┌───┐ ┌───┐
│PE │→ │PE │→ │PE │ 메모리 접근 최소화 → 전력 효율 ↑
└─┬─┘ └─┬─┘ └─┬─┘
↓ ↓ ↓
[Result Matrix Row]
3. PIM(Processing-In-Memory) 원리
기존 폰 노이만 구조에서 CPU와 메모리 간 데이터 이동이 전체 연산 전력의 30~40%를 소비한다는 문제를 해결하기 위해, 메모리 칩 내부에 연산 유닛을 내장하는 혁신적 구조.
- Samsung HBM-PIM: HBM 레이어 내부에 Compute Unit 탑재 → 메모리 인-플레이스 연산
- 효과: 메모리 대역폭 2배 이상, 에너지 소비 60% 절감
- 적용: AI 추론 서버, 데이터센터 그린 IT 목표 달성
Ⅲ. 기술 비교 분석
| 비교 항목 | CPU | GPU | TPU | NPU | PIM |
|---|---|---|---|---|---|
| 병렬 코어 수 | 수십 | 수만 | 수만 (MXU) | 수백 | 메모리 내 대규모 |
| AI 학습 속도 | 기준 1x | 100~500x | 200~1000x | 추론 전용 | 대역폭 2x+ |
| AI 추론 속도 | 기준 1x | 50~200x | 100~500x | ★ 100x+ (저전력) | 대역폭 최적화 |
| 전력 소비 | 중간 | 매우 높음 | 높음 | ★ 낮음 | ★★ 매우 낮음 |
| 메모리 대역폭 | 기준 | HBM 3TB/s | HBM 3TB/s | 제한적 | ★ 병목 근본 해결 |
| 도입 비용 | 낮음 | 매우 높음 | 높음 | 낮음(내장) | 초고가 (현재) |
★ 선택 기준:
- 대규모 학습: GPU/TPU 클러스터
- 온디바이스(엣지) 추론: NPU
- 메모리 집약적 작업(탄소 중립): PIM
Ⅳ. 실무 적용 방안
1. 적용 시나리오
| 분야 | AI 가속기 조합 | 기대 효과 |
|---|---|---|
| 클라우드 AI 서비스 | H100 GPU 클러스터 + InfiniBand | LLM 학습 속도 100배 이상 향상 |
| 스마트폰 AI | Apple Neural Engine (NPU) | 배터리 소모 90% 절감, 프라이버시 보호 |
| 자율주행 차량 | Jetson Orin (GPU+NPU) | 실시간 환경 인식 < 50ms 지연 |
| 그린 데이터센터 | HBM-PIM 적용 서버 | 에너지 소비 60% 절감 (ESG 목표) |
2. 도입 시 고려사항
- 모델 크기: 소형(< 7B) → NPU/CPU, 중형(7B~70B) → GPU 추론, 대형(70B+) → 멀티GPU
- 정밀도 최적화: FP32 학습 → INT8 양자화(Quantization)로 추론 가속
- 에너지 정책: PUE 개선 목표 있다면 PIM 또는 액침냉각 GPU 검토
Ⅴ. 기대 효과 및 결론
기대 효과
| 효과 영역 | 내용 | 정량적 목표 |
|---|---|---|
| AI 성능 | 행렬 연산 특화 처리 | CPU 대비 100~1,000배 향상 |
| 에너지 절감 | PIM·NPU 기반 저전력 설계 | 데이터센터 전력 30~60% 절감 |
| AI 민주화 | 온디바이스 AI 확산 | 클라우드 의존도 50% 감소 |
| 국가 경쟁력 | 국내 HBM-PIM 기술 선도 | 글로벌 AI 반도체 시장 점유율 확대 |
결론
AI 가속기는 단순한 칩 성능의 향상이 아니라, AI 컴퓨팅 패러다임의 전환을 의미한다. GPU의 범용 병렬성에서 TPU의 도메인 특화, NPU의 엣지 최적화를 거쳐, PIM은 폰 노이만 병목 자체를 제거하는 혁신적 접근으로 진화하고 있다. 향후 CXL 인터페이스와 결합된 PIM 기반 컴포저블 인프라가 AI 데이터센터의 표준 아키텍처가 될 것으로 전망된다.
※ 참고 표준: JEDEC HBM3 표준, NVIDIA H100 White Paper, Google TPU v5 Technical Report, 삼성전자 HBM-PIM 논문 (ISSCC 2021)
어린이를 위한 종합 설명
AI 칩은 "AI 전용 계산기"야!
CPU: 만능 계산기 🖩 (뭐든 할 수 있지만 AI는 느림)
GPU: 슈퍼 병렬 계산기 ⚡ (같은 계산 수천 개 동시에!)
TPU: AI 학습 전용 계산기 🤖 (구글이 만든 초특급)
NPU: 스마트폰 AI 전용 칩 📱 (배터리 안 잡아먹고 빠름!)
ChatGPT 만들 때: GPU 수천 개 수개월 사용비 1000억+
ChatGPT 쓸 때: GPU로 순식간에 답변
스마트폰 얼굴인식: NPU가 10ms 안에 처리! ⚡
PIM의 혁신: 메모리 안에서 계산해서 이동 전력 없앰! 🧠