NPU (Neural Processing Unit)
출제 빈도: ★★★★★ | ★134회 기출
답안.
Ⅰ. 개요
NPU(Neural Processing Unit)란 딥러닝 연산(행렬곱, 컨볼루션)에 특화된 AI 가속기로, 범용 CPU 대비 10~100배 높은 TOPS/W(연산/와트) 효율을 제공한다. 온디바이스 AI 추론부터 데이터센터 학습까지 AI 반도체의 핵심 구성 요소이다.
Ⅱ. 핵심 구조
┌──────────────────────────────────────────┐
│ NPU Architecture │
├──────────────────────────────────────────┤
│ ┌────────┐ ┌────────┐ ┌────────┐ │
│ │MAC 어레이│ │MAC 어레이│ │MAC 어레이│ │
│ │(시스톨릭)│ │(시스톨릭)│ │(시스톨릭)│ │
│ └────┬───┘ └────┬───┘ └────┬───┘ │
│ └──────────┼──────────┘ │
│ ▼ │
│ 활성화 함수 유닛 (ReLU 등) │
│ ▼ │
│ On-chip SRAM (수 MB) │
│ ▼ │
│ DMA ↔ HBM/DRAM │
└──────────────────────────────────────────┘
MAC(Multiply-Accumulate) 어레이가 행렬곱을 병렬 수행하며, 시스톨릭 어레이(Systolic Array) 구조로 데이터를 파이프라인 방식으로 흘려보내 메모리 접근을 최소화한다.
Ⅲ. 주요 NPU 비교
| 구분 | Apple Neural Engine | Google TPU v5e | Qualcomm Hexagon |
|---|---|---|---|
| 위치 | 모바일 SoC 내장 | 클라우드 서버 | 모바일 SoC |
| 연산력 | 38 TOPS | 393 TFLOPS (BF16) | 73 TOPS |
| 용도 | 온디바이스 추론 | 대규모 학습/추론 | 모바일 AI |
| 정밀도 | INT8/FP16 | BF16/INT8 | INT8/INT4 |
Ⅳ. 데이터 정밀도와 양자화
AI 추론에서는 FP32→FP16→INT8→INT4로 정밀도를 낮춰(양자화) 연산량과 메모리를 절감한다. NPU는 저정밀 연산에 최적화되어 같은 전력에서 높은 처리량을 달성한다.
Ⅴ. 전망
온디바이스 LLM(SLM) 실행을 위해 NPU 성능이 급속히 향상되고 있으며, PNM(Processing Near Memory)과 결합하여 메모리 대역폭 병목을 해소하는 방향으로 진화한다.
관련: TPU(38번) · 온디바이스 AI(40번) · PNM(41번) · GPU(34번)