AI 가속기 (AI Accelerator) - GPU·TPU·NPU·PIM 비교 분석

핵심 인사이트 (3줄 요약)

AI 연산의 폭발적 증가로 범용 CPU만으로는 처리가 불가능해, 행렬 연산 특화 가속기가 필수화됨. GPU는 병렬성, TPU는 행렬 특화, NPU는 저전력 추론, PIM은 메모리 내 연산이 핵심. ChatGPT 학습에 A100 GPU 수천 개, 추론 시 H100 클러스터가 사용된다.

1. 등장 배경: CPU의 한계와 AI 연산 특성

AI/ML 연산의 특성:
  ┌─────────────────────────────────────────┐
  │  y = Wx + b  (행렬-벡터 곱)             │
  │  W: 수천×수천 행렬                       │
  │  → 동일한 단순 연산을 수억 번 반복       │
  │  → 병렬화에 완전히 최적화 가능!          │
  └─────────────────────────────────────────┘

CPU의 문제:
  코어 수: 8~64개 (복잡한 제어 로직)
  강점: 복잡한 순차 로직 (if/else, 분기)
  약점: 수천 개 동시 행렬 곱셈 → 느림

GPU의 해결:
  CUDA 코어: 수천~수만 개 (단순 산술)
  강점: 같은 연산을 동시에 수천 번 실행
  약점: 전력 소비 큼, 범용성 떨어짐

2. AI 가속기 4대 유형 비교 ★ (기술사 핵심)

특성	CPU	GPU	TPU (Google)	NPU
특화 영역	범용	병렬 그래픽/AI	AI 학습 특화	AI 추론 특화
코어 수	8~128개	수천~수만 개	수만 MXU	수십~수백 PE
행렬 연산	느림	빠름	매우 빠름	빠름
전력 효율	중간	낮음	중간	높음
정밀도	FP64 중심	FP32·FP16	BFloat16·INT8	INT8·INT4
메모리	범용 DRAM	GDDR/HBM	HBM2	On-chip SRAM
활용	범용 서버	AI 학습·추론	Google 데이터센터	스마트폰·엣지
대표 제품	Intel Xeon	NVIDIA H100	Cloud TPU v5	Apple Neural Engine

3. 핵심 구조 및 원리

GPU 아키텍처 (NVIDIA H100 기준)

H100 GPU:
┌──────────────────────────────────────┐
│         GPC (Graphics Processing Cluster) x 8  │
│  ┌────────────────────────────────┐  │
│  │  SM (Streaming Multiprocessor) x 132  │  │
│  │  ┌──────┐ ┌──────┐ ┌──────┐  │  │
│  │  │CUDA×4│ │TC×1  │ │LD/ST │  │  │
│  │  │(FP32)│ │(FP16)│ │Cache │  │  │
│  │  └──────┘ └──────┘ └──────┘  │  │
│  └────────────────────────────────┘  │
│  HBM3: 80GB (3.35TB/s 대역폭!)      │
│  Interconnect: NVLink 4 (900GB/s)   │
└──────────────────────────────────────┘
TC = Tensor Core (행렬 연산 전용)

TPU 아키텍처 (구글 특화)

TPU v5:
┌──────────────────────────────────────┐
│  MXU (Matrix Multiply Unit) × N개   │
│  → 256×256 Systolic Array           │
│  → 1클럭에 256×256×2 = 131,072 MACs │
│  (CPU는 동시에 수~수십 MACs)         │
└──────────────────────────────────────┘
Systolic Array: 데이터가 격자 형태로 흘러가며
  인접 PE들이 데이터를 주고받는 구조.
  메모리 접근 최소화 → 전력 효율 ↑

NPU (Neural Processing Unit)

스마트폰·엣지 기기 내장 AI 칩:

Apple M4 Neural Engine (38TOPS):
  - 16코어 Neural Engine
  - 추론(Inference) 전용 최적화
  - FaceID: 10ms 이내 처리
  - Siri 로컬 음성 인식

특징: 저전력 + 실시간 추론
용도: 온디바이스 AI (프라이버시 보호)

4. PIM (Processing-In-Memory) - 차세대 기술

기존 폰 노이만 구조의 문제:
  CPU ←──── (버스: 병목!) ────→ 메모리
  연산은 CPU에서, 데이터는 메모리에서
  → 데이터 이동 자체가 전력 소비의 30~40%!

PIM의 혁신:
  메모리 칩 내부에 연산 유니트 내장!
  데이터를 꺼내오지 않고 메모리 안에서 계산
  
SAMSUNG HBM-PIM:
  ┌──────────────────────┐
  │ HBM 레이어           │
  │ ┌──────────────────┐ │
  │ │ 데이터 저장        │ │
  │ │ ┌────────────┐  │ │
  │ │ │Compute Unit│  │ │ ← 연산 유닛이 메모리 안에!
  │ │ └────────────┘  │ │
  │ └──────────────────┘ │
  └──────────────────────┘
  효과: 대역폭 문제 해결, 전력 60% 절감

5. 실무 적용 사례

시나리오	사용 가속기	이유
GPT-4 학습	H100 GPU 수천 개	범용 병렬성 + InfiniBand 연결
GPT-4 추론	H100/A100 클러스터	배치 처리 효율
스마트폰 얼굴인식	NPU (Neural Engine)	저전력 + 프라이버시
자율주행 차	GPU+NPU 혼용	학습은 GPU, 실차 추론은 NPU
Google Search AI	Cloud TPU	구글 내부 대규모 서비스 최적화

6. 실무에서? (기술사적 판단)

학습 vs 추론 분리: 학습(Training) → GPU/TPU, 추론(Inference) → NPU/CPU 혼합
온프레미스 vs 클라우드: AWS(Trainium), Google(TPU v5), NVIDIA(DGX)
국내 동향: 삼성 엑시노스 NPU, SK하이닉스 HBM-PIM 개발 경쟁
시험 포인트: GPU vs TPU vs NPU 3자 비교 + Systolic Array 구조 설명

📝 기술사 모의답안 (2.5페이지 분량)

📌 예상 문제

"AI 가속기의 종류(CPU·GPU·TPU·NPU)를 비교 설명하고, PIM(Processing-In-Memory)의 등장 배경과 원리, 향후 AI 컴퓨팅 아키텍처에 미치는 영향을 논하시오."

Ⅰ. 개요

**AI 가속기(AI Accelerator)**란 인공지능의 핵심 연산인 **행렬 곱셈(Matrix Multiplication)**을 고속·저전력으로 처리하기 위해 설계된 특수 목적 프로세서를 총칭한다.

등장 배경: 딥러닝 모델의 파라미터 수 급증(GPT-3: 1750억, GPT-4: ~1조 이상)으로 범용 CPU만으로는 학습이 불가능해졌고, 실시간 AI 서비스 수요 폭발로 추론(Inference) 전용 최적화도 필수화.
핵심 목적: CPU 대비 수십~수천 배 AI 연산 처리량 확보, 데이터센터 전력 효율(PUE) 최적화.

Ⅱ. AI 가속기 유형별 구성 요소 및 핵심 원리

1. 유형별 구성 요소 비교

가속기	핵심 연산 단위	메모리 유형	주요 정밀도	용도
CPU	ALU (8~128코어)	DRAM	FP64/32	제어 흐름, 순차 처리
GPU	CUDA Core + Tensor Core	HBM3 (80GB)	FP32/FP16/INT8	병렬 학습·추론
TPU	MXU (Systolic Array)	HBM2	BFloat16/INT8	행렬 연산 특화 학습
NPU	Neural Processing Element	On-Chip SRAM	INT8/INT4	저전력 온디바이스 추론

2. 핵심 원리: Systolic Array (데이터 흐름 행렬 연산기)

Systolic Array (TPU 핵심):

  ┌───┐  ┌───┐  ┌───┐
  │PE │→ │PE │→ │PE │   ← 각 PE(Processing Element)가
  └─┬─┘  └─┬─┘  └─┬─┘     데이터를 다음 PE에 전달하며
    ↓       ↓       ↓        동시에 연산 수행
  ┌───┐  ┌───┐  ┌───┐
  │PE │→ │PE │→ │PE │   메모리 접근 최소화 → 전력 효율 ↑
  └─┬─┘  └─┬─┘  └─┬─┘
    ↓       ↓       ↓
  [Result Matrix Row]

3. PIM(Processing-In-Memory) 원리

기존 폰 노이만 구조에서 CPU와 메모리 간 데이터 이동이 전체 연산 전력의 30~40%를 소비한다는 문제를 해결하기 위해, 메모리 칩 내부에 연산 유닛을 내장하는 혁신적 구조.

Samsung HBM-PIM: HBM 레이어 내부에 Compute Unit 탑재 → 메모리 인-플레이스 연산
효과: 메모리 대역폭 2배 이상, 에너지 소비 60% 절감
적용: AI 추론 서버, 데이터센터 그린 IT 목표 달성

Ⅲ. 기술 비교 분석

비교 항목	CPU	GPU	TPU	NPU	PIM
병렬 코어 수	수십	수만	수만 (MXU)	수백	메모리 내 대규모
AI 학습 속도	기준 1x	100~500x	200~1000x	추론 전용	대역폭 2x+
AI 추론 속도	기준 1x	50~200x	100~500x	★ 100x+ (저전력)	대역폭 최적화
전력 소비	중간	매우 높음	높음	★ 낮음	★★ 매우 낮음
메모리 대역폭	기준	HBM 3TB/s	HBM 3TB/s	제한적	★ 병목 근본 해결
도입 비용	낮음	매우 높음	높음	낮음(내장)	초고가 (현재)

★ 선택 기준:

대규모 학습: GPU/TPU 클러스터
온디바이스(엣지) 추론: NPU
메모리 집약적 작업(탄소 중립): PIM

Ⅳ. 실무 적용 방안

1. 적용 시나리오

분야	AI 가속기 조합	기대 효과
클라우드 AI 서비스	H100 GPU 클러스터 + InfiniBand	LLM 학습 속도 100배 이상 향상
스마트폰 AI	Apple Neural Engine (NPU)	배터리 소모 90% 절감, 프라이버시 보호
자율주행 차량	Jetson Orin (GPU+NPU)	실시간 환경 인식 < 50ms 지연
그린 데이터센터	HBM-PIM 적용 서버	에너지 소비 60% 절감 (ESG 목표)

2. 도입 시 고려사항

모델 크기: 소형(< 7B) → NPU/CPU, 중형(7B~70B) → GPU 추론, 대형(70B+) → 멀티GPU
정밀도 최적화: FP32 학습 → INT8 양자화(Quantization)로 추론 가속
에너지 정책: PUE 개선 목표 있다면 PIM 또는 액침냉각 GPU 검토

Ⅴ. 기대 효과 및 결론

기대 효과

효과 영역	내용	정량적 목표
AI 성능	행렬 연산 특화 처리	CPU 대비 100~1,000배 향상
에너지 절감	PIM·NPU 기반 저전력 설계	데이터센터 전력 30~60% 절감
AI 민주화	온디바이스 AI 확산	클라우드 의존도 50% 감소
국가 경쟁력	국내 HBM-PIM 기술 선도	글로벌 AI 반도체 시장 점유율 확대

결론

AI 가속기는 단순한 칩 성능의 향상이 아니라, AI 컴퓨팅 패러다임의 전환을 의미한다. GPU의 범용 병렬성에서 TPU의 도메인 특화, NPU의 엣지 최적화를 거쳐, PIM은 폰 노이만 병목 자체를 제거하는 혁신적 접근으로 진화하고 있다. 향후 CXL 인터페이스와 결합된 PIM 기반 컴포저블 인프라가 AI 데이터센터의 표준 아키텍처가 될 것으로 전망된다.

※ 참고 표준: JEDEC HBM3 표준, NVIDIA H100 White Paper, Google TPU v5 Technical Report, 삼성전자 HBM-PIM 논문 (ISSCC 2021)

어린이를 위한 종합 설명

AI 칩은 "AI 전용 계산기"야!

CPU: 만능 계산기 🖩 (뭐든 할 수 있지만 AI는 느림)
GPU: 슈퍼 병렬 계산기 ⚡ (같은 계산 수천 개 동시에!)
TPU: AI 학습 전용 계산기 🤖 (구글이 만든 초특급)
NPU: 스마트폰 AI 전용 칩 📱 (배터리 안 잡아먹고 빠름!)

ChatGPT 만들 때: GPU 수천 개 수개월 사용비 1000억+
ChatGPT 쓸 때: GPU로 순식간에 답변

스마트폰 얼굴인식: NPU가 10ms 안에 처리! ⚡

PIM의 혁신: 메모리 안에서 계산해서 이동 전력 없앰! 🧠