TPU & AI 전용 가속기 비교

별점: ★★★★☆ | 기본 필수

답안.

Ⅰ. 개요

목적: 구글의 AI 추론·학습 전용 칩 핵심: 시스톨릭 배열 (Systolic Array) PE(Processing Element)가 행렬 방식으로 배치

Ⅱ. 핵심 구성요소

[구글 TPU]
목적: 구글의 AI 추론·학습 전용 칩
핵심: 시스톨릭 배열 (Systolic Array)

[시스톨릭 배열]
PE(Processing Element)가 행렬 방식으로 배치
데이터가 배열을 통해 흐르면서 연산
행렬 곱셈 = GeMM에 최적화

예) 256×256 PE 배열:
  한 사이클에 65,536번 곱셈-덧셈
  → 행렬 곱 = 딥러닝 핵심 연산

[TPU 세대]
TPU v1 (2016): 추론 전용, INT8
TPU v2 (2017): 학습 지원, BF16
TPU v3 (2018): 물 냉각, 더 강력
TPU v4 (2021): 최신, 대규모 포드 구성
TPU v5e/p (2023): 가격/성능 최적화

[GPU vs NPU vs TPU 비교]
항목       GPU           NPU            TPU
제조사     NVIDIA/AMD    Qualcomm/Apple  Google
범용성     높음          중간            낮음(구글)
프로그래밍  CUDA          제조사 SDK     JAX/XLA
에너지     보통          효율            효율
용도       학습+추론     모바일 추론     구글 학습+추론

해당 키워드의 기술적 구성요소와 동작 원리를 서술한다.

Ⅲ. 특징 및 비교

핵심 기술의 장단점과 유사 기술과의 차이를 분석한다.

Ⅳ. 적용 사례

실무 환경에서의 적용 사례와 기대효과를 제시한다.

Ⅴ. 전망

최신 기술 동향과 향후 발전 방향을 서술한다.