GPU 컴퓨팅 & CUDA

별점: ★★★★★ | 기본 필수

답안.

Ⅰ. 개요

CPU: 코어 수십 개, 복잡한 제어 로직, 직렬 최적화 GPU: 코어 수천~만 개, 단순 ALU, 병렬 처리 최적화 SM (Streaming Multiprocessor):

Ⅱ. 핵심 구성요소

[CPU vs GPU]
CPU: 코어 수십 개, 복잡한 제어 로직, 직렬 최적화
GPU: 코어 수천~만 개, 단순 ALU, 병렬 처리 최적화

[GPU 계층 구조 (NVIDIA)]
SM (Streaming Multiprocessor):
  여러 CUDA 코어 묶음 (warp 단위 실행)
  공유 메모리 (L1 캐시 역할)

Warp:
  32개 스레드 묶음 = SIMD 실행 단위
  같은 명령어를 32개 스레드가 동시 실행

VRAM (HBM3e/GDDR6X):
  GPU 전용 고대역폭 메모리
  A100: 80GB HBM2e / H100: 80GB HBM3

[CUDA 스레드 계층]
Grid → Block → Thread
Grid: 전체 문제 공간
Block: 공유 메모리 공유 단위 (max 1024 스레드)
Thread: 최소 실행 단위

[CUDA 메모리 계층]
전역 메모리(Global): 느림, GPU 전체 공유
공유 메모리(Shared): 빠름, Block 내 공유
레지스터: 최빠름, Thread 전용
상수 메모리(Constant): 읽기 전용, 캐시됨


해당 키워드의 기술적 구성요소와 동작 원리를 서술한다.

### Ⅲ. 특징 및 비교

핵심 기술의 장단점과 유사 기술과의 차이를 분석한다.

### Ⅳ. 적용 사례

실무 환경에서의 적용 사례와 기대효과를 제시한다.

### Ⅴ. 전망

최신 기술 동향과 향후 발전 방향을 서술한다.