10. 병렬 처리 아키텍처

핵심 인사이트 (3줄 요약)

본질: 병렬 처리 아키텍처 (Parallel Processing Architecture)는 단일 프로세서의 성능 한계를 극복하기 위해 다수의 연산 장치를 동시에 가동하여 작업을 분담 처리하는 구조로, 플린의 분류 (Flynn's Taxonomy)를 기본 체계로 한다.

가치: 명령어 수준 병렬성 (ILP), 데이터 수준 병렬성 (DLP), 스레드 수준 병렬성 (TLP)을 통해 대규모 연산을 가속화하며, 슈퍼컴퓨터부터 모바일 SoC에 이르기까지 성능 향상의 핵심 동력을 제공한다.

융합: 멀티코어 (Multi-core), 매니코어 (Many-core), 그리고 GPU의 SIMT 아키텍처가 결합되어 현대 AI 및 고성능 컴퓨팅 (HPC)의 연산 인프라를 완성한다.

Ⅰ. 개요 및 필요성 (Context & Necessity)

병렬 처리의 필연성: 무어의 법칙을 넘어서

과거에는 CPU의 클럭 속도를 높이는 것만으로도 성능 향상이 가능했다. 하지만 클럭이 높아질수록 발열과 전력 소모가 기하급수적으로 늘어나는 **'전력의 벽 (Power Wall)'**에 부딪혔다. 이제 성능 향상의 유일한 탈출구는 하나의 작업을 여러 개로 쪼개어 동시에 처리하는 병렬 처리뿐이다.

병렬 처리가 필요한 이유는 세 가지이다. 첫째, 초거대 규모의 데이터 연산 (기상 예측, 유전자 분석, AI 학습)을 현실적인 시간 내에 끝내기 위해서이다. 둘째, 여러 사용자의 요청을 동시에 처리하는 **처리량 (Throughput)**을 극대화하기 위해서이며, 셋째, 단일 고성능 코어보다 여러 개의 효율적인 코어를 쓰는 것이 전력 효율 ( 전성비 ) 면에서 유리하기 때문이다.

이 그림은 플린 (Flynn)의 분류에 따른 컴퓨터 시스템의 4대 병렬 구조를 보여준다.

┌─────────────────────────────────────────────────────────────┐
│                 Flynn's Taxonomy of Computer Systems        │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│                     [ Single Data ]       [ Multiple Data ] │
│  [ Single Inst. ]      SISD (고전 CPU)       SIMD (GPU/벡터) │
│                                                             │
│  [ Multiple Inst. ]    MISD (특수 목적)      MIMD (멀티코어) │
│                                                             │
│   * SISD: Single Instruction, Single Data                   │
│   * SIMD: Single Instruction, Multiple Data                 │
│   * MISD: Multiple Instruction, Single Data                 │
│   * MIMD: Multiple Instruction, Multiple Data               │
│                                                             │
└─────────────────────────────────────────────────────────────┘

이 다이어그램의 핵심은 '데이터와 명령어의 조합'이다. 현대 고성능 컴퓨팅의 주류는 동일한 명령으로 여러 데이터를 한꺼번에 요리하는 SIMD와, 각자 다른 일을 동시에 수행하는 MIMD의 결합이다. 실무에서는 이러한 병렬 구조를 소프트웨어가 얼마나 잘 활용하느냐 (병렬 프로그래밍)가 아키텍처 효율의 관건이다.

병렬성의 수준 (Levels of Parallelism)

ILP (Instruction Level): 명령어들 사이의 의존성을 피해 겹쳐 실행. (Pipelining, Superscalar)
DLP (Data Level): 동일한 연산을 대량의 데이터에 동시 적용. (Vector, GPU)
TLP (Thread Level): 독립적인 실행 흐름인 스레드들을 병렬 실행. (Multi-core, SMT)

📢 섹션 요약 비유: 병렬 처리는 '대형 식당의 주방'과 같습니다. 주방장 한 명이 초능력을 발휘해 빨리 요리하는 것보다, 여러 명의 요리사가 각자 재료 손질, 볶음, 설거지를 나누어 맡는 것이 훨씬 많은 손님을 받을 수 있는 비결입니다.

Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)

SIMD (Single Instruction, Multiple Data)

하나의 명령어로 여러 개의 데이터를 동시에 처리하는 방식이다. 멀티미디어 가속 및 딥러닝 연산의 핵심이다.

벡터 프로세서: 긴 레지스터를 사용하여 배열 연산을 가속.
SIMD 확장 명령어: x86의 AVX, ARM의 NEON 등.

MIMD (Multiple Instruction, Multiple Data)

여러 코어가 각자 독립적인 명령어를 실행하는 방식이다. 메모리 공유 방식에 따라 두 가지로 나뉜다.

구분	공유 메모리 방식 (UMA/SMP)	분산 메모리 방식 (NORMA/MPP)
메모리 구조	모든 프로세서가 하나의 메모리 공유	각 프로세서가 독립된 메모리 보유
통신 방식	공유 변수 (Shared Variables)	메시지 패싱 (Message Passing)
확장성	낮음 (버스 경합 발생)	매우 높음 (노드 추가 용이)
비유	한 냄비의 찌개를 같이 먹기	각자 도시락을 들고 대화하기

이 구조도는 현대적인 멀티코어 시스템의 메모리 계층 및 연결망을 보여준다.

┌─────────────────────────────────────────────────────────────┐
│                 Modern Multi-core Architecture              │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   [ Core 0 ]   [ Core 1 ]   [ Core 2 ]   [ Core 3 ]         │
│   ┌──────┐     ┌──────┐     ┌──────┐     ┌──────┐           │
│   │L1/L2 │     │L1/L2 │     │L1/L2 │     │L1/L2 │           │
│   └──┬───┘     └──┬───┘     └──┬───┘     └──┬───┘           │
│      └────────────┴─────┬──────┴────────────┘               │
│                         ▼                                   │
│                  [ Shared L3 Cache ]                        │
│                         │                                   │
│                  [ System Interconnect ]                    │
│                         │                                   │
│                  [ Main Memory (DRAM) ]                     │
│                                                             │
└─────────────────────────────────────────────────────────────┘

이 다이어그램의 핵심은 '캐시 일관성 (Cache Coherency)'이다. 코어마다 가진 L1/L2 캐시의 데이터가 서로 다를 경우 치명적인 오류가 발생하므로, Snooping이나 Directory 기반 프로토콜이 배경에서 쉴 새 없이 움직인다. 실무에서는 이 오버헤드가 코어 확장의 물리적 한계점이 된다.

📢 섹션 요약 비유: 공유 메모리는 거실에 커다란 화이트보드(메모리)를 두고 가족 모두가 적는 것이고, 분산 메모리는 각자 수첩(독립 메모리)을 들고 필요한 내용만 전화(메시지)로 알려주는 차이입니다.

Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)

CPU vs GPU 아키텍처 비교

항목	CPU (Central Processing Unit)	GPU (Graphics Processing Unit)
설계 목표	복잡한 제어 및 저지연 (Latency)	단순 연산의 대량 처리 (Throughput)
코어 구성	소수의 강력한 코어 (Complex)	수천 개의 단순한 코어 (Simple)
병렬성 종류	ILP, TLP 중심	DLP, SIMT (Thread) 중심
제어 로직	크고 정교함 (Branch Predictor 등)	매우 작고 연산기에 면적 양보
비유	박사학위 교수 1~2명	수천 명의 단순 계산 인부

대칭형 (SMP) vs 비대칭형 (ASMP) 멀티프로세싱

구분	SMP (Symmetric)	ASMP (Asymmetric)
역할	모든 코어가 동등한 권한 보유	마스터-슬레이브 구조 (특정 코어 전담)
효율성	작업 부하 분산에 유리 (범용)	특정 작업 (I/O, OS) 고속 처리 유리
현대적 진화	고성능 서버 아키텍처	big.LITTLE (성능+효율 혼합)

📢 섹션 요약 비유: SMP가 모든 직원이 직급 없이 협업하는 '수평적 팀'이라면, ASMP는 지시를 내리는 팀장과 실무를 하는 팀원이 나뉜 '수직적 팀'입니다. big.LITTLE은 힘센 장사(Big)와 꼼꼼한 일꾼(Little)을 섞어 효율을 높인 팀 구성입니다.

Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)

기술사적 판단: 병렬 처리 시스템 구축 및 튜닝 전략

시나리오 1: 기상 시뮬레이션 모델의 연산 속도 개선

판단: 데이터 의존성이 적고 반복 연산이 많으므로 GPU 가속기 (SIMD) 도입을 제안한다. 하지만 GPU와 CPU 사이의 데이터 전송 병목을 해결하기 위해 NVLink와 같은 고속 연결망을 구성하고, 메모리 대역폭이 넓은 HBM (High Bandwidth Memory) 탑재 모델을 선정한다. 또한 암달의 법칙을 고려하여 순차적 로직을 최소화하는 알고리즘 리팩토링을 병행한다.

시나리오 2: 멀티코어 서버에서 코어 수가 늘어도 성능 향상이 정체되는 상황

판단: 캐시 일관성 프로토콜 오버헤드와 **버스 경합 (Bus Contention)**을 의심한다. UMA 방식의 한계를 넘기 위해 NUMA (Non-Uniform Memory Access) 아키텍처로 전환하고, 소프트웨어적으로는 코어 간 공유 자원을 최소화하는 Partitioning 기법을 적용한다. 또한 특정 코어에만 인터럽트가 쏠리지 않도록 IRQ Balancing을 최적화한다.

이 도식은 병렬화 효율을 극대화하기 위한 '데이터 분할 전략'을 보여준다.

┌─────────────────────────────────────────────────────────────┐
│               Data Decomposition & Speedup                  │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   [ Original Task ] : ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━        │
│                                                             │
│   [ Parallel Task ]                                         │
│   Core 0 : ━━━━━━                                           │
│   Core 1 : ━━━━━━   (Parallel Exec)                         │
│   Core 2 : ━━━━━━                                           │
│   Core 3 : ━━━━━━                                           │
│                                                             │
│   * 핵심: 작업 간의 의존성(Dependency) 제거가 성패의 열쇠   │
│                                                             │
└─────────────────────────────────────────────────────────────┘

📢 섹션 요약 비유: 기술사의 병렬 설계 판단은 '공사 현장의 인력 배치'와 같습니다. 인부를 무작정 많이 고용한다고 집이 빨리 지어지는 게 아닙니다. 벽돌을 쌓는 사람과 시멘트를 나르는 사람의 순서가 꼬이지 않게 작업 동선(데이터 흐름)을 짜는 것이 전문가의 실력입니다.

Ⅴ. 기대효과 및 결론 (Future & Standard)

병렬 아키텍처 고도화의 비즈니스 가치

정량적 효과: 단일 코어 대비 수백~수천 배의 연산 능력 확보, 실시간 대규모 데이터 분석 가능.
정성적 효과: 인프라의 유연한 확장성 (Scalability) 확보, AI/메타버스 등 고부하 신기술 서비스 구현의 토대.

미래 전망: 엑사스케일 (Exascale) 컴퓨팅과 가속기 대전

향후 아키텍처는 초당 100경 번 연산하는 엑사스케일 시대를 넘어, 수만 개의 이기종 코어가 협력하는 구조로 발전할 것이다. 특히 연산 유닛이 메모리 옆으로 이동하는 **NDP (Near Data Processing)**와 광통신 기반의 상호 연결망이 표준이 될 것이다. 기술사는 단순한 멀티코어를 넘어, FPGA, TPU, NPU 등 다양한 가속기가 혼재된 '이종 병렬 컴퓨팅 (Heterogeneous Parallel Computing)' 환경에서 최적의 연산 지도를 그리는 지능형 설계자가 되어야 한다.

📢 섹션 요약 비유: 미래의 컴퓨터는 '거대한 오케스트라'와 같아질 것입니다. 바이올린(CPU), 피아노(GPU), 북(NPU) 등 각기 다른 악기들이 지휘자(아키텍처)의 완벽한 조율 아래 하나의 웅장한 교향곡(초고성능 연산)을 완성하는 세상이 올 것입니다.

📌 관련 개념 맵 (Knowledge Graph)

Flynn's Taxonomy: 병렬 시스템의 4대 분류 체계
SIMD: 데이터 수준 병렬성의 핵심 (벡터/GPU)
Shared vs Distributed Memory: MIMD의 메모리 구조 차이
Cache Coherency: 데이터 일관성을 위한 MESI 프로토콜
Speedup: 병렬화에 따른 성능 향상 배수
Heterogeneous Computing: CPU와 가속기의 융합 아키텍처

👶 어린이를 위한 3줄 비유 설명

병렬 처리는 어려운 숙제를 할 때 혼자서 끙끙 앓는 게 아니라, 친구들을 많이 불러서 나누어 푸는 거예요.
"너는 1번 문제 풀어, 나는 2번 문제 풀게!"라고 약속하면 숙제를 아주 금방 끝낼 수 있죠.
친구들이 많을수록 힘이 세지지만, 서로 떠들지 않고(데이터 충돌) 자기 일에 집중할 수 있게 잘 이끌어주는 것이 중요하답니다!