439. 이기종 컴퓨팅 (Heterogeneous Computing)

핵심 인사이트 (3줄 요약)

본질: 이기종 컴퓨팅 (Heterogeneous Computing)은 CPU (Central Processing Unit), GPU (Graphics Processing Unit), NPU (Neural Processing Unit), DSP (Digital Signal Processor)처럼 구조가 다른 연산 자원을 한 시스템에서 역할 분담시키는 방식이다.

가치: 핵심 목적은 "무조건 더 빠른 범용 프로세서"가 아니라, 작업 특성에 맞는 전용 엔진을 써서 성능 대비 전력 효율을 높이는 데 있다.

판단 포인트: 성공 여부는 가속기 수보다 데이터 이동량, 메모리 공유 방식, 소프트웨어 스케줄링이 병목을 얼마나 줄였는가로 결정된다.

Ⅰ. 개요 및 필요성

이기종 컴퓨팅은 하나의 컴퓨터 또는 SoC (System on Chip) 안에서 서로 다른 성격의 처리기를 함께 사용해 전체 시스템 성능을 높이는 아키텍처다. 범용 제어에는 CPU가 유리하고, 대규모 병렬 계산에는 GPU가, 행렬 추론에는 NPU가, 스트림 신호 처리에는 DSP가 더 적합하다는 현실에서 출발한다. 즉 "한 종류의 코어를 많이 넣는 것"보다 "일에 맞는 코어를 섞어 쓰는 것"이 더 효율적이라는 판단이 핵심이다.

이 개념이 중요해진 배경은 세 가지다. 첫째, 클럭 주파수만 올려 성능을 키우는 방식은 전력 소모와 발열 때문에 한계에 부딪혔다. 둘째, 인공지능 추론, 영상 인코딩, 그래픽 렌더링처럼 계산 패턴이 매우 뚜렷한 작업이 늘어 범용 코어만으로는 전성비를 맞추기 어려워졌다. 셋째, 모바일과 데이터센터 모두 배터리, 냉각, 운영비라는 물리적 제약 아래에서 더 많은 일을 해야 하게 되었다.

범용 CPU만으로 모든 일을 처리하면 유연성은 좋지만 낭비가 크다. 예를 들어 동일한 행렬 곱셈이라도 CPU는 복잡한 제어 회로와 큰 캐시를 유지하며 계산하고, GPU나 NPU는 같은 형태의 연산을 훨씬 단순하고 조밀한 하드웨어로 밀어붙인다. 그래서 이기종 컴퓨팅은 성능 향상 전략이라기보다, 전력의 벽과 워크로드 다양성에 대한 구조적 대응으로 이해하는 편이 정확하다.

📢 섹션 요약 비유: 이기종 컴퓨팅은 한 명의 만능 직원에게 회계, 디자인, 배송을 모두 맡기는 대신, 회계사·디자이너·기사에게 일을 나눠 맡기는 회사 운영과 같다. 사람 수가 같아도 전문 분야가 맞으면 더 빨리 끝나고 야근도 줄어든다.

Ⅱ. 아키텍처 및 핵심 원리

이기종 시스템은 보통 호스트 프로세서, 가속기, 인터커넥트, 메모리 계층, 런타임 소프트웨어로 구성된다. CPU는 운영체제와 제어 흐름을 맡고, 가속기는 특정 종류의 데이터를 대량으로 처리한다. 문제는 연산 장치 자체보다도, CPU가 데이터를 넘기고 결과를 회수하는 과정에서 시간이 얼마나 새느냐이다.

아래 그림은 이기종 컴퓨팅에서 실제 병목이 어디서 생기는지를 보여준다. 연산이 빠른 가속기를 붙여도 입력 복사와 동기화 비용이 크면 전체 응답시간은 거의 줄지 않는다.

┌────────────────────────────────────────────────────────────────────────────┐
│ Heterogeneous offload path                                                │
├────────────────────────────────────────────────────────────────────────────┤
│ App Thread                                                                │
│    │                                                                       │
│    ▼                                                                       │
│ CPU prepares task                                                          │
│    │                                                                       │
│    ├── copy input ──▶ Shared/Device Memory ──▶ Accelerator compute         │
│    │                     ▲                         │                        │
│    │                     │                         ├── sync / interrupt     │
│    │                     │                         ▼                        │
│    └── wait or overlap ◀─┴──────── result writeback / pointer handoff      │
│                                                                            │
│ Key bottlenecks: copy latency, memory coherence, launch overhead, sync     │
└────────────────────────────────────────────────────────────────────────────┘

핵심 설계 포인트는 다음과 같다.

구성 요소	역할	중요한 판단 포인트
CPU	제어, 예외 처리, 스케줄링	작은 작업까지 무조건 오프로딩하지 않기
GPU/NPU/DSP	병렬·행렬·신호 처리 가속	작업 패턴이 하드웨어 특성과 맞아야 함
인터커넥트	CPU와 가속기 연결	PCIe (Peripheral Component Interconnect Express), 온칩 패브릭의 대역폭·지연
메모리 구조	데이터 보관·공유	분리 메모리인지, UMA (Unified Memory Architecture)인지
런타임/드라이버	커널 실행, 동기화, 자원 관리	호출 오버헤드와 폴백 경로 관리

메모리 구조는 특히 중요하다. 분리 메모리 환경에서는 CPU 메모리와 GPU 메모리 사이에 복사가 필요해 대용량 데이터에서 병목이 커진다. 반면 UMA나 HSA (Heterogeneous System Architecture) 계열 구조는 같은 주소 공간 또는 더 강한 공유 모델을 제공해 복사 비용을 줄인다. 다만 공유 메모리가 곧 공짜는 아니며, 캐시 일관성, 메모리 대역폭 경쟁, 우선순위 제어 같은 문제가 새로 생긴다.

따라서 이기종 컴퓨팅의 핵심 원리는 "더 빠른 계산기 추가"가 아니라 "제어는 CPU, 대량 반복은 가속기, 데이터는 가능한 덜 움직이게"로 요약된다. 실제 성능은 커널 실행 시간보다 데이터 준비, 배치 크기, 비동기 오버랩 설계에 더 크게 좌우되는 경우가 많다.

📢 섹션 요약 비유: 이기종 아키텍처는 큰 창고에서 지게차, 컨베이어벨트, 분류 로봇을 함께 쓰는 물류센터와 같다. 장비가 많아도 물건을 이리저리 옮기기만 하느라 시간을 쓰면 배송은 빨라지지 않는다.

Ⅲ. 비교 및 연결

이기종 컴퓨팅의 경계는 동종 멀티코어와 비교할 때 가장 선명해진다. 동종 멀티코어 (Homogeneous Multicore)는 모든 코어가 거의 같은 구조를 가져 운영과 프로그래밍이 단순하다. 반면 이기종 컴퓨팅은 각 코어의 강점이 뚜렷한 대신, 작업 배치와 메모리 관리가 복잡해진다.

비교 축	동종 멀티코어	이기종 컴퓨팅
코어 구조	동일하거나 유사	서로 다른 구조와 ISA (Instruction Set Architecture) 가능
장점	프로그래밍 단순, 이식성 높음	전성비 우수, 특정 작업 압도적 가속
약점	특화 연산에서 비효율	소프트웨어 복잡도, 데이터 이동 병목
적합 작업	일반 앱, 제어 중심 처리	AI, 그래픽, 미디어, 암호화, 신호 처리

또 다른 중요한 비교는 느슨한 결합과 긴밀한 결합이다. PCIe 기반 외장 GPU처럼 CPU와 가속기가 비교적 멀리 떨어진 구조는 확장성이 좋지만 복사 오버헤드가 크다. 반대로 모바일 SoC 내부에서 CPU, GPU, ISP (Image Signal Processor), NPU가 한 패키지 또는 한 다이에 묶인 구조는 지연시간과 전력 효율에서 유리하다. 그래서 데이터센터에서는 확장성을, 모바일에서는 통합도를 우선하는 경우가 많다.

이기종 컴퓨팅은 다른 과목과도 강하게 연결된다. 운영체제는 어떤 스레드를 어느 코어에 배치할지 판단해야 하고, 컴파일러와 런타임은 특정 커널을 어느 장치용 코드로 내릴지 결정해야 한다. 반도체 관점에서는 칩렛 (Chiplet), 패키징, 캐시 일관성 프로토콜이 중요해지고, 인공지능 관점에서는 양자화와 연산자 호환성이 실제 가속 여부를 좌우한다.

즉 이기종 컴퓨팅은 단순히 "가속기 하나 더 붙인 하드웨어"가 아니다. 하드웨어 구조, 메모리 시스템, 운영체제 스케줄링, 소프트웨어 프레임워크가 함께 맞물릴 때만 의미 있는 성능 개선이 나온다.

📢 섹션 요약 비유: 동종 멀티코어가 같은 크기의 승용차 여러 대를 늘어세운 차고라면, 이기종 컴퓨팅은 승용차·버스·오토바이·지게차를 함께 둔 차고와 같다. 탈것이 다양할수록 일은 잘 맞춰서 할 수 있지만, 누가 어떤 차를 언제 써야 하는지는 더 똑똑하게 결정해야 한다.

Ⅳ. 실무 적용 및 기술사 판단

실무에서는 "가속기를 썼다"보다 "가속이 실제로 이득인가"를 먼저 따져야 한다. 작업이 너무 작거나 분기 처리가 많으면, GPU나 NPU에 넘기는 순간 오히려 호출 비용과 복사 비용이 더 커질 수 있다. 따라서 반복량이 충분히 크고 데이터 형태가 규칙적이며, 병렬성이 높을 때 오프로딩 효과가 잘 나온다.

예를 들어 실시간 영상 분석 파이프라인에서는 CPU가 프레임 수집과 제어를 맡고, GPU가 전처리와 렌더링을, NPU가 객체 추론을 맡도록 분리할 수 있다. 이때도 프레임마다 CPU↔GPU↔NPU 사이에서 메모리 복사가 반복되면 지연시간이 폭증한다. 그래서 실무 최적화는 커널 성능 조정보다 버퍼 재사용, 배치 처리, 비동기 스트림, 연산자 융합처럼 데이터 이동을 줄이는 쪽에서 성과가 더 크게 나는 경우가 많다.

실무 판단 체크리스트

연산 시간이 데이터 복사 시간보다 충분히 큰가?
대상 가속기가 필요한 연산자와 데이터 타입을 실제로 지원하는가?
CPU, GPU, NPU 사이에 폴백 경로가 생길 때 지연 폭증이 없는가?
공유 메모리 구조라면 대역폭 경쟁과 캐시 일관성 비용을 감당할 수 있는가?
프로파일링 도구로 병목이 계산인지, 이동인지, 동기화인지 확인했는가?

대표 안티패턴

가능한 모든 작업을 무조건 GPU에 넘기는 설계
지원하지 않는 연산자가 섞여 CPU 폴백이 반복되는 AI 모델 배포
작은 배치 크기로 장치 호출 오버헤드만 키우는 구현
장치 간 동기화를 과도하게 넣어 비동기 처리 이점을 없애는 코드

기술사 관점에서는 "무엇을 가속할 것인가"와 함께 "무엇은 CPU에 남겨야 하는가"를 구분해 말해야 한다. 제어 흐름이 복잡하고 예외 처리가 많은 영역은 여전히 CPU가 유리하며, 규칙적인 대량 데이터 처리만 가속기로 보내는 것이 일반적으로 안정적이다. 결국 좋은 이기종 설계는 자원을 많이 쓰는 설계가 아니라, 가장 비싼 병목을 정확히 겨냥하는 설계다.

📢 섹션 요약 비유: 이기종 컴퓨팅 운영은 식당 주방 배치와 같다. 면 삶기 기계가 빠르다고 해서 주문 확인과 손님 응대까지 기계에 맡기면 오히려 혼란만 커진다. 각 장비가 잘하는 일만 맡기고 재료 이동 동선을 줄여야 진짜 회전율이 오른다.

Ⅴ. 기대효과 및 결론

이기종 컴퓨팅의 가장 큰 효과는 성능 자체보다 성능 대비 전력 효율 개선이다. 같은 전력 예산에서 더 많은 연산을 처리할 수 있고, 같은 응답시간 목표를 더 낮은 열과 비용으로 달성할 수 있다. 그래서 스마트폰의 온디바이스 AI, 자율주행 센서 처리, 대규모 데이터센터 추론 서비스가 모두 이 구조를 적극 활용한다.

하지만 한계도 분명하다. 프로그래밍 모델이 복잡해지고, 하드웨어 종속성이 커지며, 디버깅과 성능 분석이 어려워진다. 또한 가속기가 늘수록 메모리 일관성, 스케줄링 정책, 보안 격리 문제도 함께 커진다. 따라서 이기종 컴퓨팅은 만능 해법이 아니라, 워크로드가 충분히 크고 반복적일 때 가장 빛나는 선택지다.

앞으로의 확장 방향은 세 가지로 볼 수 있다. 첫째, 칩 내부에서는 CPU·GPU·NPU 간 메모리 공유와 일관성 지원이 더 강해질 것이다. 둘째, 칩 외부에서는 CXL (Compute Express Link) 기반 자원 공유로 서버 단위 이기종 구성이 확대될 것이다. 셋째, 소프트웨어 측면에서는 하나의 프레임워크가 여러 장치를 자동 배치하는 런타임 추상화가 더 중요해질 것이다.

결국 이기종 컴퓨팅은 "프로세서를 많이 모은 기술"이 아니라, "워크로드의 성격에 맞춰 가장 적절한 계산 방식을 배치하는 시스템 사고"로 기억해야 한다. 계산 능력의 중심이 단일 코어에서 협업 구조로 이동했다는 점이 이 개념의 본질이다.

📢 섹션 요약 비유: 이기종 컴퓨팅은 좋은 스포츠 팀 운영과 같다. 스타 선수 한 명에게 모든 포지션을 맡기는 대신, 공격수·수비수·골키퍼가 각자 제 역할을 하게 할 때 시즌 전체 성적이 좋아진다.

📌 관련 개념 맵

개념	연결 포인트
오프로딩 (Off-loading)	CPU가 특정 작업을 가속기로 넘겨 전체 처리 시간을 줄이는 실행 전략
UMA (Unified Memory Architecture)	CPU와 가속기가 메모리 복사 비용을 줄이도록 돕는 통합 메모리 구조
HSA (Heterogeneous System Architecture)	이기종 자원 간 주소 공간 공유와 프로그래밍 모델 통합을 지향하는 구조
칩렛 (Chiplet)	서로 다른 기능 블록을 패키지 수준에서 결합해 이기종 구성을 확장하는 방식
스케줄링 (Scheduling)	어떤 작업을 어느 장치에 배치할지 결정해 효율을 좌우하는 핵심 정책
폴백 (Fallback)	가속기 미지원 연산이 CPU로 되돌아가며 성능 저하를 일으키는 현상

📈 관련 키워드 및 발전 흐름도

범용 CPU 중심 처리
    │
    ▼
GPU · DSP 기반 부분 가속
    │
    ▼
SoC (System on Chip) 통합 이기종 구조
    │
    ▼
UMA (Unified Memory Architecture) · HSA (Heterogeneous System Architecture)
    │
    ▼
NPU (Neural Processing Unit) 중심 AI 가속
    │
    ▼
Chiplet · CXL (Compute Express Link) 기반 확장형 이기종 인프라

이 흐름은 "범용 처리 → 부분 가속 → 칩 내부 통합 → 메모리 공유 강화 → 랙 단위 확장"으로 이기종 컴퓨팅의 초점이 이동해 온 과정을 보여준다.

👶 어린이를 위한 3줄 비유 설명

이기종 컴퓨팅은 공부, 그림, 달리기를 모두 한 명에게 시키지 않고 잘하는 친구에게 각각 맡기는 것과 같아요.
수학은 수학 잘하는 친구가, 그림은 그림 잘하는 친구가 하면 더 빨리 끝나고 힘도 덜 들어요.
하지만 공책을 서로 자꾸 주고받느라 시간이 오래 걸리면 소용없어서, 같이 쓰는 책상을 잘 만드는 것도 중요해요.