560. 멀티코어 인터럽트 라우팅 (GIC: Generic Interrupt Controller, APIC: Advanced Programmable Interrupt Controller)

핵심 인사이트 (3줄 요약)

본질: 멀티코어 인터럽트 라우팅은 장치가 낸 인터럽트를 "어느 코어가 처리할지" 결정하는 분산 정책으로, 단순 전달이 아니라 코어 친화도, 우선순위, 현재 부하, 가상화 경계를 함께 고려하는 하드웨어 스케줄링 계층이다.

가치: 올바른 라우팅은 CPU0 병목을 줄이고, 네트워크 인터페이스 카드 (Network Interface Card, NIC)·스토리지 큐와 같은 데이터 경로를 같은 코어에 붙여 캐시 지역성, NUMA (Non-Uniform Memory Access) 효율, 처리량을 함께 높인다.

판단 포인트: 정적 pinning은 지터를 줄이지만 유연성이 떨어지고, 동적 balancing은 공평하지만 캐시 손실이 생길 수 있으므로, 워크로드 성격과 큐-코어 토폴로지를 맞춰 설계해야 한다.

Ⅰ. 개요 및 필요성

멀티코어 인터럽트 라우팅은 여러 CPU 코어 중 어떤 코어가 특정 인터럽트를 받을지 정하고 전달하는 메커니즘이다. 단일 코어 시대에는 "받을 사람"이 하나뿐이었지만, 멀티코어 시스템에서는 같은 장치라도 어느 코어에 보낼지에 따라 지연시간, 캐시 적중률, 전력 상태, 심지어 가상 머신 격리 수준까지 달라진다. 그래서 현대 인터럽트 컨트롤러는 배선 장치가 아니라 분산 처리 정책 엔진에 가깝다.

이 메커니즘이 중요한 이유는 인터럽트도 결국 작업이기 때문이다. 네트워크 카드가 초당 수백만 패킷을 올리는데 모든 인터럽트가 CPU0으로 몰리면, 다른 코어가 놀고 있어도 시스템은 한 코어에서 병목이 난다. 반대로 인터럽트를 매번 다른 코어로 무작위 분산하면 캐시와 NUMA 지역성이 깨져 처리량이 다시 떨어진다.

따라서 멀티코어 인터럽트 라우팅의 핵심 질문은 "어떻게 골고루 나눌까?"가 아니라 "어떤 인터럽트를 어느 코어에 붙여야 전체 데이터 경로가 가장 짧아지는가?"다. 이 관점이 있어야 GIC와 APIC를 단순 컨트롤러가 아니라 시스템 성능 구조의 일부로 이해할 수 있다.

📢 섹션 요약 비유: 멀티코어 인터럽트 라우팅은 대형 물류센터에서 택배를 어느 작업대에 보낼지 정하는 분류 시스템과 같다. 아무 데나 던지면 손이 비는 사람은 있어도, 포장지와 송장이 다른 곳에 흩어져 오히려 더 느려진다.

Ⅱ. 아키텍처 및 핵심 원리

멀티코어 인터럽트 경로는 보통 장치 측 발생, 중앙 분배, 코어별 수신, 그리고 필요 시 코어 간 인터럽트로 나뉜다. ARM 계열에서는 GIC Distributor와 Redistributor가, x86 계열에서는 I/O APIC와 Local APIC가 이 역할을 나눠 맡는다. PCIe 장치의 경우 MSI (Message Signaled Interrupt)나 MSI-X (Message Signaled Interrupt eXtended)가 특정 벡터를 써서 더 세밀한 큐-코어 매핑을 가능하게 한다.

구성 요소	역할	설계 포인트
Distributor / I/O APIC	외부 인터럽트 수집과 대상 코어 결정	우선순위, 대상 마스크, 보안/가상화 정책을 함께 관리한다.
Redistributor / Local APIC	각 코어 근처에서 인터럽트 수신과 활성 상태 관리	코어별 pending/active 상태를 빠르게 유지한다.
MSI / MSI-X	장치가 메모리 쓰기로 인터럽트를 알림	큐별 벡터 분리가 쉬워 다중 큐 NIC, NVMe (Non-Volatile Memory Express)에 유리하다.
IPI (Inter-Processor Interrupt)	코어가 다른 코어를 깨우거나 동기화	스케줄링, TLB (Translation Lookaside Buffer) shootdown, reschedule에 필수다.
Interrupt Remapping	장치 인터럽트를 VM/보안 도메인별로 재매핑	가상화·격리 보안의 핵심이다.

이 그림은 멀티코어 인터럽트가 왜 "한 번 배달하고 끝"이 아니라, 코어 지역성과 코어 간 협업까지 포함하는지 보여 준다.

┌──────────────────────────────────────────────────────────────────────────────┐
│ 멀티코어 인터럽트 경로: 장치 인터럽트는 분배기와 코어 로컬 인터페이스를 거친다 │
├──────────────────────────────────────────────────────────────────────────────┤
│ Device / MSI-X Vector                                                       │
│          │                                                                   │
│          ▼                                                                   │
│   Distributor / I/O APIC ── target mask / priority ──▶ Core Local IF        │
│          │                                                    │              │
│          ├─▶ Core 0                                           ├─▶ Core 1    │
│          ├─▶ Core 2                                           └─▶ Core N    │
│          │                                                                   │
│          └────────────── IPI / reschedule / TLB shootdown ───────────────▶  │
└──────────────────────────────────────────────────────────────────────────────┘

중요한 것은 데이터 경로와 인터럽트 경로를 맞추는 것이다. 예를 들어 16개의 수신 큐를 가진 NIC는 각 큐의 MSI-X 벡터를 해당 큐를 소비하는 코어에 붙일 때 가장 효율적이다. 반대로 인터럽트는 한 소켓, 실제 패킷 처리는 다른 소켓에서 하게 두면 캐시 라인 이동과 원격 메모리 접근이 늘어 지연이 커진다.

또한 모든 인터럽트가 외부 장치에서만 오는 것은 아니다. IPI는 스케줄러 재조정, TLB 무효화, 코어 기상 같은 운영체제 핵심 동작에 쓰이므로, 멀티코어 인터럽트 라우팅은 장치 입출력 (Input/Output, I/O)과 커널 내부 동기화를 함께 지탱한다.

📢 섹션 요약 비유: 이 구조는 공항의 수하물 분류기와 같다. 짐을 아무 컨베이어에나 올리는 것이 아니라, 최종 게이트와 환승 경로를 고려해 가장 짧은 루트로 보내야 전체 공항이 막히지 않는다.

Ⅲ. 비교 및 연결

멀티코어 라우팅 정책은 크게 정적 친화도, 동적 분산, 브로드캐스트 계열로 나눌 수 있다. 성능 차이는 단순히 "균등 분산" 여부보다, 인터럽트를 처리한 뒤 실제 작업이 같은 코어에서 이어지는지에 따라 결정된다. 그래서 가장 좋은 정책은 평균 부하가 아니라 핸들러 이후 데이터 처리 경로와 함께 봐야 한다.

정책	장점	약점	적합한 경우
정적 Affinity / Pinning	지터 작음, 캐시 지역성 우수	특정 코어 과부하 가능	실시간 제어, 고정 큐 매핑
동적 Load Balancing	코어 활용률 향상	캐시 미스, 예측성 저하	범용 서버, 변동 부하
Broadcast / Lowest Priority	구현 단순	불필요한 wake-up, 전력 낭비	제한적 특수 용도

아키텍처 측면에서는 ARM의 GIC와 x86의 APIC가 유사한 문제를 서로 다른 방식으로 푼다. GIC는 Distributor/Redistributor 계층으로 많은 코어를 다루고, APIC는 Local APIC와 I/O APIC, 최근에는 확장 APIC 모드(x2APIC)로 확장성을 확보한다. 둘 다 본질은 같지만, 서버 가상화와 보안 격리를 위해 interrupt remapping과 posted interrupt 같은 확장 기능이 붙으면서 단순 라우팅을 넘어섰다.

이 개념은 네트워크 Receive Side Scaling, 스토리지 멀티큐, NUMA 스케줄링과도 직접 연결된다. 인터럽트 라우팅만 잘해도 되는 것이 아니라, 패킷 처리 스레드·큐 메모리·장치 Direct Memory Access (DMA) 경로까지 같은 NUMA 노드에 놓여야 진짜 효과가 난다. 결국 인터럽트 라우팅은 CPU 내부 기술이면서 동시에 시스템 배치 전략이다.

📢 섹션 요약 비유: 정적 pinning이 같은 기사에게 같은 배송 구역을 맡기는 방식이라면, 동적 balancing은 그때그때 빈 기사에게 배송을 던지는 방식이다. 어느 쪽이 낫냐는 길 찾기 익숙함과 물량 변동성을 같이 봐야 결정된다.

Ⅳ. 실무 적용 및 기술사 판단

실무에서 가장 대표적인 사례는 고속 NIC와 NVMe 장치다. 100GbE NIC가 16개 수신 큐를 제공하면, 각 큐의 MSI-X 벡터를 같은 NUMA 노드의 코어 16개에 고정하고, 해당 큐를 읽는 소프트웨어 poll 루프 또는 사용자 스레드도 같은 코어 그룹에 묶는 편이 일반적이다. 이렇게 해야 인터럽트 처리, 패킷 파싱, 애플리케이션 소비가 한 코어 주변에서 이어져 캐시 재사용이 극대화된다.

반대로 실시간 시스템에서는 일반 I/O 인터럽트를 제어 루프 코어에서 아예 배제하는 것이 중요하다. 산업 제어기나 자동차 제어기에서 제어 코어에 네트워크 폭주 인터럽트가 섞이면 지터가 커지므로, housekeeping core를 따로 두고 그쪽으로 대부분의 장치 인터럽트를 몰아 주는 식의 격리가 흔하다. 즉 멀티코어 라우팅은 분산 기술이기도 하지만, 격리 기술이기도 하다.

적용 체크리스트

장치 큐, 처리 스레드, 메모리 할당이 같은 NUMA 노드/코어 그룹에 정렬되어 있는가?
실시간 코어와 일반 I/O 코어를 분리해 인터럽트 지터를 통제하고 있는가?
irqbalance 같은 자동 분산이 캐시 지역성을 깨지 않는지 측정했는가?
가상화 환경이라면 interrupt remapping과 posted interrupt 경로를 함께 고려했는가?
잦은 TLB shootdown IPI를 줄이기 위해 배치 무효화나 코어 지역화를 하고 있는가?

피해야 할 안티패턴

모든 인터럽트를 기본값 그대로 CPU0에 몰아두는 설정
네트워크 큐는 소켓 0에 있고 인터럽트는 소켓 1로 보내는 교차 NUMA 배치
실시간 코어에 housekeeping 인터럽트와 IPI를 무분별하게 허용하는 운영
평균 CPU 사용률만 보고 인터럽트 지연, cache miss, tail latency를 측정하지 않는 판단

기술사 답안에서는 멀티코어 인터럽트 라우팅을 "부하 분산"만으로 쓰면 부족하다. 반드시 affinity, locality, IPI, NUMA, 가상화 remapping까지 연결해야 실제 설계 의사결정으로 이어진다.

📢 섹션 요약 비유: 실무 인터럽트 라우팅은 주방 동선 설계와 같다. 재료, 조리사, 화구가 가까이 있어야 빠르지, 사람 수만 많다고 음식이 빨리 나오지는 않는다.

Ⅴ. 기대효과 및 결론

좋은 멀티코어 인터럽트 라우팅은 시스템을 더 균등하게 만드는 것이 아니라, 더 짧은 경로로 일하게 만든다. 그 결과 CPU 핫스팟이 줄고, 캐시 적중률과 처리량이 오르며, tail latency도 안정된다. 특히 네트워크·스토리지·가상화 환경에서는 이 차이가 체감 성능을 크게 좌우한다.

하지만 복잡도는 피할 수 없다. 코어 수가 많아질수록 라우팅 정책, IPI 폭발, 인터럽트 remapping 테이블, 보안 경계 관리가 함께 어려워진다. 따라서 단순히 인터럽트를 많이 뿌리는 것이 아니라, 무엇을 고정하고 무엇을 유동화할지 아키텍처 차원에서 정해야 한다.

앞으로는 장치가 더 직접적으로 코어 친화도를 표현하는 IMS (Interrupt Message Store), 가상 머신에 하이퍼바이저 개입을 줄이는 posted interrupt, 그리고 학습 기반 동적 배치가 더 중요해질 가능성이 있다. 그래도 본질은 같다. 멀티코어 인터럽트 라우팅은 "벨을 누구에게 울릴까"의 문제가 아니라, 시스템 전체 데이터 동선을 어떻게 설계할까의 문제다.

📢 섹션 요약 비유: 이 기술은 오케스트라에서 각 악보를 어떤 연주자 앞에 놓을지 정하는 일과 같다. 같은 악보라도 사람과 위치가 맞아야 전체 연주가 매끄럽게 이어진다.

📌 관련 개념 맵

개념	연결 포인트
Affinity	특정 인터럽트를 특정 코어에 묶어 지역성과 예측성을 높인다.
MSI-X	장치 큐별로 독립 벡터를 제공해 세밀한 코어 매핑을 가능하게 한다.
IPI	코어 간 재스케줄링과 TLB shootdown을 수행하는 내부 인터럽트다.
NUMA	인터럽트 대상 코어와 메모리/장치 위치를 함께 봐야 성능이 난다.
Interrupt Remapping	가상화와 보안 격리에서 장치 인터럽트 대상 재지정을 담당한다.
Redistributor / Local APIC	코어 근처에서 인터럽트 활성 상태를 관리하는 로컬 계층이다.

📈 관련 키워드 및 발전 흐름도

단일 코어 공유 IRQ
        │
        ▼
대칭형 다중처리 (Symmetric Multiprocessing, SMP)용 I/O APIC · GIC Distributor
        │
        ▼
MSI / MSI-X 기반 다중 큐 인터럽트
        │
        ▼
NUMA-aware Affinity · IPI 최적화
        │
        ▼
Interrupt Remapping · Posted Interrupt

이 흐름은 인터럽트가 단순 외부 신호에서 출발해, 점차 멀티코어·가상화·보안까지 고려하는 시스템 수준 배치 기술로 발전하는 과정을 보여 준다.

👶 어린이를 위한 3줄 비유 설명

컴퓨터 안에 일하는 사람이 여러 명이면, 누가 전화를 받을지 잘 정해야 해요.
같은 물건을 계속 다루는 사람에게 전화를 보내면 더 빨리 이해하고 처리할 수 있어요.
멀티코어 인터럽트 라우팅은 그래서 "아무나 받기"가 아니라 "가장 알맞은 사람이 받기"를 도와주는 장치예요.