375. 다중 프로세서 (Multiprocessor)

핵심 인사이트 (3줄 요약)

본질: 다중 프로세서 (Multiprocessor)는 두 개 이상의 프로세서가 하나의 시스템 안에서 메모리와 입출력 자원을 협력해 사용하는 공유 메모리 기반 병렬 처리 구조다.

가치: 단일 프로세서의 주파수 향상만으로는 해결되지 않는 처리량, 응답성, 장애 대응 문제를 작업 분산과 자원 중복으로 완화한다.

판단 포인트: 프로세서를 늘린다고 성능이 자동으로 선형 증가하지 않으며, 메모리 병목·캐시 일관성·운영체제 스케줄링이 함께 설계되어야 효과가 난다.

Ⅰ. 개요 및 필요성

다중 프로세서 (Multiprocessor)는 하나의 컴퓨터 시스템에 둘 이상의 프로세서를 두고, 이들이 공용 메모리와 입출력 자원을 나눠 쓰며 병렬로 작업하는 구조다. 핵심은 "프로세서를 여러 개 둔다"는 사실보다, 하나의 시스템 이미지처럼 동작하게 만든다는 점에 있다. 사용자는 한 대의 서버를 쓰지만, 내부에서는 여러 프로세서가 동시에 스레드와 프로세스를 분담한다.

이 구조가 필요해진 이유는 단일 프로세서 성능 향상이 발열, 전력, 배선 지연의 한계에 부딪혔기 때문이다. 클럭만 계속 높이면 지연시간은 줄 수 있어도 소비전력과 냉각 비용이 급격히 늘고, 특정 시점부터는 성능 대비 효율이 나빠진다. 그래서 시스템 설계는 "더 빠른 한 개"에서 "적절한 여러 개"로 무게중심을 옮겼다.

특히 서버, 데이터베이스, 가상화 환경처럼 동시에 많은 요청을 처리해야 하는 분야에서는 처리량 (Throughput)과 가용성 (Availability)이 더 중요하다. 한 프로세서가 모든 일을 떠안는 구조에서는 문맥 교환과 대기열이 커지지만, 다중 프로세서는 일을 여러 실행 주체에 나눠 응답 지연을 줄일 수 있다. 또한 일부 프로세서에 장애가 나도 전체 시스템이 즉시 정지하지 않도록 설계하기가 상대적으로 유리하다.

이 그림은 다중 프로세서가 왜 "작업 분산"과 "공유 자원 조정"을 동시에 요구하는지 보여준다.

┌──────────────────────────────────────────────────────────────────────┐
│        단일 성능 한계 이후의 선택: 더 빠른 1개 → 협력하는 여러 개        │
├──────────────────────────────────────────────────────────────────────┤
│ 요청 폭증                                                            │
│   │                                                                  │
│   ├─ 단일 프로세서: [CPU] ─────────▶ [공유 작업 처리] ─▶ 대기열 증가     │
│   │                                                                  │
│   └─ 다중 프로세서: [CPU0][CPU1][CPU2][CPU3] ─▶ 작업 분산 ─▶ 처리량 향상 │
│                                     │                                │
│                                     └─ 단, 메모리/버스 조정 필요      │
└──────────────────────────────────────────────────────────────────────┘

즉 다중 프로세서는 단순한 하드웨어 증설이 아니라, 병렬성 확보와 공유 자원 통제라는 두 과제를 함께 해결하기 위해 등장한 구조다.

📢 섹션 요약 비유: 한 명의 초고속 계산원에게 줄을 길게 세우는 대신, 여러 계산원이 같은 장부를 보며 창구를 나눠 맡는 은행과 같다. 다만 창구가 늘어나면 장부를 동시에 볼 규칙도 같이 필요하다.

Ⅱ. 아키텍처 및 핵심 원리

다중 프로세서의 핵심 원리는 공유 메모리 + 병렬 실행 + 일관성 유지다. 여러 프로세서가 같은 주소 공간을 바라보면 프로세서 간 통신은 빨라지지만, 같은 데이터를 서로 다른 시점에 읽고 쓰는 문제가 생긴다. 그래서 하드웨어는 버스 중재, 캐시 일관성, 인터럽트 분배를 담당하고, 운영체제는 스케줄링과 동기화를 담당한다.

대표 구조는 비대칭 다중 처리 (Asymmetric Multiprocessing, ASMP)와 대칭 다중 처리 (Symmetric Multiprocessing, SMP)로 나뉜다. ASMP는 특정 프로세서가 제어를 맡고 나머지가 보조 역할을 수행하는 방식이며, SMP는 모든 프로세서가 대체로 동등한 권한으로 커널과 메모리에 접근한다. 현대 범용 서버는 대부분 SMP를 기본 모델로 삼는다.

구조	핵심 특징	장점	병목/주의점
ASMP (Asymmetric Multiprocessing)	마스터-슬레이브 역할 분리	제어 구조 단순	마스터 과부하, 단일 장애점 우려
SMP (Symmetric Multiprocessing)	프로세서가 대등하게 OS 자원 공유	자원 활용 유연, 확장 용이	캐시 일관성, 버스/메모리 경합
NUMA (Non-Uniform Memory Access) 기반 확장	메모리를 소켓 근처에 분산 배치	대규모 확장성 개선	원격 메모리 접근 지연 증가

이 그림은 SMP 계열 다중 프로세서에서 어디서 병목이 생기고 왜 캐시 일관성이 중요한지 보여준다.

┌──────────────────────────────────────────────────────────────────────┐
│                 SMP 다중 프로세서의 기본 데이터 경로                  │
├──────────────────────────────────────────────────────────────────────┤
│ [CPU0]   [CPU1]   [CPU2]   [CPU3]                                    │
│   │        │        │        │                                       │
│ [L1/L2]  [L1/L2]  [L1/L2]  [L1/L2]                                   │
│   └──┬─────┴──┬─────┴──┬─────┴──┬─── 공유 인터커넥트 ────────────────│
│      │        │        │        │                                    │
│      ├──────────────▶ [Main Memory]                                  │
│      │                                                                │
│      └─ 같은 주소를 각자 캐시에 보관하면                              │
│         한 CPU의 쓰기 결과를 다른 CPU 캐시에도 반영해야 함            │
└──────────────────────────────────────────────────────────────────────┘

프로세서 수가 적을 때는 하나의 공유 버스와 메모리로도 운영이 가능하지만, 수가 늘수록 메모리 대역폭 경쟁이 심해진다. 또한 CPU0이 어떤 값을 수정했는데 CPU1이 자기 캐시에 남아 있는 옛 값을 계속 읽으면 데이터 오류가 발생한다. 이를 막기 위해 메지 (Modified, Exclusive, Shared, Invalid, MESI) 같은 캐시 일관성 프로토콜과 동기화 명령이 필요하다.

또한 다중 프로세서는 플린 분류의 MIMD (Multiple Instruction stream, Multiple Data stream)에 해당하는 대표 사례다. 각 프로세서가 서로 다른 명령과 데이터를 처리할 수 있어 웹 서버, 데이터 분석, 가상 머신 호스팅처럼 독립 작업이 많은 환경에 특히 유리하다. 반면 메모리 공유가 많고 락 경쟁이 심한 프로그램은 코어 수가 늘어도 효율이 급격히 떨어질 수 있다.

📢 섹션 요약 비유: 여러 사람이 같은 화이트보드 내용을 각자 메모장에 적어 두고 일하는 상황과 같다. 누군가 원본을 고치면 다른 사람 메모장도 바로 맞춰 줘야 팀이 같은 정보를 본다.

Ⅲ. 비교 및 연결

다중 프로세서를 정확히 이해하려면 단일 프로세서, 멀티코어, 다중 컴퓨터 (Multicomputer)와의 경계를 구분해야 한다. 단일 프로세서는 제어가 단순하지만 병렬 처리 여지가 작고, 다중 프로세서는 공유 메모리 기반 협업이 쉬운 대신 일관성 비용을 치른다. 멀티코어는 물리 패키지 하나 안에 여러 코어가 있는 형태로 구현될 뿐, 논리적으로는 SMP형 다중 프로세서와 매우 가깝다.

다중 컴퓨터는 여러 노드가 네트워크로 연결되고 각자 독립 메모리를 가지는 약결합 구조다. 이 경우 공유 메모리 대신 메시지 전달을 사용하므로 프로그래밍 모델은 더 복잡해지지만, 노드 수를 크게 늘리기 쉽다. 즉 다중 프로세서는 낮은 지연시간과 쉬운 공유, 다중 컴퓨터는 높은 확장성에 강점이 있다.

비교 대상	메모리 구조	통신 방식	장점	한계
단일 프로세서	단일 실행 주체	내부 레지스터 중심	구조 단순	병렬성 부족
다중 프로세서	공유 메모리	공용 주소 공간 접근	지연시간 짧고 협업 쉬움	일관성·경합 비용
다중 컴퓨터	분산 메모리	메시지 전달	대규모 확장 용이	통신 지연, 개발 복잡

운영체제 관점에서는 SMP 스케줄러, 인터럽트 분배, 프로세서 친화성 (Processor Affinity)이 중요해진다. 소프트웨어 공학 관점에서는 락, 세마포어, 원자 연산 (Atomic Operation), 거짓 공유 (False Sharing)를 함께 이해해야 한다. 데이터베이스나 가상화 시스템은 이러한 하드웨어 특성 위에서 스레드 풀, NUMA 배치, 메모리 지역성을 최적화한다.

다중 프로세서는 결국 "공유가 쉬운 만큼 충돌도 쉽다"는 특성을 가진다. 그래서 소규모 고속 병렬 처리에는 매우 적합하지만, 수백·수천 노드 수준으로 가면 자연스럽게 클러스터와 분산 시스템으로 넘어간다. 이 연결 고리를 이해해야 SMP, NUMA, 클러스터링의 위치가 정리된다.

📢 섹션 요약 비유: 한 교실에서 책상을 붙여 앉아 같이 문제를 푸는 방식이 다중 프로세서라면, 여러 교실이 무전기로 결과를 주고받는 방식은 다중 컴퓨터다. 가까우면 말이 빠르지만, 사람이 너무 많아지면 교실을 나눠야 한다.

Ⅳ. 실무 적용 및 기술사 판단

실무에서 다중 프로세서를 도입할 때 가장 먼저 봐야 할 것은 "업무가 정말 병렬화 가능한가"다. 웹 요청 처리, 가상화 호스트, 데이터베이스 읽기 부하처럼 독립 작업이 많은 서비스는 효과가 크다. 반대로 전역 락이 많은 레거시 애플리케이션, 단일 스레드 중심 프로그램, 메모리 대역폭에 묶인 워크로드는 프로세서를 늘려도 기대만큼 빨라지지 않는다.

특히 대형 서버에서는 NUMA 토폴로지를 무시하면 성능이 급락한다. 프로세서는 자기 소켓 가까운 메모리에 접근할 때 빠르고, 다른 소켓 메모리에 접근하면 인터커넥트를 건너야 하므로 지연이 커진다. 따라서 데이터베이스, 인메모리 캐시, 고성능 분석 엔진은 스레드와 메모리 할당을 같은 NUMA 노드에 붙이는 정책이 중요하다.

실무 판단 체크리스트

작업이 독립 요청 단위로 나뉘는가, 아니면 공유 상태 갱신이 많은가?
메모리 대역폭이 이미 포화 상태인가, 아니면 CPU 연산이 병목인가?
운영체제가 프로세서 친화성, 인터럽트 분산, NUMA 배치를 적절히 제어하는가?
락 경쟁, 캐시 라인 충돌, 거짓 공유를 프로파일링으로 확인했는가?

대표 안티패턴

코어 수만 보고 서버를 증설하고, 애플리케이션은 단일 스레드로 그대로 두는 경우
전역 큐 하나에 모든 작업자를 매달아 락 병목을 스스로 만드는 경우
가상 머신을 물리 소켓 경계를 넘나들게 배치해 원격 메모리 접근을 늘리는 경우

이 그림은 프로세서를 늘렸는데 성능이 기대만큼 오르지 않을 때 무엇을 먼저 의심해야 하는지 보여준다.

┌──────────────────────────────────────────────────────────────────────┐
│              코어 증설 후 성능 정체 시 점검 흐름                     │
├──────────────────────────────────────────────────────────────────────┤
│ 코어 수 증가 후 성능 미미                                              │
│   │                                                                  │
│   ├─ 락 경쟁 높음? ────── Yes ─▶ 동기화 구조 분해                    │
│   │                                                                  │
│   ├─ 메모리 대역폭 포화? ─ Yes ─▶ NUMA/메모리 배치 재설계            │
│   │                                                                  │
│   ├─ 캐시 일관성 트래픽 과다? ─ Yes ─▶ 데이터 배치·False Sharing 점검 │
│   │                                                                  │
│   └─ 모두 아니면 ─────────────▶ 알고리즘 병렬화 한계 검토             │
└──────────────────────────────────────────────────────────────────────┘

기술사 관점에서는 "프로세서를 늘린다"가 답이 아니라, 어떤 병목이 병렬화 가능한 병목인지 판별하는 능력이 중요하다. 하드웨어 병렬성과 소프트웨어 병렬성이 함께 맞아야 실제 성능이 나온다.

📢 섹션 요약 비유: 직원을 더 뽑았는데도 일이 안 빨라지면, 사람 수보다 복사기 한 대를 모두가 기다리는 구조인지 먼저 봐야 한다. 다중 프로세서도 결국 병목 자원을 어떻게 나누느냐의 문제다.

Ⅴ. 기대효과 및 결론

다중 프로세서는 단일 프로세서 시대의 성능 한계를 넘어, 현대 서버와 고성능 시스템의 기본 토대가 되었다. 병렬 실행을 통해 처리량을 높이고, 멀티태스킹 응답성을 개선하며, 일부 장애 상황에서 서비스 지속 가능성도 높일 수 있다. 특히 멀티코어 CPU와 대형 서버 플랫폼이 보편화되면서 다중 프로세서 개념은 특별한 장비가 아니라 일상적인 시스템 설계 요소가 되었다.

다만 다중 프로세서는 만능이 아니다. 프로세서 수가 늘수록 공유 메모리 경합, 캐시 일관성 유지 비용, 인터커넥트 복잡도가 함께 증가한다. 그래서 현대 시스템은 단순 SMP에서 끝나지 않고 NUMA, 칩렛 (Chiplet), 온칩 네트워크 (Network-on-Chip, NoC)처럼 더 세분화된 연결 구조로 발전하고 있다.

기억해야 할 핵심은 다중 프로세서가 "CPU를 많이 꽂은 컴퓨터"가 아니라, 공유 자원을 관리하며 병렬성을 실질 성능으로 바꾸는 구조라는 점이다. 결국 좋은 다중 프로세서 설계는 프로세서 개수보다 데이터 이동, 메모리 지역성, 동기화 비용을 얼마나 잘 통제하느냐로 결정된다.

📢 섹션 요약 비유: 선수 수를 늘린다고 팀이 강해지는 것이 아니라, 패스 동선과 역할 분담이 맞아야 이기는 경기와 같다. 다중 프로세서도 협업 규칙이 성능을 만든다.

📌 관련 개념 맵

개념	연결 포인트
SMP (Symmetric Multiprocessing)	현대 범용 다중 프로세서의 대표 운영 모델로, 프로세서가 대등하게 자원을 공유한다.
NUMA (Non-Uniform Memory Access)	다중 프로세서 확장 시 메모리 병목을 줄이기 위해 접근 지연을 지역성 기반으로 나눈 구조다.
캐시 일관성 (Cache Coherence)	여러 프로세서의 캐시가 같은 메모리 값을 다르게 보지 않도록 유지하는 핵심 메커니즘이다.
MIMD (Multiple Instruction stream, Multiple Data stream)	다중 프로세서가 속하는 대표 병렬 처리 분류로, 각 프로세서가 독립 명령과 데이터를 다룬다.
프로세서 친화성 (Processor Affinity)	운영체제가 스레드를 특정 프로세서에 가깝게 유지해 캐시 적중률과 지역성을 높이는 기법이다.

📈 관련 키워드 및 발전 흐름도

단일 프로세서 성능 향상
    │
    ▼
SMP (Symmetric Multiprocessing) 기반 다중 프로세서
    │
    ├─ 공유 메모리 확대
    │      ▼
    │   캐시 일관성 (Cache Coherence) · 동기화 문제
    │
    └─ 프로세서 수 증가
           ▼
        NUMA (Non-Uniform Memory Access)
           │
           ▼
칩렛 (Chiplet) · 온칩 네트워크 (Network-on-Chip, NoC)

이 흐름은 "프로세서 추가 → 공유 비용 증가 → 지역성 기반 확장"으로 진화한 방향을 보여준다.

👶 어린이를 위한 3줄 비유 설명

다중 프로세서는 숙제를 혼자 하는 대신 여러 친구가 한 책상을 같이 쓰며 나눠 푸는 것과 같아요.
친구가 많아지면 더 빨리 끝날 수 있지만, 같은 연필과 공책을 같이 쓰는 규칙이 꼭 필요해요.
그래서 중요한 건 친구 수만 늘리는 것이 아니라, 누가 무엇을 맡고 어떻게 같이 쓸지 정하는 거예요.