벌크헤드 패턴 (Bulkhead Pattern)

핵심 인사이트 (3줄 요약)

배의 격벽(Bulkhead) 구조에서 유래하여, 시스템 리소스를 독립된 풀(Pool)로 분리하여 한 곳의 장애가 **전체 시스템으로 확산(Cascading Failure)**되는 것을 방지함.
마이크로서비스 간 통신 시 특정 서비스에 대한 요청 폭주나 장애가 다른 서비스의 가용성(Thread Exhaustion)에 영향을 주지 않도록 자원을 격리함.
**서킷 브레이커(Circuit Breaker)**와 함께 결합하여 분산 시스템의 회복 탄력성(Resiliency)을 강화하는 핵심 패턴임.

Ⅰ. 개요 (Context & Background)

마이크로서비스 아키텍처(MSA)에서는 수많은 서비스가 서로 연쇄적으로 호출되므로, 하나의 서비스 지연이 호출자의 스레드 풀을 점유하여 시스템 전체 마비를 초래할 수 있음.
이를 방지하기 위해 서비스별로 전용 스레드 풀이나 세마포어를 할당하여 장애의 **폭발 반경(Blast Radius)**을 최소화하는 전략이 필요함.

Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)

[ Bulkhead Pattern Architecture ]

    /-------------------------------------------\
    |  Client Requests (Inbound)                |
    \-------------------------------------------/
               |                |
    /----------v----------\ /---v-----------------\
    | Thread Pool A (Svc A)| | Thread Pool B (Svc B)|  <--- 리소스 격리 (Bulkhead)
    | [||||||||||]        | | [||||||||||]         |
    \---------------------/ \---------------------/
               |                |
    /----------v----------\ /---v-----------------\
    |  Service A (Healthy) | | Service B (DOWN!)   |
    \---------------------/ \---------------------/

* 결과: Service B의 장애가 Thread Pool B만 고갈시킬 뿐, Pool A를 사용하는 Service A는 정상 동작함.

스레드 풀 격리: 각 외부 서비스 호출에 대해 별도의 스레드 풀을 할당하여, 특정 서비스의 응답 지연이 전체 애플리케이션의 공용 스레드를 점유하지 못하게 함.
세마포어(Semaphore) 격리: 동시 요청 수를 제한하여 특정 서비스에 대한 과도한 부하를 사전에 차단함.
격벽 구조: 서비스별 물리적 서버 분리나 컨테이너 리소스 제한(cgroups)도 넓은 의미의 벌크헤드에 포함됨.

Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)

비교 항목	서킷 브레이커 (Circuit Breaker)	벌크헤드 (Bulkhead)
핵심 목적	장애 서비스로의 호출 조기 차단	장애 서비스로 인한 자원 고갈 방지
작동 원리	상태 전이 (Open, Closed, Half-open)	리소스 풀링 및 요청 수 제한
주요 효과	장애 전파 방지 및 자가 치유 시간 확보	시스템의 부분적 가용성(Partial Failure) 유지
결합 시너지	서킷이 열리기 전까지 벌크헤드가 자원을 보호함	벌크헤드가 임계치 도달 시 서킷이 빠르게 감지함

Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)

판단 지표: 외부 API 연동이 많고, 특정 서비스의 장애가 비즈니스 전체에 치명적인 영향을 줄 수 있는 임계 시스템(Critical System)에서 필수 도입함.
적용 전략: Netflix Hystrix나 Resilience4j와 같은 라이브러리를 활용하여 서비스 중요도에 따라 스레드 풀 크기와 큐 길이를 동적으로 설정해야 함.

Ⅴ. 기대효과 및 결론 (Future & Standard)

시스템의 **견고함(Robustness)**을 극대화하여 예기치 못한 장애 상황에서도 핵심 비즈니스 기능을 유지할 수 있음.
클라우드 네이티브 환경에서 '실패를 당연한 것(Failure is Inevitable)'으로 받아들이고 대처하는 아키텍처 설계의 표준으로 자리 잡음.

📌 관련 개념 맵 (Knowledge Graph)

상위 개념: 회복 탄력성 (Resiliency), 장애 감지 및 복구
관련 패턴: 서킷 브레이커, 타임아웃, 재시도(Retry)
구현 도구: Resilience4j, Hystrix, Envoy Proxy

👶 어린이를 위한 3줄 비유 설명

큰 배의 밑바닥에 '칸막이'를 여러 개 만드는 것과 같아요.
배의 한 군데에 구멍이 나서 물이 들어와도 칸막이가 있으면 그 칸만 물이 차고 배 전체는 가라앉지 않아요.
컴퓨터 프로그램도 장애가 났을 때 그 부분만 딱 막아서 전체가 고장 나지 않게 지키는 방법이에요.