686. 멀티패스 I/O (Multipath I/O)

핵심 인사이트 (3줄 요약)

본질: 멀티패스 I/O는 서버와 스토리지 사이에 두 개 이상의 물리적 경로를 구축하고, 이를 하나의 논리적 장치로 통합하여 가용성과 성능을 동시에 확보하는 데이터 전송 아키텍처이다.

가치: 단일 장애점(SPOF) 제거를 통한 서비스 연속성(BCP) 보장과 더불어, 여러 경로로 I/O를 분산시키는 부하 분산(Load Balancing)을 통해 스토리지 병목 현상을 해결한다.

판단 포인트: 경로 장애 시의 페일오버(Failover) 속도와 복구 후의 페일백(Failback) 정책, 그리고 RR(Round Robin) 또는 LQR(Least Queue Depth) 등 서비스 특성에 맞는 알고리즘 선정이 실무 역량의 핵심이다.

Ⅰ. 개요 및 필요성

1. 멀티패스 I/O의 정의

멀티패스 I/O (Multipath Input/Output)는 컴퓨터 프로세서와 데이터 스토리지 장치 간에 하나 이상의 물리적 경로를 사용하여 데이터 신뢰성을 높이고 성능을 최적화하는 기술이다. 서버의 HBA(Host Bus Adapter), 스위치, 케이블, 스토리지 컨트롤러 포트 중 어느 하나가 고장 나더라도 데이터 접근이 끊기지 않도록 논리적인 가상 경로를 형성한다.

2. 왜 멀티패스 I/O가 필요한가?

엔터프라이즈 환경에서 스토리지 접근 불능은 곧 서비스 중단을 의미한다.

결함 허용 (Fault Tolerance): 케이블 단선이나 스위치 고장 시 즉시 예비 경로로 전환하여 시스템 다운타임을 방지한다.
성능 확장 (Performance Scaling): 8Gbps 광섬유 채널 경로 두 개를 묶어 이론적으로 16Gbps에 가까운 대역폭을 확보할 수 있다.
유지보수의 유연성: 서비스 중단 없이 특정 스위치나 케이블을 교체하거나 펌웨어 업데이트를 수행할 수 있다.

3. 해결해야 할 문제: 장치 중복 인식

멀티패스 구성 시 OS는 동일한 디스크를 경로 개수만큼 별개의 물리 장치로 인식하게 된다. (예: /dev/sdb, /dev/sdc, /dev/sdd가 사실은 같은 LUN). 이를 방치하면 파일 시스템 마운트 오류나 데이터 파괴가 발생하므로, 이를 하나(예: /dev/mapper/mpatha)로 통합해주는 멀티패스 소프트웨어가 필수적이다.

📢 섹션 요약 비유: 멀티패스 I/O는 서울에서 부산까지 가는 고속도로가 여러 개인 것과 같다. 한 도로가 막히거나 공사 중이라도 다른 도로를 통해 물자를 보낼 수 있으며, 차가 많으면 여러 도로로 나누어 달려 빨리 도착하게 한다.

Ⅱ. 아키텍처 및 핵심 원리

1. 멀티패스 구성 요소 및 계층 구조

서버 내부의 운영체제 커널 계층에서 하부의 여러 물리적 경로를 관리한다.

      [ Application / File System ]
                    │
      [ Logical Device (/dev/mapper/mpath0) ] <── Multipath Software (DM-Multipath, PowerPath)
          ┌─────────┴─────────┐
    [ Path 1 ]          [ Path 2 ]             <── Physical Paths
    (HBA 1)             (HBA 2)
       │                   │
    [ SAN Switch A ]    [ SAN Switch B ]       <── Fabric Layer
       │                   │
    [ Port 1 ]          [ Port 2 ]             <── Storage Target Ports
          └─────────┬─────────┘
              [ Storage LUN ]

2. 핵심 작동 매커니즘

장치 식별: 각 경로를 통해 들어오는 디스크의 고유 ID (WWID, World Wide Identifier)를 대조하여 동일 장치임을 확인한다.
경로 상태 모니터링 (Path Checking): 주기적으로 '터보 쿼리'나 'SCSI Inquiry'를 보내 각 경로의 생존 여부를 체크한다.
I/O 스케줄링: 설정된 알고리즘(RR, Service-Time 등)에 따라 요청을 분산한다.
장애 처리 (Failover): 특정 경로 응답이 없으면 즉시 해당 경로를 'Failed' 처리하고 I/O를 정상 경로로 재라우팅한다.

3. 주요 스케줄링 알고리즘

알고리즘	특징	추천 시나리오
Round Robin (RR)	모든 경로에 순차적으로 I/O 배분	경로 간 성능이 균일할 때
Least Queue Depth	대기 중인 I/O가 가장 적은 경로 선택	경로 부하가 유동적일 때
Service Time	응답 속도가 가장 빠른 경로 우선	거리나 스위치 홉(Hop) 수가 다를 때
Active-Passive	특정 경로만 사용하다 장애 시 전환	하이엔드 스토리지가 아닌 보급형 스토리지

4. ALUA (Asymmetric Logical Unit Access)

현대 스토리지의 필수 기술로, 컨트롤러 간 내부 통신망을 통해 "지금 나에게 오는 경로가 더 빠르다(Active/Optimized)" 혹은 "나에게 오면 내부적으로 전달해야 하니 느리다(Active/Non-Optimized)"는 정보를 호스트에게 알려준다.

📢 섹션 요약 비유: 멀티패스 소프트웨어는 여러 개의 수도꼭지(경로)를 하나의 싱크대(논리 장치)로 연결하는 배관 시스템과 같다. 어느 한 배관이 터져도 물은 계속 나오며, 물을 많이 쓸 때는 모든 수도꼭지를 다 틀어 수압을 유지한다.

Ⅲ. 비교 및 연결

1. Multipath vs Teaming/Bonding (경계 비교)

네트워크 계층의 본딩과 스토리지 계층의 멀티패스는 유사해 보이지만 메커니즘이 다르다.

비교 항목	멀티패스 I/O (Multipath)	티밍/본딩 (NIC Teaming)
대상	블록 스토리지 (SAN, iSCSI)	네트워크 통신 (TCP/IP)
인식 단위	WWID 기반의 디스크 통합	IP/MAC 기반의 인터페이스 통합
계층	SCSI / 블록 레이어	이더넷 / 링크 레이어
장애 감지	SCSI 명령어 응답 기반	링크 비트/ARP 응답 기반

2. 가상화 환경(VMware/Hyper-V)과의 연결

가상화 환경에서는 하이퍼바이저 자체가 강력한 멀티패싱 모듈(NMP, PSA)을 내장한다. 특히 VM 모빌리티(vMotion 등)가 활성화된 환경에서는 공유 스토리지의 경로 안정성이 VM의 생존과 직결되므로 가장 보수적으로 설계되는 영역이다.

3. NVMe-oF와의 연결

차세대 규격인 NVMe over Fabrics에서는 **ANA (Asymmetric Namespace Access)**라는 규격을 통해 ALUA와 유사한 다중 경로 최적화를 수행한다. 지연 시간이 극도로 짧은 NVMe 환경에서는 멀티패스 소프트웨어의 처리 오버헤드조차 성능 병목이 될 수 있어 하드웨어 가속 방향으로 발전 중이다.

📢 섹션 요약 비유: 멀티패스는 철도 선로를 여러 개 깔아 기차를 보내는 것이고, 티밍은 여러 차선을 합쳐 도로 대역폭을 넓히는 것이다. 둘 다 목표는 '막힘 없는 전송'이다.

Ⅳ. 실무 적용 및 기술사 판단

1. 실무 설계 시나리오: 격리된 패브릭 (Air-gapped Fabric)

진정한 고가용성을 위해서는 스위치 A와 스위치 B가 서로 물리적으로 연결되지 않아야 한다. 이를 'Fab-A', 'Fab-B'라고 부르며, 멀티패스 설정 시 호스트가 두 패브릭 모두를 통해 타겟에 연결되도록 구성하는 것이 정석이다.

2. 기술사적 판단: 장애 조치 (Troubleshooting)

I/O 지연(Latency)이 갑자기 증가한다면, 특정 경로에서 **플래핑(Flapping)**이 발생하는지 확인해야 한다. 경로가 죽었다 살았다를 반복하면 멀티패스 소프트웨어가 경로 전환에 자원을 과도하게 소모하여 시스템 전체가 느려질 수 있다. 이때는 문제가 되는 경로를 강제로 disable 시키는 판단이 필요하다.

3. 실무 체크리스트

HBA 펌웨어 호환성: 스토리지 매트릭스(Matrix)를 확인하여 OS 버전과 HBA 펌웨어가 멀티패스 소프트웨어와 맞는지 확인하라.
Queue Depth 설정: 여러 경로를 묶을 때 호스트 OS와 스토리지 포트의 큐 깊이가 넘치지 않도록 조정해야 한다.
페일백(Failback) 설정: 장애 복구 후 자동으로 경로를 복구할지(Immediate), 관리자가 수동으로 할지 서비스 안정성을 고려해 결정하라.

4. 안티패턴

동일한 물리 HBA의 포트 두 개만 사용하는 경우 (HBA 카드 자체가 고장 나면 전멸)
ALUA 미지원 스토리지에서 Active-Active 로드밸런싱을 강제 설정하는 경우 (트레스패스(Trespass) 발생으로 성능 폭락)
📢 섹션 요약 비유: 실무 설계에서의 멀티패스는 비행기 엔진을 두 개 다는 것과 같다. 하나로도 날 수는 있지만, 두 개를 동시에 써야 빠르고 안전하며, 하나가 꺼졌을 때 조종사가 당황하지 않고 대처할 수 있는 시스템이 갖춰져야 한다.

Ⅴ. 기대효과 및 결론

1. 도입의 기대효과

가용성 극대화: 99.999% 이상의 스토리지 가용성을 달성하기 위한 필수 조건이다.
성능 최적화: 특정 경로에만 몰리는 I/O를 분산시켜 응답 시간을 단축한다.
운영 안정성: 인프라 장애 시 자동 복구(Self-healing) 기능을 제공하여 관리자 개입을 최소화한다.

2. 한계 및 향후 전망

소프트웨어 정의 스토리지(SDS)와 하이퍼컨버지드 인프라(HCI)의 확산으로 물리적 FC 방식의 멀티패스보다는 **네트워크 기반의 다중 경로(Multi-path TCP 등)**나 분산 파일 시스템 자체의 복제 매커니즘으로 무게중심이 이동하고 있다. 하지만 블록 레벨의 전통적인 멀티패싱 원리는 여전히 클라우드 인프라 하부의 핵심 기술로 남아 있다.

3. 최종 결론

멀티패스 I/O는 인프라의 '혈관'을 다중화하는 작업이다. 단순한 연결을 넘어, 경로 간의 상태를 이해하고 최적의 길을 찾아주는 지능형 라우팅 기술로 이해해야 한다. 기술사는 물리 계층의 분리부터 소프트웨어 알고리즘의 특성까지 관통하는 통찰력을 가져야 한다.

📢 섹션 요약 비유: 좋은 멀티패스 시스템은 노련한 내비게이션과 같다. 사고 난 길은 피하고, 뻥 뚫린 길로 안내하며, 운전자가 모르는 사이에 안전하고 빠르게 목적지(데이터)까지 데려다준다.

📌 관련 개념 맵

개념	연결 포인트
ALUA	경로의 우선순위와 최적화 상태를 협상하는 프로토콜
WWID / WWN	경로 통합의 기준이 되는 고유 식별 주소
Failover / Failback	장애 시 경로 전환 및 복구 프로세스
LUN Masking	멀티패스 설정 전, 어떤 호스트에게 어떤 볼륨을 보일지 결정하는 단계
SAN (Fibre Channel)	멀티패스가 가장 활발하게 구현되는 물리 네트워크 인프라

👶 어린이를 위한 3줄 비유 설명

컴퓨터 엄마가 시장(스토리지)에 장을 보러 가는데, 가는 길이 두 개(멀티패스)예요.
한 길이 공사 중이라도 다른 길로 가서 맛있는 반찬(데이터)을 사 올 수 있어요.
만약 두 길이 다 뚫려 있으면 양손에 짐을 가득 들고 더 빨리 올 수도 있답니다.