456. 이중화 (Dual Redundancy)

핵심 인사이트 (3줄 요약)

본질: 이중화 (Dual Redundancy)는 핵심 부품을 두 벌로 구성해 하나가 고장 나도 다른 하나가 서비스를 이어받게 만드는 구조이며, 목표는 장비 강화가 아니라 단일 장애점 제거다.

가치: 두 자원이 독립적으로 배치되고 장애 감지·절체가 빠를수록 가용성 (Availability)은 크게 올라가며, 전원·네트워크·프로세서·스토리지 전 계층의 신뢰성이 함께 개선된다.

판단 포인트: 단순히 2개를 두는 것만으로는 충분하지 않으며, 상태 동기화, 고장 검출, 스플릿 브레인 (Split-Brain) 방지, 공통 원인 장애 분리가 설계 성패를 가른다.

Ⅰ. 개요 및 필요성

이중화 (Dual Redundancy)는 시스템의 핵심 기능을 수행하는 자원을 둘로 복제하여, 한쪽의 장애가 전체 서비스 중단으로 번지지 않도록 만드는 신뢰성 설계다. 컴퓨터 구조 관점에서 이는 프로세서, 전원 공급 장치, 메모리 경로, 네트워크 링크, 저장장치처럼 장애 시 파급력이 큰 요소를 대상으로 한다. 핵심은 “더 튼튼한 부품 하나”가 아니라 “고장 나도 남는 구조 하나”를 만드는 데 있다.

이 개념이 필요한 이유는 현실의 장애가 반드시 부품 성능 부족에서만 오지 않기 때문이다. 전원 모듈 한 개의 쇼트, 스위치 한 대의 펌웨어 오류, 서버 한 대의 메인보드 손상처럼 작은 사건도 단일 경로만 존재하면 전체 정지로 이어진다. 그래서 고신뢰 시스템은 고장 확률을 0으로 만들려 하기보다, 고장이 발생해도 서비스가 계속되도록 경로를 이원화한다.

특히 서비스 가용성은 평균 고장 간격인 MTBF (Mean Time Between Failures)만으로 결정되지 않고 평균 복구 시간인 MTTR (Mean Time To Repair)에도 크게 좌우된다. 이중화는 고장 자체를 없애지 못해도, 장애 감지와 절체를 자동화해 MTTR을 극단적으로 낮춤으로써 체감 중단 시간을 줄인다. 즉 신뢰성 향상은 “부품 불멸”이 아니라 “장애 흡수”의 문제라는 점이 중요하다.

📢 섹션 요약 비유: 이중화는 외줄다리 대신 나란한 두 다리를 놓는 일과 같다. 한 다리에 금이 가도 다른 다리가 남아 있으면 사람들은 강을 계속 건널 수 있다.

Ⅱ. 아키텍처 및 핵심 원리

이중화의 핵심 원리는 복제된 자원 + 장애 감지 + 역할 전환의 3단계다. 두 자원을 단순 배치만 하면 예비 부품 창고에 불과하고, 실제 운용에서는 어느 쪽이 현재 서비스를 담당하는지, 장애를 어떤 신호로 판단하는지, 전환 후 데이터와 제어권을 어떻게 이어받는지가 함께 설계되어야 한다. 따라서 이중화는 하드웨어 수량 문제가 아니라 제어 메커니즘 문제다.

대표 구현은 Active-Standby와 Lockstep 기반 DMR (Dual Modular Redundancy)로 나뉜다. Active-Standby는 평소 주 장치가 일하고 예비 장치가 대기하다가 장애 시 절체하는 방식이고, Lockstep DMR은 두 연산 모듈이 같은 입력을 동시에 처리해 결과 불일치를 검출하는 방식이다. 전자는 서비스 연속성에, 후자는 연산 오류 검출에 강점이 있다.

아래 그림은 절체 제어가 가상 IP (Virtual IP, VIP)를 중심으로 어떻게 작동하는지 보여준다.

┌──────────────────────────────────────────────────────────────────────┐
│                  이중화의 기본 절체 흐름 (1-out-of-2)               │
├──────────────────────────────────────────────────────────────────────┤
│ 사용자 요청                                                         │
│     │                                                              │
│     ▼                                                              │
│ [가상 서비스 주소(VIP)]                                             │
│     │                                                              │
│     ├──────────────▶ [주 장치 A : Active] ──────────────┐           │
│     │                     ▲            │                │           │
│     │                     │ Heartbeat  │ 서비스 제공    │           │
│     │                     │            ▼                │           │
│     └──────────────▶ [예비 장치 B : Standby]            │           │
│                           │                             │           │
│                           └─ A 무응답 감지 ─▶ 역할 승계 ┘           │
│                                            │                        │
│                                            ▼                        │
│                                   [B가 새 Active]                   │
└──────────────────────────────────────────────────────────────────────┘

이 구조에서 가장 중요한 설계 포인트는 독립성과 검출 속도다. 두 장치가 같은 전원, 같은 스위치, 같은 랙, 같은 펌웨어 결함에 묶여 있으면 “2대”여도 사실상 하나와 다르지 않다. 또한 하트비트 (Heartbeat) 간격이 너무 짧으면 오탐이 늘고, 너무 길면 절체 시간이 길어져 중단 시간이 늘어난다.

요소	역할	설계 포인트
복제 자원	장애 시 대체 수행	전원·경로·물리 위치 독립성 확보
장애 검출기	고장 여부 판단	Heartbeat, 타임아웃, 헬스 체크 기준 튜닝
상태 동기화	세션·캐시·메타데이터 일관성 유지	동기식/비동기식 복제 선택
절체 제어	Active 전환 및 라우팅 변경	VIP 이동, 펜싱 (Fencing), 재진입 제어

이중화의 정량 직관도 중요하다. 각 장치의 가용성을 A라고 할 때, 서로 독립인 두 경로 중 하나만 살아 있으면 서비스가 가능한 구조는 대략 1 - (1 - A)^2로 표현할 수 있다. 예를 들어 개별 장치 가용성이 0.99라면 이론상 조합 가용성은 약 0.9999가 되지만, 이는 공통 원인 장애가 없다는 강한 가정 위에서만 성립한다.

📢 섹션 요약 비유: 이중화는 릴레이 경주와 같다. 첫 주자가 넘어져도 두 번째 주자가 이미 준비돼 있어야 기록이 이어지며, 바통 전달 규칙이 없으면 선수 둘이 있어도 경기는 끝난다.

Ⅲ. 비교 및 연결

이중화를 제대로 이해하려면 “2개를 둔다”는 공통점 뒤에 숨어 있는 경계 차이를 봐야 한다. 같은 두 벌 구성이라도 목적이 서비스 지속인지, 오류 검출인지, 오류 교정인지에 따라 설계가 달라진다. 그래서 이중화는 RAID 1 (Redundant Array of Independent Disks 1), ECC (Error Correcting Code), 삼중화와 함께 비교해야 의미가 분명해진다.

구분	이중화 (Dual Redundancy)	RAID 1	TMR (Triple Modular Redundancy)
보호 대상	서버·전원·링크·모듈 전체	디스크 데이터 사본	연산 모듈 결과
기본 목적	서비스 지속 및 SPOF 제거	저장장치 장애 대비	단일 모듈 오류 마스킹
장애 처리	절체 또는 불일치 검출	미러 디스크로 지속 운용	다수결 투표로 즉시 교정
한계	두 결과가 다르면 누가 맞는지 단독 판단 어려움	논리 삭제·랜섬웨어는 같이 복제	비용·면적·전력 증가

특히 DMR은 TMR과 자주 혼동된다. DMR은 두 모듈의 출력 비교로 오류를 검출하는 데 강하지만, 두 출력이 다를 때 어느 쪽이 정답인지 스스로 결정하기 어렵다. 반면 TMR은 세 모듈 중 두 표를 얻은 결과를 선택해 오류를 가리는 대신, 면적과 전력 비용이 더 커진다. 따라서 안전 필수 제어계는 TMR을, 비용 민감하면서도 빠른 장애 탐지가 필요한 영역은 이중화를 선택하는 경우가 많다.

이중화는 운영체제와 네트워크, 데이터베이스와도 연결된다. 운영체제는 NIC (Network Interface Card) Teaming이나 Bonding으로 링크 이중화를 구현하고, 네트워크는 VRRP (Virtual Router Redundancy Protocol) 같은 가상 게이트웨이 절체를 제공한다. 데이터베이스는 복제와 자동 승격을 활용하지만, 잘못 설계하면 Split-Brain이 발생하므로 쿼럼 (Quorum)과 펜싱이 필수다.

📢 섹션 요약 비유: 이중화와 삼중화의 차이는 심판 수의 차이와 같다. 선수 둘만 뛰면 누가 반칙했는지 발견은 쉬워도 판정이 애매할 수 있지만, 심판이 한 명 더 있으면 다수결로 바로 판정을 내릴 수 있다.

Ⅳ. 실무 적용 및 기술사 판단

실무에서 이중화는 “장비를 두 대 샀다”로 끝나지 않고, 공통 원인 장애를 얼마나 끊어냈는지로 평가해야 한다. 같은 전원 라인에 연결된 듀얼 파워 서플라이는 정전 한 번에 같이 멈출 수 있고, 같은 버전의 펌웨어 버그는 액티브와 스탠바이를 동시에 쓰러뜨릴 수 있다. 따라서 물리 분리, 경로 분리, 운영 절차 분리가 함께 있어야 진짜 이중화가 된다.

또한 상태를 갖는 서비스는 절체 순간 데이터 정합성이 가장 큰 이슈다. 웹 계층은 세션을 외부 저장소에 두어 비교적 쉽게 Active-Active로 갈 수 있지만, 데이터베이스나 파일 시스템은 쓰기 충돌과 복제 지연을 고려해야 한다. 즉 무상태 서비스는 부하분산형 이중화가 쉽고, 상태 저장 서비스는 보수적인 Active-Standby와 명확한 승격 규칙이 더 안전하다.

설계 체크리스트

장애 감지는 몇 초 안에 해야 하며, 오탐 허용치는 어느 정도인가?
두 경로가 전원, 네트워크, 스토리지, 소프트웨어 버전까지 독립적인가?
절체 후 세션, 캐시, 쓰기 버퍼, 락 정보는 어떻게 복구하거나 포기할 것인가?
Split-Brain 방지를 위한 Quorum 또는 Fencing이 있는가?
정기적인 페일오버 리허설을 통해 실제 자동 전환이 검증되었는가?

대표 안티패턴

이중화 서버 두 대를 같은 랙, 같은 스위치, 같은 전원 분기에 연결하는 구성
예비 장치의 데이터 복제를 점검하지 않아 장애 시 오래된 상태로 승격되는 구성
절체 실험을 한 번도 하지 않아 문서상으로만 “고가용성”인 구성
RAID 1만 믿고 백업이 필요 없다고 오해하는 운영

기술사 답안 관점에서는 “무엇을 이중화할 것인가”보다 “무엇이 아직 단일 장애점으로 남아 있는가”를 짚는 문장이 중요하다. CPU (Central Processing Unit)는 이중화했지만 전원 분전반이 하나면 전체는 여전히 취약하다. 반대로 서비스 복구 목표 시간이 엄격한 금융·통신 환경에서는 비용이 더 들더라도 실시간 복제와 자동 절체를 선택해야 한다.

📢 섹션 요약 비유: 이중화는 우산 두 개를 챙기는 것이 아니라, 한 우산을 차에 두고 다른 우산을 사무실에 두는 일과 같다. 두 우산이 같은 장소에만 있으면 비 오는 순간 둘 다 못 쓰는 것과 같다.

Ⅴ. 기대효과 및 결론

잘 설계된 이중화는 장애를 “시스템 종료 사건”이 아니라 “내부 부품 교대 사건”으로 바꾼다. 그 결과 서비스 가용성이 높아지고, 유지보수 중에도 운영을 이어갈 수 있으며, 계획되지 않은 다운타임이 비즈니스 손실로 이어지는 위험이 크게 줄어든다. 특히 전원·네트워크·스토리지·프로세서 계층을 함께 이원화하면 단일 장애점 제거 효과가 누적된다.

하지만 이중화가 만능은 아니다. 동일한 설계 결함, 잘못된 배포, 악성 데이터 삭제, 랜섬웨어 감염처럼 두 경로를 동시에 오염시키는 사건에는 취약하다. 그래서 이중화는 백업, 재해 복구 (Disaster Recovery), 카나리 배포, 관측성 체계와 결합될 때 비로소 완성된다.

결국 이중화는 “두 대가 있으니 안전하다”는 수량 개념이 아니라, “하나가 실패해도 시스템 임무가 유지되도록 경계와 절차를 설계했다”는 구조 개념으로 기억해야 한다. 컴퓨터 구조에서의 신뢰성은 더 강한 부품을 찾는 경쟁보다, 실패를 견디는 아키텍처를 만드는 능력에서 나온다.

📢 섹션 요약 비유: 이중화는 예비 키를 하나 더 복사하는 것이 아니라, 집에 하나 두고 믿을 만한 사람에게 하나 맡겨 두는 전략과 같다. 열쇠 수보다 중요한 것은 위기 때 실제로 문을 열 수 있는 배치다.

📌 관련 개념 맵

개념	연결 포인트
SPOF (Single Point of Failure)	이중화가 제거하려는 직접 대상이며, 남아 있는 SPOF를 찾는 것이 설계 검토의 핵심이다.
Heartbeat	Active와 Standby 사이의 생존 확인 신호로, 검출 지연과 오탐률을 좌우한다.
Failover	장애 발생 후 서비스 역할을 예비 자원으로 넘기는 절차이며, MTTR 단축의 핵심 메커니즘이다.
DMR (Dual Modular Redundancy)	두 모듈의 동시 실행과 비교를 통해 오류를 검출하는 연산형 이중화다.
TMR (Triple Modular Redundancy)	DMR보다 비용이 크지만 다수결로 오류를 마스킹할 수 있어 안전 필수 계통에 적합하다.
RAID 1	저장장치 영역의 대표적 이중화 사례이지만, 백업과는 목적이 다르다.

📈 관련 키워드 및 발전 흐름도

단일 장비 의존
    │
    ▼
SPOF (Single Point of Failure) 인식
    │
    ▼
전원·링크·서버 이중화 (Dual Redundancy)
    │
    ├──▶ 서비스 절체형: Heartbeat → Failover → HA (High Availability)
    │
    └──▶ 연산 검출형: DMR (Dual Modular Redundancy) → Comparator
    │
    ▼
쿼럼·펜싱 기반 Split-Brain 방지
    │
    ▼
TMR · Geo-Redundancy · Self-Healing Architecture

이 흐름은 단순 복제에서 출발해, 자동 절체와 판정 로직을 거쳐, 더 넓은 분산 복원력 구조로 확장되는 방향을 보여준다.

👶 어린이를 위한 3줄 비유 설명

아주 중요한 일을 하는 로봇이 하나뿐이면 넘어졌을 때 일이 멈춰요.
그래서 똑같은 로봇을 하나 더 준비해 두고, 첫 로봇이 쉬면 둘째 로봇이 바로 일을 이어받게 해요.
하지만 두 로봇이 같은 콘센트에 꽂혀 있으면 같이 멈출 수 있으니, 떨어진 자리에서 따로 준비해야 진짜 안전해요.