626. 재해 복구 시스템 (DRS) 스토리지 미러링

핵심 인사이트 (3줄 요약)

본질: 재해 복구 시스템 (DRS, Disaster Recovery System) 스토리지 미러링은 주 센터의 쓰기 데이터를 원격 센터에 복제해, 건물 단위 재난에서도 서비스 재개의 기반 데이터를 남기는 기술이다.

가치: 이 기술은 디스크 고장에 대응하는 RAID보다 보호 범위가 넓으며, 랙·전원·데이터센터 전체 장애를 견디는 지리적 복원력을 만든다.

판단 포인트: 동기식 (Synchronous) 미러링은 지연과 거리 제한을 감수하는 대신 RPO 0에 가깝고, 비동기식 (Asynchronous) 미러링은 성능과 장거리를 확보하는 대신 데이터 유실 가능성을 받아들인다.

Ⅰ. 개요 및 필요성

재해 복구 시스템 (DRS, Disaster Recovery System)은 화재, 침수, 광역 정전, 통신 두절처럼 데이터센터 전체가 멈추는 사고를 전제로 설계한 복구 체계다. 이때 핵심이 되는 하드웨어 기술이 스토리지 미러링 (Storage Mirroring)이다. 즉 운영 중인 주 센터의 데이터를 멀리 떨어진 보조 센터에도 거의 같은 시점으로 복제해 두어, 서비스 재개에 필요한 저장 기반을 잃지 않게 만든다.

이 개념이 필요한 이유는 서버 내부 이중화만으로는 건물 수준 재난을 막지 못하기 때문이다. RAID, 이중 전원공급장치, 듀얼 스위치는 같은 랙이나 같은 데이터센터 안의 고장에는 강하지만, 센터 자체가 정전되거나 폐쇄되면 함께 영향을 받는다. 따라서 고가용성 (HA, High Availability)이 "같은 장소 안에서 안 멈추는 구조"라면, DRS는 "장소가 사라져도 다시 시작할 수 있는 구조"라고 볼 수 있다.

스토리지 미러링이 없으면 원격지에 서버가 남아 있어도 최신 데이터가 없다. 결국 운영자는 오래된 백업을 찾아 복구해야 하고, 그만큼 목표 복구 시점 (RPO, Recovery Point Objective)과 목표 복구 시간 (RTO, Recovery Time Objective)이 동시에 악화된다. 그래서 DRS의 본질은 원격 센터에 장비를 두는 것이 아니라, 주 센터의 쓰기 흐름을 어디까지 원격에 복제할 것인가를 정하는 데 있다.

📢 섹션 요약 비유: DRS 미러링은 집에 금고 하나 더 두는 것이 아니라, 다른 동네 은행 금고에 내 통장 내용을 계속 복사해 두는 것과 같다. 집이 불타도 다른 곳에서 바로 잔액을 확인할 수 있어야 진짜 대비가 된다.

Ⅱ. 아키텍처 및 핵심 원리

스토리지 미러링의 핵심 질문은 간단하다. "주 센터에 쓰기 요청이 들어왔을 때, 언제 완료 응답 (ACK, Acknowledgement)을 줄 것인가?" 이 답에 따라 동기식과 비동기식이 갈린다. 동기식은 원격 센터까지 반영된 뒤 ACK를 주고, 비동기식은 주 센터에만 먼저 반영한 뒤 나중에 원격으로 보낸다.

┌──────────────────────────────────────────────────────────────────────────┐
│             ACK timing decides latency, distance, and data loss          │
├──────────────────────────────────────────────────────────────────────────┤
│ Sync  : Host -> Primary -> WAN -> Secondary -> ACK -> Host              │
│ Async : Host -> Primary -> ACK -> Host                                  │
│                          └──── Journal / Queue ───▶ Secondary           │
└──────────────────────────────────────────────────────────────────────────┘

이 그림에서 보듯 동기식은 쓰기 지연시간에 네트워크 왕복시간 (RTT, Round Trip Time)이 직접 들어간다. 그래서 보통 수 ms 이하 지연과 비교적 짧은 거리의 메트로 구간에서 유리하다. 반면 비동기식은 주 센터 응답 경로에서 원격 WAN을 떼어 내기 때문에 성능과 거리에서 훨씬 유연하지만, 큐에 남아 아직 전송되지 않은 데이터가 있으면 장애 시 그 구간만큼 RPO가 생긴다.

구분	동기식 미러링	비동기식 미러링
ACK 시점	원격 센터 기록 후	주 센터 기록 직후
RPO	0에 근접	0보다 큼
지연 영향	WAN 왕복시간 직접 반영	주 센터 성능 위주
거리 제약	큼	작음
적합 업무	금융 거래, 계정 원장	쇼핑몰, 일반 업무 시스템

실제 구현에서는 단순 파일 복사보다 더 정교한 장치가 필요하다. 데이터베이스 로그와 데이터 파일처럼 여러 볼륨이 함께 움직이는 경우, 일관성 그룹 (Consistency Group)으로 쓰기 순서를 보존해야 복구 후 데이터가 맞는다. 또한 전송 중단 시를 대비한 저널링 (Journaling), 대역폭 부족 시 변경분 압축, 분할 뇌 (Split-Brain) 방지를 위한 위트니스 (Witness)도 함께 고려된다.

📢 섹션 요약 비유: 동기식은 두 권의 장부에 동시에 도장을 찍고 둘 다 확인받아야 다음 손님을 받는 방식이고, 비동기식은 먼저 앞 장부에만 기록하고 뒷장부는 점원이 틈날 때 옮겨 적는 방식과 같다.

Ⅲ. 비교 및 연결

스토리지 미러링은 백업, 스냅샷, RAID와 자주 혼동되지만 보호 목적이 다르다. 이 경계를 정확히 알아야 DRS를 과신하지 않는다.

기법	주 보호 범위	강점	한계
RAID	디스크 단위 고장	빠른 국소 복원	사이트 장애는 막지 못함
스냅샷 (Snapshot)	시점 복원	빠른 논리 복구	같은 스토리지 장애에는 취약
백업 (Backup)	장기 보관, 삭제·랜섬웨어 대응	과거 버전 보존	복구 시간이 길 수 있음
미러링 (Mirroring)	센터 장애 시 연속성	원격 최신본 확보	손상 데이터도 함께 복제될 수 있음

즉 미러링은 "서비스 연속성"에 강하고, 백업은 "과거로 돌아가기"에 강하다. 예를 들어 운영자가 실수로 테이블을 삭제하면 그 논리적 손상은 미러를 통해 반대편으로도 전파될 수 있다. 그래서 DRS 미러링이 있어도 불변 백업 (Immutable Backup)이나 시점 스냅샷은 별도로 필요하다.

또한 미러링 방식은 RPO와 RTO를 동시에 좌우한다. 동기식은 RPO를 줄이는 데 강하지만, 실제 복구에 필요한 서버 부팅·애플리케이션 기동·네트워크 절체까지 자동화되어 있지 않으면 RTO는 길 수 있다. 따라서 DRS 설계는 저장장치 복제만 보는 것이 아니라, 복제된 데이터를 실제 서비스로 이어 주는 전체 복구 체인과 함께 보아야 한다.

📢 섹션 요약 비유: 미러링은 현재 장면을 다른 카메라로 실시간 중계하는 것이고, 백업은 과거 방송을 녹화해 두는 것이다. 중계만 있다고 원하는 장면으로 되돌릴 수 있는 것은 아니다.

Ⅳ. 실무 적용 및 기술사 판단

실무에서는 업무 특성에 따라 미러링 방식을 나눈다. 계좌 이체나 증권 주문처럼 한 건의 손실도 민감한 시스템은 지연을 감수하고 메트로 거리 동기식을 검토한다. 반면 전국 쇼핑몰, 그룹웨어, 분석 시스템처럼 수 ms의 응답성이 중요한 업무는 비동기식이나 주기적 스냅샷 복제가 더 현실적일 수 있다.

기술사 관점에서 확인할 질문은 다음과 같다.

지연 예산이 충분한가? 동기식이면 왕복 지연이 애플리케이션 응답시간에 직접 들어온다.
대역폭이 피크 쓰기량을 감당하는가? 평시 평균이 아니라 배치·정산 시간대까지 봐야 한다.
일관성 그룹이 구성되었는가? 데이터 파일과 로그 파일이 따로 놀면 복구 후 DB가 깨질 수 있다.
위트니스와 절체 절차가 있는가? 링크 단절 시 양쪽 센터가 동시에 주 센터라고 주장하면 더 큰 장애가 된다.
미러 외에 백업이 있는가? 랜섬웨어·운영 실수·논리 손상은 미러만으로 막기 어렵다.

대형 환경에서는 3DC (3 Data Center) 전략도 자주 쓴다. 가까운 센터에는 동기식으로 무손실을 노리고, 먼 센터에는 비동기식으로 광역 재난까지 대비하는 방식이다. 이 구조는 비용이 크지만, 성능·RPO·지역 재난 대응을 동시에 만족시키려는 현실적 절충안이다.

📢 섹션 요약 비유: 중요한 계약서는 옆방 복사기 한 장만으로는 부족하다. 바로 옆 서랍에는 원본과 동시에 복사하고, 먼 지점 금고에는 약간 늦더라도 추가 사본을 보내 두는 방식이 더 안전하다.

Ⅴ. 기대효과 및 결론

DRS 스토리지 미러링을 잘 설계하면 데이터센터 전체 장애를 곧바로 서비스 종료로 받아들이지 않아도 된다. 원격 센터에 최신 데이터 기반이 남아 있으므로, 절체 자동화와 운영 훈련이 갖춰져 있다면 다운타임과 데이터 손실을 크게 줄일 수 있다. 특히 금융·공공·의료처럼 서비스 연속성이 규제나 신뢰와 직결되는 분야에서 효과가 크다.

다만 미러링은 공짜 안전장치가 아니다. 전용 회선 비용, 스토리지 컨트롤러 기능, 지연 증가, 운영 복잡도, 정기적인 DR 훈련이 함께 따라온다. 또한 애플리케이션이 다중 센터 쓰기 순서를 감당하지 못하면 하드웨어 미러링만으로는 일관성을 완벽히 보장하지 못한다.

앞으로는 연속 데이터 보호 (CDP, Continuous Data Protection), 스토리지 가상화, 클라우드 블록 복제, 분산 데이터베이스 합의 프로토콜이 미러링을 더 소프트웨어 정의 방식으로 바꾸고 있다. 그래도 핵심 기억법은 같다. DRS 미러링은 데이터를 복사하는 기능이 아니라, 원격지에서 어떤 시점의 쓰기를 완료로 인정할지 정하는 아키텍처 선택이다.

📢 섹션 요약 비유: 미러링은 거울 하나 더 놓는 일이 아니라, 멀리 떨어진 곳에서도 같은 장부를 믿고 영업을 계속할 수 있게 만드는 원격 분신술과 같다.

📌 관련 개념 맵

개념	연결 포인트
RAID (Redundant Array of Independent Disks)	로컬 디스크 장애를 막지만 센터 장애까지는 보호하지 못한다
동기식 복제 (Synchronous Replication)	원격 반영 후 ACK를 주어 낮은 RPO를 만든다
비동기식 복제 (Asynchronous Replication)	지연과 거리 부담을 줄이는 대신 데이터 손실 창을 남긴다
위트니스 (Witness)	분할 뇌 상황에서 어느 쪽이 주 센터인지 판단을 돕는다
목표 복구 시점 (RPO, Recovery Point Objective)	미러링 방식 선택의 핵심 기준이 된다

📈 관련 키워드 및 발전 흐름도

로컬 디스크 이중화 (RAID)
    │
    ▼
원격 스냅샷 · 비동기 복제
    │
    ▼
메트로 구간 동기 미러링
    │
    ▼
3DC 하이브리드 DR 구조
    │
    ▼
CDP · 합의 기반 분산 저장 구조

이 흐름은 저장장치 보호가 "디스크 고장 대응"에서 "센터 장애 이후 서비스 지속"으로 확장되는 과정을 보여준다.

👶 어린이를 위한 3줄 비유 설명

중요한 공책을 한 권만 갖고 있으면, 집이 망가졌을 때 내용을 다 잃을 수 있어요.
그래서 다른 동네에도 같은 내용을 계속 적어 두면, 원래 공책이 없어져도 다시 시작할 수 있어요.
다만 멀리 있는 공책까지 바로 적으려면 느려지고, 나중에 적으면 조금 잃을 수도 있답니다.