61. 재해 복구 (DR) 모의 훈련 참관 및 감리

⚠️ 이 문서는 지진, 화재, 대형 해킹(랜섬웨어) 등으로 주 센터(운영 서버)가 완전히 마비되었을 때, 재해 복구 센터(DR 센터)로 서비스를 안전하고 신속하게 전환할 수 있는지 점검하는 DR 모의 훈련(Mock Drill)의 감리 지침과 핵심 지표를 다룹니다.

핵심 인사이트 (3줄 요약)

  1. 본질: "우리는 백업 시스템이 잘 구축되어 있습니다"라는 서류상의 주장(설계서)을 믿지 않고, 주 센터의 전원을 실제로 뽑았을 때(모의 훈련) 정말로 보조 센터에서 서비스가 살아나는지 두 눈으로 확인하는 실전 검증이다.
  2. 가치: 대형 사고가 터졌을 때 임원진과 엔지니어들이 우왕좌왕하지 않고 매뉴얼(BCP/DRP)에 따라 기계적으로 복구를 수행하여, 기업의 생존을 결정짓는 골든 타임을 사수하게 만든다.
  3. 기술 체계: 감리인은 훈련 과정 전체를 참관하며, 데이터 유실의 허용 한계치인 **RPO(목표 복구 시점)**와 서비스 중단 허용 시간인 **RTO(목표 복구 시간)**라는 두 가지 절대적인 지표가 목표치(SLA)를 달성했는지 초시계로 측정한다.

Ⅰ. 재해 복구 체계(DR) 감리의 필요성

돈을 들여 DR 센터를 지어놓고도 막상 사고가 터지면 먹통이 되는 경우가 허다하다.

  1. 문서와 현실의 괴리:
    • 백업망이 완벽하게 구성되었다고 보고받았으나, 실제 카카오 데이터센터 화재 사태 때처럼 이중화 스위치 하나가 작동하지 않아 며칠간 서비스가 마비되는 사태가 발생한다.
  2. 모의 훈련(Mock Drill)의 목적:
    • 매년 1~2회, 가장 트래픽이 적은 주말 새벽을 이용해 주 센터의 서비스망을 강제로 차단하고, 대기 중이던 재해 복구 센터(DR 센터)가 성공적으로 서비스를 이어받는(Failover) 전 과정을 리허설한다.
  3. 감리인의 역할 (참관인 및 평가자):
    • 훈련 시나리오가 현실성 있게 작성되었는지 사전 검토하고, 훈련 당일 현장에서 엔지니어들의 복구 절차가 매뉴얼(DRP)대로 한 치의 오차 없이 진행되는지 타이머를 들고 감시한다.

📢 섹션 요약 비유: 유람선에 최신식 구명정(DR 센터)을 비치해 두었다고 끝나는 것이 아니라, 감리원(해경)이 승선하여 비상벨을 눌러보고 선원들이 5분 안에 승객을 구명정에 완벽히 태울 수 있는지 직접 초시계로 재어보는 '비상 대피 훈련'과 같습니다.


Ⅱ. 감리의 핵심 지표: RTO와 RPO의 측정

감리인은 훈련 결과 보고서를 쓸 때 반드시 이 두 가지 숫자를 검증해야 한다.

  1. RPO (Recovery Point Objective, 목표 복구 시점):
    • "과거의 데이터를 어디까지 살려낼 수 있는가?"
    • 오후 2시에 서버가 터졌을 때, 오후 1시 59분 데이터까지 살렸다면 RPO는 '1분'이다. 금융권의 핵심 장부는 RPO가 '0초(데이터 유실 제로, 실시간 동기화)'여야 한다.
    • 감리인은 DR 센터에 복구된 최신 DB 레코드의 타임스탬프를 확인하여 RPO를 검증한다.
  2. RTO (Recovery Time Objective, 목표 복구 시간):
    • "서버가 죽은 뒤, 다시 켜질 때까지 몇 시간이 걸렸는가?"
    • 장애 발생 시점부터 관리자의 의사 결정, DNS 변경, DR 서버 구동 등 모든 과정이 끝나고 사용자가 정상적으로 웹사이트에 접속할 수 있게 될 때까지 걸린 시간이다.
    • 감리인은 훈련 시작 선언 시점부터 서비스 핑(Ping) 테스트 성공 시점까지의 시간을 측정해 RTO 목표치(예: 3시간 이내)를 지켰는지 평가한다.

📢 섹션 요약 비유: 노트북이 부서졌을 때(재해), 클라우드에 어제 자 백업본까지만 남아있어서 오늘 쓴 문서를 다 날렸다면 RPO(데이터 손실)는 '하루'입니다. 그리고 새 노트북을 사 와서 클라우드에서 파일을 다운받고 세팅을 마치는 데 3시간이 걸렸다면 RTO(업무 중단 시간)는 '3시간'입니다.


Ⅲ. 감리 중점 점검 사항 (Failover와 Failback)

가는 길(전환)만큼이나 돌아오는 길(복귀)도 중요하다.

  1. 의사결정 및 비상 연락망 점검:
    • 서버가 죽었을 때 실무자가 마음대로 DR 전환 스위치를 누를 수 없다. CEO 등 최고 경영진에게 즉각 보고되고 전환 승인이 떨어지기까지의 비상 연락망이 훈련 시나리오에 포함되어 있는지 점검한다.
  2. 업무 연속성 (BCP) 우선순위 점검:
    • 재해가 터졌을 때 사내 식당 메뉴판 앱까지 살릴 여력은 없다. 핵심 결제 시스템, 고객 원장 등 Tier 1 서비스가 가장 먼저 복구되도록 순서가 정의되어 있는지 감리한다.
  3. 페일백 (Failback) 절차 점검:
    • 훈련이 끝나고(또는 불난 주 센터가 복구되고) 임시로 쓰던 DR 센터에서 다시 원래의 주 센터로 서비스를 되돌리는 작업을 Failback이라고 한다. 이 과정에서 DR 센터에서 훈련(임시 운영) 기간 동안 발생한 새로운 데이터가 주 센터로 100% 무결하게 역동기화되었는지 검사한다.

📢 섹션 요약 비유: 집에 불이 나서 임시 대피소(DR)로 도망(Failover)가는 훈련도 중요하지만, 불을 다 끈 뒤에 대피소에서 짐을 싸서 다시 깨끗해진 원래 집으로 무사히 돌아오는(Failback) 절차까지 완벽해야 진정한 모의 훈련의 완성입니다.