61. 재해 복구 (DR) 모의 훈련 참관 - RTO/RPO 달성 점검

핵심 인사이트 (3줄 요약)

본질: DR (Disaster Recovery) 모의 훈련은 장애가 실제로 났을 때 대체 센터가 정말 살아나는지 확인하는 실전 검증이다.

가치: BCP (Business Continuity Plan)와 DRP (Disaster Recovery Plan)가 문서로만 존재하는지, 현장에서 실제로 돌아가는지 점검한다.

판단: RTO (Recovery Time Objective)와 RPO (Recovery Point Objective)를 숫자로 측정해야 DR 품질을 말할 수 있다.

Ⅰ. 개요 및 필요성

재해 복구는 "백업이 있다"는 말만으로 끝나지 않는다. 실제 화재, 랜섬웨어, 전원 장애가 발생했을 때 서비스가 얼마나 빨리, 얼마나 적게 잃고 돌아오는지가 중요하다.

그래서 모의 훈련(Mock Drill)을 통해 주 센터와 DR 센터 간 전환 절차를 실제로 시험한다. 감리의 목적은 서류가 아니라 실행력을 확인하는 데 있다.

📢 섹션 요약 비유: 구명정이 있다고 믿는 것과, 진짜 바다에서 타 보게 하는 것은 다르다.

Ⅱ. 아키텍처 및 핵심 원리

주 센터
  ├─ 운영 DB
  ├─ 애플리케이션
  └─ 서비스 트래픽
        ↓ Failover
DR 센터
  ├─ 복제 DB
  ├─ 대기 시스템
  └─ 복구 절차

용어	의미
BCP (Business Continuity Plan)	업무 연속성 계획
DRP (Disaster Recovery Plan)	재해 복구 절차
Failover	주 센터에서 DR 센터로 전환
Failback	복구 후 원래 센터로 복귀
RTO	서비스 복구까지 허용되는 시간
RPO	허용 가능한 데이터 손실 시점

모의 훈련은 전원을 뽑는 수준까지 가지 않더라도, 데이터 복제, DNS 전환, 인증, 메시지 큐, 외부 연동까지 실제로 이어져야 의미가 있다.

📢 섹션 요약 비유: 비상문 위치만 외우는 게 아니라, 실제로 문을 열고 나가 보는 훈련이다.

Ⅲ. 비교 및 연결

DR 형태	비용	RTO	RPO
Hot Site	높음	매우 짧음	매우 짧음
Warm Site	중간	짧음	짧음
Cold Site	낮음	김	김

Hot Site는 거의 실시간 복제와 대기 자원을 두어 빠르지만 비싸다. Cold Site는 저렴하지만 복구에 오래 걸린다. 그래서 실제 설계는 서비스 중요도에 맞춰 타협한다.

📢 섹션 요약 비유: 예비 열쇠를 바로 손에 쥐고 있는지, 창고 어딘가에 묻어 두었는지의 차이다.

Ⅳ. 실무 적용 및 기술사 판단

체크리스트

훈련 시 실제 Failover가 이루어졌는가?
RTO와 RPO가 숫자로 측정되었는가?
외부 연동과 인증 절차까지 점검했는가?
복구 후 Failback 절차도 검증했는가?
보고서보다 증적 로그와 타임라인이 있는가?

안티패턴

문서 검토만 하고 실제 전환은 하지 않는 훈련
DB만 복제하고 앱/인증/연계를 빼먹는 설계
복구는 됐는데 원복(Failback)이 안 되는 설계
RTO/RPO 목표를 정하지 않고 "빠르게"만 말하는 설계

기술사 관점에서는 DR의 성패를 "복구 계획이 있다"가 아니라 "정해진 시간과 손실 한도 안에 복구되는가"로 판단해야 한다.

📢 섹션 요약 비유: 연습 경기에서 이기는 게 아니라, 진짜 경기에서 몇 분 안에 재정비할 수 있는지가 중요하다.

Ⅴ. 기대효과 및 결론

DR 모의 훈련은 장애 대응 체계를 현실화한다. 덕분에 조직은 위기 상황에서 더 빠르게 움직이고, 운영 리스크를 수치로 다룰 수 있다.

결국 DR 감리는 백업의 존재 여부가 아니라, 장애가 났을 때 다시 살아나는 힘을 검증하는 일이다.

📢 섹션 요약 비유: 연습장에서 넘어져도, 실제 경기장에서 다시 일어나는 방법을 확인하는 것이다.

어린이를 위한 3줄 비유 설명

불이 났을 때 다른 교실로 바로 옮겨 가는 연습이에요.
얼마나 빨리 옮기고, 얼마나 덜 잃는지 숫자로 확인해요.
그래야 진짜 사고 때도 당황하지 않아요.