핵심 인사이트 (3줄 요약)
- 본질: DR (Disaster Recovery) 모의 훈련은 장애가 실제로 났을 때 대체 센터가 정말 살아나는지 확인하는 실전 검증이다.
- 가치: BCP (Business Continuity Plan)와 DRP (Disaster Recovery Plan)가 문서로만 존재하는지, 현장에서 실제로 돌아가는지 점검한다.
- 판단: RTO (Recovery Time Objective)와 RPO (Recovery Point Objective)를 숫자로 측정해야 DR 품질을 말할 수 있다.
Ⅰ. 개요 및 필요성
재해 복구는 "백업이 있다"는 말만으로 끝나지 않는다. 실제 화재, 랜섬웨어, 전원 장애가 발생했을 때 서비스가 얼마나 빨리, 얼마나 적게 잃고 돌아오는지가 중요하다.
그래서 모의 훈련(Mock Drill)을 통해 주 센터와 DR 센터 간 전환 절차를 실제로 시험한다. 감리의 목적은 서류가 아니라 실행력을 확인하는 데 있다.
- 📢 섹션 요약 비유: 구명정이 있다고 믿는 것과, 진짜 바다에서 타 보게 하는 것은 다르다.
Ⅱ. 아키텍처 및 핵심 원리
주 센터
├─ 운영 DB
├─ 애플리케이션
└─ 서비스 트래픽
↓ Failover
DR 센터
├─ 복제 DB
├─ 대기 시스템
└─ 복구 절차
| 용어 | 의미 |
|---|---|
| BCP (Business Continuity Plan) | 업무 연속성 계획 |
| DRP (Disaster Recovery Plan) | 재해 복구 절차 |
| Failover | 주 센터에서 DR 센터로 전환 |
| Failback | 복구 후 원래 센터로 복귀 |
| RTO | 서비스 복구까지 허용되는 시간 |
| RPO | 허용 가능한 데이터 손실 시점 |
모의 훈련은 전원을 뽑는 수준까지 가지 않더라도, 데이터 복제, DNS 전환, 인증, 메시지 큐, 외부 연동까지 실제로 이어져야 의미가 있다.
- 📢 섹션 요약 비유: 비상문 위치만 외우는 게 아니라, 실제로 문을 열고 나가 보는 훈련이다.
Ⅲ. 비교 및 연결
| DR 형태 | 비용 | RTO | RPO |
|---|---|---|---|
| Hot Site | 높음 | 매우 짧음 | 매우 짧음 |
| Warm Site | 중간 | 짧음 | 짧음 |
| Cold Site | 낮음 | 김 | 김 |
Hot Site는 거의 실시간 복제와 대기 자원을 두어 빠르지만 비싸다. Cold Site는 저렴하지만 복구에 오래 걸린다. 그래서 실제 설계는 서비스 중요도에 맞춰 타협한다.
- 📢 섹션 요약 비유: 예비 열쇠를 바로 손에 쥐고 있는지, 창고 어딘가에 묻어 두었는지의 차이다.
Ⅳ. 실무 적용 및 기술사 판단
체크리스트
- 훈련 시 실제 Failover가 이루어졌는가?
- RTO와 RPO가 숫자로 측정되었는가?
- 외부 연동과 인증 절차까지 점검했는가?
- 복구 후 Failback 절차도 검증했는가?
- 보고서보다 증적 로그와 타임라인이 있는가?
안티패턴
- 문서 검토만 하고 실제 전환은 하지 않는 훈련
- DB만 복제하고 앱/인증/연계를 빼먹는 설계
- 복구는 됐는데 원복(Failback)이 안 되는 설계
- RTO/RPO 목표를 정하지 않고 "빠르게"만 말하는 설계
기술사 관점에서는 DR의 성패를 "복구 계획이 있다"가 아니라 "정해진 시간과 손실 한도 안에 복구되는가"로 판단해야 한다.
- 📢 섹션 요약 비유: 연습 경기에서 이기는 게 아니라, 진짜 경기에서 몇 분 안에 재정비할 수 있는지가 중요하다.
Ⅴ. 기대효과 및 결론
DR 모의 훈련은 장애 대응 체계를 현실화한다. 덕분에 조직은 위기 상황에서 더 빠르게 움직이고, 운영 리스크를 수치로 다룰 수 있다.
결국 DR 감리는 백업의 존재 여부가 아니라, 장애가 났을 때 다시 살아나는 힘을 검증하는 일이다.
- 📢 섹션 요약 비유: 연습장에서 넘어져도, 실제 경기장에서 다시 일어나는 방법을 확인하는 것이다.
관련 개념 맵
BCP / DRP
↓
Failover
↓
RTO / RPO
↓
Failback
↓
Service Continuity
관련 키워드 및 발전 흐름도
백업
↓
DR 센터
↓
모의 훈련
↓
RTO / RPO 검증
↓
지속적 복구 체계
어린이를 위한 3줄 비유 설명
불이 났을 때 다른 교실로 바로 옮겨 가는 연습이에요.
얼마나 빨리 옮기고, 얼마나 덜 잃는지 숫자로 확인해요.
그래야 진짜 사고 때도 당황하지 않아요.