57. 재해 복구 (Disaster Recovery, DR) - BIA와 RTO/RPO 설계

핵심 인사이트 (3줄 요약)

본질: 재해 복구(DR)는 재난 이후 IT 서비스와 데이터를 얼마나 빨리, 얼마나 적게 잃고 되살릴지 정하는 복구 전략이다.

가치: BIA (Business Impact Analysis)로 중요한 업무를 찾고, RTO (Recovery Time Objective)와 RPO (Recovery Point Objective)로 복구 수준을 수치화한다.

판단 포인트: 복구 목표에 따라 Mirror, Hot, Warm, Cold site를 선택하고, 정기적인 복구 훈련으로 실제 작동 여부를 검증해야 한다.

Ⅰ. 개요 및 필요성

DR은 BCP (Business Continuity Plan)의 일부이지만, 특히 정보시스템과 데이터 복구에 초점을 맞춘다. 서버가 멈추고 데이터가 날아간 뒤 어떻게 살아날지를 정하는 일이다.

백업만 있다고 끝나지 않는다. 백업을 복원할 장소, 복원 시간, 복원 순서까지 준비해야 진짜 복구가 된다.

📢 섹션 요약 비유: DR은 불이 난 뒤 어디서 다시 가게를 열지 정해 두는 비상 복구 지도다.

Ⅱ. BIA와 RTO/RPO

DR 설계의 출발점은 BIA (Business Impact Analysis)다. 어떤 업무가 먼저 살아야 하는지 정해야 복구 순서가 정해진다.

BIA
  ↓
핵심 업무 선정
  ↓
RTO / RPO 설정
  ↓
복구 사이트와 백업 전략 결정

RTO는 서비스가 다시 켜져야 하는 최대 시간이다.
RPO는 허용 가능한 최대 데이터 손실 시점이다.

이 두 값이 작을수록 복구 비용은 급격히 올라간다.

📢 섹션 요약 비유: 병원에서 "몇 시간 안에 수술해야 하는지"와 "얼마나 피를 잃어도 되는지"를 먼저 정하는 것과 같다.

Ⅲ. 복구 센터의 유형

복구 목표에 따라 사이트 수준이 달라진다.

Mirror Site: 거의 실시간으로 주 센터와 동일하게 동기화한다.
Hot Site: 즉시 전환이 가능한 대기 센터다.
Warm Site: 일부만 준비되어 있어 복구에 시간이 더 걸린다.
Cold Site: 기본 공간만 준비된 저비용 방식이다.

복구 목표가 엄격할수록 비용이 커지지만, 서비스 중단 위험은 줄어든다.

📢 섹션 요약 비유: 예비 차를 완전히 시동 걸어 둔 상태로 둘지, 꺼 둔 채로 둘지는 돈과 급함의 차이다.

Ⅳ. 복구 절차와 검증

DR은 계획보다 실행과 검증이 중요하다.

백업과 복제를 구분한다.
Failover와 Failback 절차를 정한다.
복구 후 데이터 무결성을 확인한다.
정기적으로 복원 테스트를 수행한다.

복구 시나리오가 문서에만 있고 실제로 안 돌아가면 의미가 없다. 그래서 DR 훈련은 필수다.

📢 섹션 요약 비유: 운동회 전 연습을 해 보지 않으면, 진짜 달리기에서 넘어지기 쉽다.

Ⅴ. 실무 설계와 BCP 비교

DR은 백업과 같은 말이 아니다. 백업은 데이터를 저장하는 행위이고, DR은 서비스 전체를 다시 살리는 전략이다.

실무에서는 다음을 함께 본다.

핵심 업무별 복구 우선순위
RTO/RPO에 맞는 사이트 선택
데이터 복제 주기
복구 후 검증 절차
BCP 전체 문서와의 연계

이 기준이 맞아야 재난이 와도 핵심 서비스를 버틸 수 있다.

📢 섹션 요약 비유: 물통만 준비하는 것과, 물통을 어디에 두고 누가 들고 갈지도 정해 두는 것은 다르다.

어린이를 위한 3줄 비유 설명

재해 복구는 가게가 무너지면 어디서 다시 열지 정하는 거예요.
언제까지 다시 열어야 하는지, 얼마나 잃어도 되는지도 미리 정해요.
그래야 진짜 위기 때 덜 당황해요.