💡 핵심 인사이트
재해 복구(DR)는 전사적 생존 매뉴얼인 BCP 내에서, **"타버린 전산망과 IT 데이터를 어떻게, 얼마나 빨리 다른 안전한 곳에서 부활시킬 것인가?"**에 집중하는 기술적이고 물리적인 인프라 대책입니다.
투자 예산에 따라 복구 수준(Mirrored, Hot, Warm, Cold Site)이 극단적으로 달라집니다.
Ⅰ. 재해 복구의 2대 절대 지표 (RTO와 RPO)
경영진이 IT 부서에 묻습니다. "우리 서버 터지면 언제 다시 장사할 수 있어? 데이터는 얼마나 날아가는 거야?" 이를 수치화한 것이 다음 두 가지 지표입니다. (★정보처리기사/감리사 필수 문제)
- RTO (Recovery Time Objective, 목표 복구 시간)
- "서버가 죽은 직후부터, 땀 뻘뻘 흘리며 고쳐서 서비스가 다시 켜질 때까지 허용되는 최대 인내 시간" (과거 ➔ 미래의 시점).
- 예: RTO가 2시간이라면, 오후 2시에 터지면 오후 4시 전에는 무조건 결제창이 다시 떠야 합니다.
- RPO (Recovery Point Objective, 목표 복구 시점)
- "서버가 터졌을 때, 백업해 둔 데이터를 복원했을 때 최대로 잃어버려도(유실되어도) 감수할 수 있는 데이터의 양(시간)" (과거 ➔ 과거의 시점).
- 예: RPO가 1시간이라면, 오후 2시에 터졌을 때, 최소한 오후 1시에 백업된 데이터까지는 온전히 살아있어야 합니다. (오후 1시~2시 사이의 1시간 치 데이터가 날아가는 것까지는 눈감아주겠다는 뜻). 은행 결제망의 RPO는 무조건 '0초(데이터 유실 절대 불가)'여야 합니다.
Ⅱ. DR 센터 (대체 백업 센터)의 구축 유형
RTO를 0초(순단 없이 무중단)로 만들려면 엄청난 돈이 들고, RTO가 일주일이어도 상관없으면 돈이 거의 안 듭니다. 예산과 복구 목표(RTO)에 따라 DR 센터의 수준을 4가지로 나눕니다.
1. Mirror Site (미러 사이트) - RTO 0 (즉시)
- 주 센터와 완전히 똑같은 거대한 서버와 네트워크를 수백 km 떨어진 곳에 구축하고, 실시간으로 데이터를 거울(Mirror)처럼 동기화(Active-Active)합니다.
- 지진으로 메인 센터가 날아가도, 로드밸런서가 즉시 백업 센터로 트래픽을 넘기므로 사용자는 장애를 전혀 느끼지 못합니다. (은행, 거래소 사용 / 천문학적 유지 비용).
2. Hot Site (핫 사이트) - RTO 수 시간 이내
- 주 센터와 똑같은 하드웨어와 전산망을 세팅해 두고 데이터도 주기적으로 동기화하지만, 메인 센터와 동시에 서비스(Active)를 열어두지는 않고 대기(Standby) 상태로 둡니다.
- 장애가 나면 스위치를 켜서 부팅하고 점검한 뒤 트래픽을 넘깁니다. 수 시간 내 복구 가능.
3. Warm Site (웜 사이트) - RTO 수일~수 주
- 빈 공간(건물)에 전기와 통신망, 그리고 중요 장비 일부만 설치해 둡니다. 데이터는 매일 밤 테이프로 백업만 해둡니다.
- 불이 나면, 그때 하드웨어를 마저 세팅하고 테이프에서 데이터를 쭉 복원해서 켜야 하므로 며칠이 걸립니다. (일반 기업에서 타협하는 수준).
4. Cold Site (콜드 사이트) - RTO 수 주~수 개월
- 전산실용 텅 빈 깡통 건물(전기, 랙 공간 정도)만 임대해 놓습니다. 서버 껍데기조차 없습니다.
- 장애가 터지면 그때 델(Dell)에 전화해서 "서버 10대 당장 보내주세요" 주문하고, 배송받아 설치하고, 선 깔고 백업을 올립니다. 비용은 가장 싸지만 비즈니스는 한 달간 마비됩니다.
📢 섹션 요약 비유: DR 센터 구축은 **'집에 불이 났을 때를 대비한 이사 전략'**입니다.
- 미러 사이트: 내 방과 똑같이 풀옵션 인테리어가 된 호텔 방(비쌈)을 빌려두고 불나자마자 1초 만에 걸어 들어가는 것.
- 콜드 사이트: 시골에 빈 땅(저렴)만 사두고, 불이 나면 그제야 벽돌을 주문해서 집을 지어 들어가는 것. (싸지만 한 달간 노숙해야 함).