핵심 인사이트

  1. 본질: 콜드 사이트(Cold Site)는 재해 복구를 위해 물리적 공간·전원·냉각·네트워크 인입만 확보하고, 서버·스토리지 등 IT 장비는 재해 발생 후 조달·설치하는 최저 비용·최장 복구시간 DR(Disaster Recovery) 옵션이다.
  2. 가치: 구축·운영 비용이 핫 사이트 대비 10% 수준으로 극히 저렴하여, 법적 DR 의무는 있으나 비즈니스 임팩트가 낮은 시스템 또는 예산이 제한된 조직에서 최소 요건을 충족하는 현실적 선택지가 된다.
  3. 판단 포인트: 기술사 시험에서는 콜드 사이트의 RTO(Recovery Time Objective) 수 주 소요 문제, 오프사이트(Off-site) 백업 매체 관리 전략, 그리고 클라우드 DR로 콜드 사이트를 대체할 때의 비용·복구시간 비교가 핵심 논점이다.

Ⅰ. 개요 및 필요성

모든 조직이 핫 사이트를 운영할 수는 없다. 중소기업, 공공 기관, 스타트업 등 예산이 제한된 환경에서도 재해 복구 의무는 피할 수 없다. 이러한 환경에서 콜드 사이트는 최소 비용으로 DR 의무를 이행하는 방법으로 활용된다. 단, RTO가 수 주에 달한다는 치명적 한계를 명확히 인식하고 설계해야 한다.

콜드 사이트의 구성은 단순하다. 별도 건물이나 공유 데이터 센터 공간에 네트워크 케이블, 전원 콘센트, 냉각 시스템만 준비한다. IT 장비는 재해 발생 시 신규 조달하거나 계약된 하드웨어 공급업체로부터 긴급 납품 받는다. 데이터는 오프사이트 테이프 백업, 클라우드 스토리지, 또는 원격 스토리지에 보관된 최신 전체 백업본을 활용한다.

국내에서는 행정안전부의 공공 정보화 지침상 등급 3 시스템(RTO 72시간 이상)에 콜드 사이트가 허용된다. 또한 소규모 지자체나 교육 기관에서 비핵심 시스템을 위한 최소 DR 요건 충족 수단으로 활용된다. 다만 최근에는 클라우드 스토리지를 활용한 "클라우드 콜드 사이트" 개념이 등장하여 데이터 복원 시간을 크게 단축하고 있다.

📢 섹션 요약 비유: 콜드 사이트는 "비어있는 사무실 공간만 임대한 상태"다. 직원(서버)도, 컴퓨터(스토리지)도 없고 전기와 인터넷선만 있다. 재해가 나면 가구와 직원을 구해서 출근하게 해야 하니 몇 주가 걸린다.

Ⅱ. 아키텍처 및 핵심 원리

콜드 사이트의 구조는 단순하지만, 그 단순함 뒤에는 치밀한 오프사이트 백업 관리 전략이 필요하다.

┌─────────────────────────────────────────────────────────────┐
│              콜드 사이트 DRS 아키텍처                         │
├─────────────────────────┬───────────────────────────────────┤
│  PRIMARY SITE (주 센터)  │   COLD SITE (DR 센터)             │
│                         │                                   │
│  ┌─────────────────┐    │   ┌─────────────────┐             │
│  │  App+DB Servers │    │   │  (빈 랙 공간)    │             │
│  │  (Active)       │    │   │  No Equipment   │             │
│  └────────┬────────┘    │   └─────────────────┘             │
│           │             │                                   │
│  ┌────────▼────────┐    │   ┌─────────────────┐             │
│  │  Full Backup    ├────┼──►│  Tape/Cloud     │             │
│  │  (주간 전체 백업) │    │   │  Off-site 보관  │             │
│  └─────────────────┘    │   └─────────────────┘             │
│                         │                                   │
│  ┌─────────────────┐    │   ┌─────────────────┐             │
│  │  네트워크 연결   │    │   │  인터넷 인입만   │             │
│  └─────────────────┘    │   └─────────────────┘             │
├─────────────────────────┴───────────────────────────────────┤
│  재해 발생 → HW 조달(수 일) → 설치(수 일) → 데이터 복원 → 복구│
│  RTO: 수 주 (1~4주),  RPO: 수 일 (마지막 백업 기준)          │
└─────────────────────────────────────────────────────────────┘

콜드 사이트 복구 단계별 소요 시간

단계작업 내용예상 소요 시간
재해 선언·평가피해 범위 확인, DR 팀 소집수 시간
하드웨어 조달긴급 구매 또는 임대 계약2~5일
장비 설치·설정서버·스토리지·네트워크 구성3~7일
OS·SW 설치운영체제, 미들웨어, 애플리케이션2~5일
데이터 복원백업 테이프/스토리지에서 복원1~3일
정합성 검증데이터 무결성, 기능 테스트1~2일
서비스 재개DNS 절체 후 운영즉시

오프사이트 백업 전략

콜드 사이트의 핵심은 데이터다. 인프라는 재해 후 조달하더라도 데이터는 미리 보호되어 있어야 한다. 3-2-1 백업 원칙이 기준이 된다: ①원본 1개+복사본 2개 유지, ②2가지 이상 매체 사용(디스크+테이프 또는 디스크+클라우드), ③1개 이상 오프사이트 보관. 테이프 백업은 물리적으로 다른 지역 보관소나 은행 금고에 보관하고, 클라우드 스토리지는 다른 리전(Region)에 복제한다.

📢 섹션 요약 비유: 콜드 사이트의 오프사이트 백업은 가족사진을 집(주 센터)에만 보관하지 않고 친정집 금고(오프사이트)에도 복사본을 맡겨두는 것과 같다. 집이 타도 사진은 남는다.

Ⅲ. 비교 및 연결

구분핫 사이트웜 사이트콜드 사이트
RTO≤ 4시간수 시간~수 일수 주
RPO0~수 분수 시간~1일수 일
IT 장비 준비도완비·가동완비·대기없음(조달 필요)
데이터 준비도실시간 복제주기 백업오프사이트 백업
구축비주 센터 100%30~60%5~10%
운영비매우 높음보통매우 낮음
적합 시스템미션 크리티컬중요 업무비핵심 시스템
테스트 빈도분기~반기반기~연 1회연 1회 이상

클라우드 콜드 사이트(Cloud Cold Site)

전통적 콜드 사이트의 최대 단점인 수 주 RTO를 해결하는 현대적 대안이다. 데이터를 S3(Simple Storage Service), Azure Blob, GCS(Google Cloud Storage) 등 클라우드 오브젝트 스토리지에 저장하고, 재해 발생 시 IaC(Infrastructure as Code) 스크립트로 클라우드 인프라를 즉시 프로비저닝한다. 이 방식은 HW 조달·설치 단계를 제거하여 RTO를 수 일~수 시간으로 단축하면서도 비용은 콜드 사이트 수준을 유지한다.

📢 섹션 요약 비유: 클라우드 콜드 사이트는 "가구 설계도(IaC 코드)와 건축 자재(클라우드)를 미리 계약해 두는 것"이다. 집이 무너지면 설계도를 클라우드 공장에 넣고 자동으로 집을 지어낸다.

Ⅳ. 실무 적용 및 기술사 판단

콜드 사이트 운영의 핵심 리스크와 대응

  1. 하드웨어 조달 불확실성: 재해 상황에서는 물류 교란으로 서버 조달이 예상보다 지연될 수 있다. 이를 대비해 HW 임대 계약(Hardware Rental Agreement)을 사전에 체결하거나, 주요 부품 재고를 오프사이트 창고에 보관하는 "화이트박스 예비(Spare Equipment)" 전략을 병행한다.
  2. 백업 검증 부재: 백업 데이터가 실제로 복원 가능한지 정기적으로 테스트하지 않으면 재해 시 복원 불가 상황이 발생한다. 분기 1회 이상 백업 복원 테스트(Restore Drill)를 수행하고 결과를 문서화한다.
  3. 지식 의존성: 콜드 사이트 복구는 수동 작업이 많아 특정 담당자에 대한 지식 의존성이 높다. 상세한 복구 절차서(Run Book)를 작성하고, 2인 이상이 전체 절차를 숙지하도록 교육한다.
  4. 클라우드 대안 검토: 콜드 사이트를 신규 구축할 경우, 동일 비용 또는 그 이하로 클라우드 웜 사이트(Pilot Light)를 구현할 수 있는지 비용 분석을 먼저 수행한다. 클라우드 도입이 어려운 환경(규제·보안)에서만 전통 콜드 사이트를 선택한다.

기술사 논술 포인트

  • 비용 제약 환경에서 DRP 설계를 요구하는 문제: 콜드 사이트 + 클라우드 백업 조합을 제시하고 RTO 단축 방안을 논술
  • 3-2-1 백업 원칙 적용 방법과 오프사이트 매체 관리 체계
  • 콜드 사이트의 한계를 극복하는 "클라우드 콜드 사이트" 아키텍처 설계

📢 섹션 요약 비유: 콜드 사이트 복구 Run Book은 처음 보는 요리사도 따라할 수 있는 상세한 레시피북이다. 레시피가 없으면 수석 요리사 없이 주방을 열 수 없다.

Ⅴ. 기대효과 및 결론

콜드 사이트의 핵심 가치는 "가장 저렴한 방법으로 DR 의무를 이행하는 것"이다. 비즈니스 중요도가 낮은 시스템에 핫 사이트를 적용하는 것은 과잉투자이므로, BIA(Business Impact Analysis) 결과에 기반한 DR 등급 분류가 선행되어야 한다.

클라우드 시대에 들어서면서 전통적 콜드 사이트의 영역은 점차 "클라우드 콜드 사이트"로 대체되고 있다. AWS의 Backup & Restore 패턴, Azure의 Cold DR 템플릿은 물리적 공간 확보 없이 소프트웨어적으로 콜드 사이트의 기능을 구현한다. 이는 중소기업도 합리적 비용으로 클라우드 기반 DR을 도입할 수 있는 환경을 만들고 있다.

결론적으로 콜드 사이트는 DR 스펙트럼의 최저 비용 끝점으로서 여전히 유효하지만, 신규 투자 시에는 클라우드 대안을 반드시 비교 검토해야 하며, 선택한 방식에 관계없이 정기적 백업 복원 테스트와 상세 Run Book 유지가 DR 성공의 핵심이다.

📢 섹션 요약 비유: 클라우드가 등장하면서 콜드 사이트는 "이케아 조립가구"처럼 변했다. 직접 창고에서 가구(서버)를 사고 조립(설치)하는 대신, 앱(클라우드 콘솔)으로 주문하면 몇 시간 만에 배달·조립이 완료된다.


📌 관련 개념 맵

개념설명연관 키워드
3-2-1 백업 원칙원본1+복사본2, 2가지 매체, 1개 오프사이트오프사이트, 테이프 백업
RPO (Recovery Point Objective)허용 데이터 손실 최대 시점백업 주기
RTO (Recovery Time Objective)허용 서비스 복구 최대 시간HW 조달, 설치
BIA (Business Impact Analysis)DR 등급 결정을 위한 영향 분석DR 등급, RTO/RPO
Run Book단계별 복구 절차 문서DRP, 지식 이전
IaC (Infrastructure as Code)인프라를 코드로 정의해 자동 프로비저닝Terraform, 클라우드 DR
Restore Drill백업 복원 가능성 정기 테스트백업 검증, DR 테스트
Pilot Light클라우드 최소 인프라 상시 운영 후 재해 시 확장클라우드 웜 사이트

👶 어린이를 위한 3줄 비유 설명

  1. 콜드 사이트는 불났을 때 들어갈 수 있도록 계약해 둔 빈 건물이에요. 침대도, 책상도, TV도 없어서 다 새로 사야 해요.
  2. 데이터(추억)는 미리 USB나 외장하드에 담아 다른 집에 맡겨 두었기 때문에 잃어버리지 않아요.
  3. 돈이 제일 적게 들지만 새 집(서버)을 구하고 꾸미는 데 몇 주가 걸리니까, 하루라도 멈추면 큰일 나는 곳엔 쓸 수 없어요.