1008. MTTR (평균 수리 시간) - Mean Time To Repair 장애 인지 복구 완료 다운타임 단축 가용성(Availability) 식 계산 통신망 유지보수 회선 이중화 지표

핵심 인사이트: 1007번에서 아무리 MTBF(무고장 시간)가 10년짜리인 슈퍼 스위치를 샀더라도, 10년 뒤에 결국 한 번은 고장이 나서 인터넷이 터진다. 사장님이 미쳐 날뛴다. "야 인터넷 끊겼어! 지금 우리 쇼핑몰 1분 멈출 때마다 1억씩 손해 보잖아! 도대체 이거 복구하는 데 몇 분이나 걸려!!" 엔지니어는 식은땀을 흘린다. "기계 부품 뜯어서 갈아 끼우고 재부팅하는 데 딱 30분(MTTR) 걸립니다!" 기계가 튼튼한 것도 중요하지만, 뻗었을 때 무덤에서 얼마나 빨리 부활시켜 내는지(복구 스피드)가 현대 클라우드의 진짜 실력이다. 심폐소생술의 황금 시간표, MTTR이다.

Ⅰ. 다운타임(Downtime)의 고통

  • 서버나 스위치가 고장 나서 서비스 접속이 불가능한 '블랙아웃(마비)' 시간을 다운타임이라고 부릅니다.
  • 대기업 통신망은 이 다운타임 1초가 수백만 원의 매출 손실로 직결되므로, 고장을 안 내는 것보다 **'고장이 나더라도 고객이 눈치채기 전에 1초 만에 살려내는 것'**에 사활을 겁니다.

Ⅱ. MTTR (Mean Time To Repair)의 개념 🌟

  • 개념: 평균 수리 시간. 장비나 시스템이 고장 나서 멈춘(Failure) 순간부터, 엔지니어가 달려와 고장을 인지하고 부품을 갈아 끼워 **완벽하게 원래 정상 상태(Restore)로 다시 부활시킬 때까지 걸린 1회당 '평균 복구(수리) 소요 시간'**입니다.
  • 숫자가 작을수록 훌륭하고 돈값을 하는 서비스입니다.

Ⅲ. 망 가용성 (Availability)의 마법 공식 🌟 핵심 기출 🌟

1년 365일 중 우리 회사 네이버 서버가 안 죽고 켜져 있는 '가동률(업타임 비율)'을 계산하는 절대 공식입니다. 무조건 암기해야 합니다.

$$ Availability (가용성) = \frac{MTTF}{MTTF + MTTR} = \frac{MTTF}{MTBF} $$

  • 해석: "전체 시간(건강한 시간 + 수리하는 아픈 시간) 중에서, 순수하게 쌩쌩하게 건강했던 시간(MTTF)이 차지하는 비율(%)"입니다.
  • **가용성을 99.999% (파이브 나인즈, Five-Nines)**로 올리기 위한 2가지 방법:
    1. 분자의 MTTF(수명)를 무한대로 늘립니다. (근데 기계는 언젠가 무조건 고장 나니 불가능합니다.)
    2. 분모에 있는 MTTR(수리 시간)을 0초(Zero)로 수렴하게 극단적으로 압축시켜 버립니다! (현대 클라우드의 절대 법칙)

Ⅳ. 어떻게 MTTR을 0.001초로 압축할까? (회선 이중화) 🌟

사람이 뛰어가서 고치면 아무리 빨라도 10분이 넘게 걸립니다. 기계의 꼼수가 필요합니다.

  • Active-Standby 이중화 구조 (VRRP / L4 이중화):
    • 전산실에 똑같은 비싼 스위치를 2대 사서 병렬로 연결합니다. 1호기(Active)만 일하고 2호기(Standby)는 놀게 냅둡니다.
    • 1호기가 번개를 맞아 '펑' 터졌습니다. 원래라면 인간이 고칠 때까지 1시간(MTTR) 동안 뻗어야 합니다.
    • 하지만 심박 센서(Heartbeat)를 쓰던 2호기가 1호기가 죽은 걸 0.05초 만에 눈치채고, 자기가 1호기 행세를 하며 0.1초 만에 트래픽을 넘겨받아 부활(Fail-over)해 버립니다!
    • 기적: 진짜 1호기 기계는 타서 죽어버렸지만, 바깥 고객이 느끼기엔 인터넷이 끊긴 체감 시간이 '0.1초'뿐이었습니다. 즉 사용자가 체감하는 MTTR(수리 시간)이 1시간에서 0.1초로 마술처럼 압축되며, 가용성이 99.999% 무중단 스펙으로 뻥튀기되는 인프라 이중화의 정수입니다.

📢 섹션 요약 비유: **MTTR(평균 수리 시간)**은 포뮬러 원(F1) 자동차 경주의 **'피트 스탑(Pit Stop) 타이어 교체 시간'**입니다. 아무리 엔진이 튼튼한 차(높은 MTBF)라도 타이어는 결국 닳아서 터집니다. 차가 멈췄을 때 정비소로 끌고 와 멍청한 정비공 1명이 수동 스패너로 타이어 4개를 갈아 끼우면 10분(MTTR)이 걸려 경주에서 꼴찌가 됩니다(가용성 하락). 글로벌 최고 통신망 기업들은 '이중화'와 '자동화'라는 피트 스탑 마법사 20명 부대를 고용합니다. 서버가 터져서 정비소에 들어오는 찰나의 순간, 대기하던 복제 서버(Standby)가 빛의 속도로 튀어나와 0.1초 만에 타이어(업무)를 통째로 갈아 끼워버립니다. 관중(사용자)들은 차가 멈췄었는지조차 눈치채지 못합니다. 고장이 났다는 사실 자체를 우주에서 가장 짧은 시간(MTTR 제로화) 안에 덮어버려서, 고객에게 영원히 멈추지 않는 불사조(가용성 99.99%)를 보여주는 인프라 심폐소생술입니다.