26. MTTR (Mean Time to Recover) — 평균 복구 시간

핵심 인사이트 (3줄 요약)

본질: MTTR (Mean Time to Recover/Repair, 평균 복구 시간)은 시스템 장애 발생부터 정상 복구까지 걸린 평균 시간으로, SRE(Site Reliability Engineering)의 4대 DORA 메트릭 중 "복원력(Reliability)"을 측정하는 핵심 지표다.

가치: MTTR은 단순히 빠른 복구만을 의미하지 않는다. 장애 탐지(Detection) → 대응(Response) → 원인 파악(Diagnosis) → 복구(Recovery)의 4단계 파이프라인 전체를 최적화해야 낮출 수 있다. 어느 한 단계의 병목이 전체 MTTR을 지배한다.

판단 포인트: MTTR이 낮다고 무조건 좋은 것은 아니다. 빠른 복구를 위해 원인 파악을 건너뛰면 재발 빈도(MTBF 단축)가 높아진다. 이상적인 SRE 팀은 "빠른 일시 복구(Rollback) + 철저한 사후 분석(Post-mortem)"을 병행하여 MTTR과 MTBF 모두 개선한다.

Ⅰ. 개요 및 필요성

┌────────────────────────────────────────────────────────┐
│              MTTR 4단계 파이프라인                       │
├────────────────────────────────────────────────────────┤
│                                                         │
│  장애 발생 ──> [1. 탐지] ──> [2. 대응] ──> [3. 진단]     │
│                                         ──> [4. 복구]   │
│                                                         │
│  MTTR = 탐지 시간 + 대응 시간 + 진단 시간 + 복구 시간    │
│                                                         │
│  목표: 각 단계를 자동화하여 MTTR을 시간 → 분 → 초로 단축 │
└────────────────────────────────────────────────────────┘

📢 섹션 요약 비유: MTTR은 화재 진압 시간이다. 화재 감지기(탐지) → 소방차 출동(대응) → 불 위치 파악(진단) → 진화(복구)의 4단계. 어느 한 단계가 느리면 전체 피해가 커진다.

Ⅱ. 아키텍처 및 핵심 원리

MTTR 단계별 단축 기법

단계	병목 원인	단축 기법
탐지	모니터링 부재	APM, 분산 추적(Jaeger), 알림 임계값 최적화
대응	수동 에스컬레이션	PagerDuty 자동화, 런북(Runbook) 자동 실행
진단	로그 분산	ELK Stack, 중앙화 로깅, AI 이상 탐지
복구	수동 배포	Blue/Green 배포, 자동 롤백, Canary 릴리즈

Ⅲ. 비교 및 연결

메트릭	DORA 분류	측정 대상
Deployment Frequency	속도	배포 얼마나 자주 하는가
Lead Time for Changes	속도	코드 → 운영 환경 소요 시간
Change Failure Rate	안정성	배포 후 장애 발생 비율
MTTR	안정성	장애 발생 후 복구 소요 시간

📢 섹션 요약 비유: DORA 4대 지표는 레이싱 팀 성과 지표다. 속도(얼마나 빠르게 달리는가)와 안전(사고 시 얼마나 빨리 복구하는가) 두 축을 동시에 측정한다.

Ⅳ. 실무 적용 및 기술사 판단

SRE 팀 MTTR 개선 로드맵

현황 측정: MTTD, 대응 시간, 진단 시간, 복구 시간 각각 측정.
병목 식별: 4단계 중 가장 긴 단계 파악.
자동화 우선: 탐지→알림→런북 실행 자동화 (0단계 자동화 달성).
Post-mortem 문화: 복구 후 반드시 근본 원인 분석 → 재발 방지.

목표 MTTR 산업 벤치마크

Elite 조직: MTTR < 1시간.
High 조직: MTTR < 1일.
Medium 조직: MTTR < 1주.
Low 조직: MTTR > 1주.
📢 섹션 요약 비유: MTTR 벤치마크는 응급실 대기 시간이다. Elite 병원은 1시간 이내 처치, 일반 병원은 하루, 의료 취약 지역은 일주일 이상. 환자(사용자)에게는 대기 시간이 생사를 가른다.

Ⅴ. 기대효과 및 결론

기대효과	내용
사용자 신뢰	빠른 복구로 서비스 SLA 준수
비즈니스 손실 최소화	장애 시간 × 비용/분 직접 절감
팀 역량 향상	Post-mortem을 통한 지속 개선

AIOps(AI for IT Operations)는 ML 기반 이상 탐지로 MTTD를 초 단위로 단축하고, 자동 런북 실행으로 MTTR을 수분 이내로 낮추는 방향으로 발전하고 있다.

📢 섹션 요약 비유: AIOps는 자동 운전 소방차다. AI가 화재를 먼저 탐지하고 자동으로 최적 경로로 출동하여 진압한다. 사람 운전사(운영팀)보다 탐지→복구 사이클이 훨씬 빠르다.

📌 관련 개념 맵

개념	연결 포인트
SLO/SLA	MTTR 목표값 설정의 계약적 근거
DORA Metrics	MTTR을 포함하는 DevOps 성과 지표 4종
Post-mortem	MTTR 사후 근본 원인 분석 활동
AIOps	AI 기반 MTTD+MTTR 자동 단축 기술
Blue/Green 배포	빠른 자동 롤백으로 MTTR 단축

📈 관련 키워드 및 발전 흐름도

[수동 장애 대응 — 장시간 MTTR, 사람 의존]
    │
    ▼
[모니터링 도구 — APM, ELK, Prometheus 도입]
    │
    ▼
[DORA 메트릭 체계화 — MTTR 정량 측정 시작]
    │
    ▼
[자동화 런북 — PagerDuty + Runbook 자동 실행]
    │
    ▼
[AIOps — AI 이상 탐지 + 자동 복구 파이프라인]

👶 어린이를 위한 3줄 비유 설명

MTTR은 게임에서 다시 살아나는 데 걸리는 시간이에요! 빠를수록 좋고, 방법을 알아야 빠르게 살아날 수 있어요.
화재 탐지기 → 소방차 출동 → 불 위치 파악 → 진화처럼, 장애도 탐지→대응→진단→복구 4단계로 줄여야 해요.
AI가 알아서 불을 탐지하고 자동으로 진압하는 세상(AIOps)이 되면 MTTR이 몇 초로 줄어든답니다!

핵심 인사이트 (3줄 요약)

Ⅰ. 개요 및 필요성

Ⅱ. 아키텍처 및 핵심 원리

MTTR 단계별 단축 기법

관련 신뢰성 지표 4종

Ⅲ. 비교 및 연결

Ⅳ. 실무 적용 및 기술사 판단

SRE 팀 MTTR 개선 로드맵

목표 MTTR 산업 벤치마크

Ⅴ. 기대효과 및 결론

📌 관련 개념 맵

📈 관련 키워드 및 발전 흐름도

👶 어린이를 위한 3줄 비유 설명