핵심 인사이트

  1. 본질: 인시던트 관리 (Incident Management)의 제1 목표는 근본 원인 파악이 아니라 '최대한 빨리 정상 서비스를 복구'하는 것이다.
  2. 가치: 워크어라운드(Workaround, 임시 우회 조치)를 허용하여 비즈니스 피해를 최소화하고, 근본 원인 분석은 문제 관리(Problem Management)에 위임한다.
  3. 판단 포인트: 인시던트 우선순위는 영향도(Impact)×긴급도(Urgency) 매트릭스로 결정하며, Priority 1은 15분 내 에스컬레이션이 표준이다.

Ⅰ. 개요 및 필요성

인시던트 (Incident)는 "IT 서비스의 계획되지 않은 중단 또는 품질 저하"로 정의된다. 반면 서비스 요청(Service Request)은 계획된 표준 변경 요청(예: 비밀번호 초기화)으로 인시던트와 구분된다. 인시던트 관리의 핵심 지표는 MTTR(Mean Time To Repair/Restore)이며, 이를 최소화하는 것이 목표다. SLA에서 가용성 99.9%를 약속했다면 월 43분 이내의 총 다운타임이 허용된다. 인시던트 발생 시 MTTR이 SLA 임계값을 초과하기 전에 복구를 완료해야 한다. 📢 섹션 요약 비유: 인시던트 관리는 응급실이다. 왜 다쳤는지(근본 원인)는 나중에 조사하고, 먼저 지혈(서비스 복구)부터 한다.

Ⅱ. 아키텍처 및 핵심 원리

┌──────────────────────────────────────────────┐
│        인시던트 관리 흐름                     │
│  감지(이벤트/사용자 신고)                     │
│           ↓                                  │
│  접수·분류·우선순위 결정                      │
│  (Impact × Urgency 매트릭스)                 │
│           ↓                                  │
│  초기 진단 → 워크어라운드 적용               │
│           ↓                                  │
│  에스컬레이션(2차, 3차)                       │
│           ↓                                  │
│  해결 및 서비스 복구                          │
│           ↓                                  │
│  종료 및 KEDB 기록                            │
└──────────────────────────────────────────────┘
우선순위정의목표 복구 시간
P1 (Critical)전사 서비스 중단4시간 이내
P2 (High)다수 사용자 영향8시간 이내
P3 (Medium)일부 사용자 영향24시간 이내
P4 (Low)단일 사용자, 우회 가능5영업일 이내

📢 섹션 요약 비유: 우선순위는 119 응급도 분류(KTAS)다. 심정지(P1)는 즉시, 타박상(P4)은 차례를 기다린다.

Ⅲ. 비교 및 연결

구분인시던트 관리문제 관리
목표서비스 복구(속도)근본 원인 제거(품질)
결과물워크어라운드Known Error, RCA
시간단기 긴급중장기 분석

📢 섹션 요약 비유: 인시던트 관리가 화재 진압이라면, 문제 관리는 화재 원인 조사와 재발 방지 대책이다.

Ⅳ. 실무 적용 및 기술사 판단

글로벌 전자상거래 업체의 P1 인시던트 프로세스: 감지(모니터링 알람) → 15분 내 Incident Commander 지정 → 워크어라운드 적용(예비 서버 전환) → RCA는 48시간 내 별도 수행. 서비스 복구를 먼저 하고 원인 분석을 나중에 하는 분리 원칙이 핵심이다. 📢 섹션 요약 비유: 비행기 기장(Incident Commander)은 비상 착륙(서비스 복구)을 먼저 하고 블랙박스 분석(RCA)은 나중에 한다.

Ⅴ. 기대효과 및 결론

체계적인 인시던트 관리로 ①MTTR 40~60% 단축, ②SLA 준수율 향상, ③반복 인시던트의 문제 관리 연계로 재발 방지가 달성된다. AIOps 연동 시 경고 자동 분류·우선순위 배정으로 초기 대응 시간을 더욱 단축할 수 있다. 📢 섹션 요약 비유: 인시던트 관리는 소방서의 "출동→진압→복구→보고" 절차와 동일하다. 절차가 있으면 패닉 없이 움직인다.

📌 관련 개념 맵

개념설명연관 키워드
MTTR평균 복구 시간인시던트 KPI
워크어라운드임시 우회 조치서비스 복구
KEDBKnown Error DB문제 관리 연계
P1/P2/P3/P4우선순위 분류Impact×Urgency

👶 어린이를 위한 3줄 비유 설명

  1. 컴퓨터가 갑자기 안 되면(인시던트), 왜 그런지 찾기 전에 일단 재부팅(워크어라운드)으로 빨리 쓸 수 있게 해요.
  2. 얼마나 빨리 고치느냐(MTTR)가 중요한 성적표예요.
  3. 나중에 천천히 왜 고장났는지(근본 원인)를 찾아서 다시 안 일어나게 해요.