핵심 인사이트
- 본질: 인시던트 관리 (Incident Management)의 제1 목표는 근본 원인 파악이 아니라 '최대한 빨리 정상 서비스를 복구'하는 것이다.
- 가치: 워크어라운드(Workaround, 임시 우회 조치)를 허용하여 비즈니스 피해를 최소화하고, 근본 원인 분석은 문제 관리(Problem Management)에 위임한다.
- 판단 포인트: 인시던트 우선순위는 영향도(Impact)×긴급도(Urgency) 매트릭스로 결정하며, Priority 1은 15분 내 에스컬레이션이 표준이다.
Ⅰ. 개요 및 필요성
인시던트 (Incident)는 "IT 서비스의 계획되지 않은 중단 또는 품질 저하"로 정의된다. 반면 서비스 요청(Service Request)은 계획된 표준 변경 요청(예: 비밀번호 초기화)으로 인시던트와 구분된다. 인시던트 관리의 핵심 지표는 MTTR(Mean Time To Repair/Restore)이며, 이를 최소화하는 것이 목표다. SLA에서 가용성 99.9%를 약속했다면 월 43분 이내의 총 다운타임이 허용된다. 인시던트 발생 시 MTTR이 SLA 임계값을 초과하기 전에 복구를 완료해야 한다. 📢 섹션 요약 비유: 인시던트 관리는 응급실이다. 왜 다쳤는지(근본 원인)는 나중에 조사하고, 먼저 지혈(서비스 복구)부터 한다.
Ⅱ. 아키텍처 및 핵심 원리
┌──────────────────────────────────────────────┐
│ 인시던트 관리 흐름 │
│ 감지(이벤트/사용자 신고) │
│ ↓ │
│ 접수·분류·우선순위 결정 │
│ (Impact × Urgency 매트릭스) │
│ ↓ │
│ 초기 진단 → 워크어라운드 적용 │
│ ↓ │
│ 에스컬레이션(2차, 3차) │
│ ↓ │
│ 해결 및 서비스 복구 │
│ ↓ │
│ 종료 및 KEDB 기록 │
└──────────────────────────────────────────────┘
| 우선순위 | 정의 | 목표 복구 시간 |
|---|---|---|
| P1 (Critical) | 전사 서비스 중단 | 4시간 이내 |
| P2 (High) | 다수 사용자 영향 | 8시간 이내 |
| P3 (Medium) | 일부 사용자 영향 | 24시간 이내 |
| P4 (Low) | 단일 사용자, 우회 가능 | 5영업일 이내 |
📢 섹션 요약 비유: 우선순위는 119 응급도 분류(KTAS)다. 심정지(P1)는 즉시, 타박상(P4)은 차례를 기다린다.
Ⅲ. 비교 및 연결
| 구분 | 인시던트 관리 | 문제 관리 |
|---|---|---|
| 목표 | 서비스 복구(속도) | 근본 원인 제거(품질) |
| 결과물 | 워크어라운드 | Known Error, RCA |
| 시간 | 단기 긴급 | 중장기 분석 |
📢 섹션 요약 비유: 인시던트 관리가 화재 진압이라면, 문제 관리는 화재 원인 조사와 재발 방지 대책이다.
Ⅳ. 실무 적용 및 기술사 판단
글로벌 전자상거래 업체의 P1 인시던트 프로세스: 감지(모니터링 알람) → 15분 내 Incident Commander 지정 → 워크어라운드 적용(예비 서버 전환) → RCA는 48시간 내 별도 수행. 서비스 복구를 먼저 하고 원인 분석을 나중에 하는 분리 원칙이 핵심이다. 📢 섹션 요약 비유: 비행기 기장(Incident Commander)은 비상 착륙(서비스 복구)을 먼저 하고 블랙박스 분석(RCA)은 나중에 한다.
Ⅴ. 기대효과 및 결론
체계적인 인시던트 관리로 ①MTTR 40~60% 단축, ②SLA 준수율 향상, ③반복 인시던트의 문제 관리 연계로 재발 방지가 달성된다. AIOps 연동 시 경고 자동 분류·우선순위 배정으로 초기 대응 시간을 더욱 단축할 수 있다. 📢 섹션 요약 비유: 인시던트 관리는 소방서의 "출동→진압→복구→보고" 절차와 동일하다. 절차가 있으면 패닉 없이 움직인다.
📌 관련 개념 맵
| 개념 | 설명 | 연관 키워드 |
|---|---|---|
| MTTR | 평균 복구 시간 | 인시던트 KPI |
| 워크어라운드 | 임시 우회 조치 | 서비스 복구 |
| KEDB | Known Error DB | 문제 관리 연계 |
| P1/P2/P3/P4 | 우선순위 분류 | Impact×Urgency |
👶 어린이를 위한 3줄 비유 설명
- 컴퓨터가 갑자기 안 되면(인시던트), 왜 그런지 찾기 전에 일단 재부팅(워크어라운드)으로 빨리 쓸 수 있게 해요.
- 얼마나 빨리 고치느냐(MTTR)가 중요한 성적표예요.
- 나중에 천천히 왜 고장났는지(근본 원인)를 찾아서 다시 안 일어나게 해요.