52. 인시던트 관리 (Incident Management)

핵심 인사이트 (3줄 요약)

본질: 인시던트 관리 (Incident Management)는 서비스 중단이나 성능 저하가 발생했을 때, 근본 원인보다 먼저 서비스를 빠르게 복구하는 운영 프로세스다.

가치: 워크어라운드 (Workaround), 에스컬레이션, 우선순위 조정으로 사용자 영향 시간을 줄이고 SLA (Service Level Agreement)를 지키게 한다.

판단 포인트: 인시던트는 문제 관리 (Problem Management)와 다르다. 인시던트는 "지금 살리는 것", 문제 관리는 "왜 그런지 깊게 파는 것"이다.

Ⅰ. 개요 및 필요성

인시던트는 IT 서비스가 계획대로 동작하지 않아 사용자에게 장애를 주는 사건이다. 서버 다운, 결제 지연, 페이지 오픈 실패처럼 눈에 띄는 장애뿐 아니라, 성능 저하도 인시던트로 다뤄진다. 목표는 원인 규명이 아니라 서비스 복구다.

기업 입장에서 서비스가 1분 멈추는 비용은 매우 크다. 그래서 인시던트 관리에서는 일단 복구하고, 원인은 뒤에서 분석한다. 이 순서를 뒤집으면 사용자는 더 오래 기다리게 된다.

📢 섹션 요약 비유: 인시던트 관리는 응급실이다. 먼저 숨을 쉬게 만들고, 그다음에 왜 쓰러졌는지 본다.

Ⅱ. 아키텍처 및 핵심 원리

인시던트 관리의 핵심은 탐지, 분류, 우선순위 지정, 복구, 종료다. 서비스 데스크가 단일 접점 (SPOC, Single Point of Contact) 역할을 하고, 해결이 어려우면 전문 팀으로 넘긴다.

┌──────────────────────────────────────────────────────────────┐
│               인시던트 관리의 서비스 복구 흐름              │
├──────────────────────────────────────────────────────────────┤
│ 사용자/모니터링 탐지                                          │
│          │                                                   │
│          ▼                                                   │
│ 접수 및 기록 → 분류/우선순위 → 초기 진단 → 에스컬레이션      │
│          │                                                   │
│          ▼                                                   │
│ 워크어라운드/복구 → 확인 → 종료                              │
└──────────────────────────────────────────────────────────────┘

단계	의미	핵심 포인트
접수/기록	티켓 생성	증상, 시간, 영향 범위 기록
분류	인시던트 유형 판단	서비스/시스템/보안 구분
우선순위	긴급도와 영향도 평가	사용자 수와 업무 중요도 반영
초기 진단	1차 대응	재기동, 캐시 초기화, 설정 확인
복구/종료	서비스 정상화 확인	사용자 확인과 기록 정리

인시던트 관리에서는 진짜 원인을 고치는 것보다 "사용자가 다시 일하게 만드는 것"이 우선이다. 그래서 재부팅, 트래픽 우회, 롤백 같은 임시 복구가 자주 등장한다. 이 임시 복구가 바로 워크어라운드다.

📢 섹션 요약 비유: 인시던트 관리는 자동차가 고장 났을 때, 일단 견인차를 불러 길을 비우고 나중에 정비소에서 고치는 것과 같다.

Ⅲ. 비교 및 연결

인시던트 관리, 문제 관리, 변경 관리는 자주 헷갈린다. 인시던트는 서비스 복구, 문제 관리는 근본 원인 제거, 변경 관리는 시스템 수정 승인과 배포를 다룬다.

항목	인시던트 관리	문제 관리	변경 관리
목표	빠른 복구	근본 원인 제거	안전한 변경
시간축	즉시	중장기	변경 전/중
산출물	티켓, 복구 기록	RCA, 문제 기록	변경 요청, 승인
우선순위	사용자 영향	재발 방지	안정성

인시던트 관리는 서비스 데스크, NOC, SRE, 운영팀과 연결된다. 특히 대규모 서비스에서는 major incident 절차를 두어, 커뮤니케이션 담당과 기술 해결 담당을 분리하기도 한다.

📢 섹션 요약 비유: 인시던트는 불 끄기, 문제 관리는 왜 불이 났는지 조사, 변경 관리는 전기 배선을 고치는 일이다.

Ⅳ. 실무 적용 및 기술사 판단

실무에서 중요한 것은 우선순위다. 모든 장애를 같은 방식으로 다루면 핵심 업무가 막힌다. 그래서 영향도, 긴급도, 고객 수, SLA를 종합해 우선순위를 정하고, 필요하면 워룸 (War Room)을 열어 집중 대응한다.

체크리스트

서비스 영향 범위가 명확한가?
우회책이 먼저 정리되어 있는가?
에스컬레이션 경로와 담당자가 정의되어 있는가?
고객 커뮤니케이션이 지연 없이 이뤄지는가?

안티패턴

원인 분석부터 시작해 복구가 늦어지는 경우
티켓만 쌓고 우선순위 조정이 없는 경우
장애 공지 없이 내부에서만 소통하는 경우

대형 인시던트는 기술 문제이면서 커뮤니케이션 문제다. 그래서 복구와 함께 사용자 공지, 상태 페이지, 내부 보고 체계를 동시에 굴려야 한다.

📢 섹션 요약 비유: 인시던트 대응은 학교 운동회에서 방송, 응급처치, 진행 정리가 동시에 필요한 상황과 같다.

Ⅴ. 기대효과 및 결론

좋은 인시던트 관리는 복구 시간을 줄이고, 장애의 파급을 제한하며, 조직의 신뢰를 지킨다. 또한 반복되는 장애는 문제 관리로 넘겨 근본 원인을 제거할 수 있게 해 준다.

즉 인시던트 관리는 운영의 첫 방어선이다. 빨리 살리고, 정확히 기록하고, 다음에는 더 잘 막게 만드는 프로세스로 기억하면 된다.

📢 섹션 요약 비유: 인시던트 관리는 넘어졌을 때 먼저 일으켜 세우고, 그다음 넘어지지 않게 길을 정리하는 일이다.

📌 관련 개념 맵

개념	연결 포인트
SLA	복구 우선순위를 정하는 기준
워크어라운드 (Workaround)	임시 복구 수단
문제 관리	근본 원인 분석 단계
변경 관리	수정/배포 승인 단계
서비스 데스크 (SPOC)	인시던트 접수의 단일 창구

📈 관련 키워드 및 발전 흐름도

탐지 / 사용자 신고
    │
    ▼
인시던트 등록
    │
    ▼
분류 · 우선순위
    │
    ▼
초기 진단 · 에스컬레이션
    │
    ▼
워크어라운드 · 복구
    │
    ▼
문제 관리 / 변경 관리로 이관

이 흐름은 "빨리 복구"와 "나중에 근본 해결"을 분리하는 운영 원칙을 보여준다.

👶 어린이를 위한 3줄 비유 설명

인시던트는 놀이터가 갑자기 멈춘 상황이에요.
선생님은 먼저 아이들이 다시 놀 수 있게 그네를 고쳐요.
그다음에 왜 고장 났는지는 따로 알아봐요.