127. 온콜 관리 (On-Call Management) - SRE 장애 대응 당번 체계

핵심 인사이트 (3줄 요약)

본질: 온콜(On-Call)은 지정된 엔지니어가 일정 기간 동안 프로덕션 시스템의 장애·알림에 대응하는 당번 체계이며, SRE 팀 운영의 핵심 실천이다.

가치: 온콜 없이는 "누가 대응할 것인가"가 불분명하여 장애 시 혼란이 발생하지만, 온콜 로테이션을 통해 책임자가 명확하고 대응 시간(MTTA)이 최소화된다.

판단 포인트: 온콜 부담이 과도하면 번아웃·이직이 발생하므로, 온콜 빈도(주 1회 이하)·인터럽트 비율(25% 이하)·보상 정책이 지속 가능성의 핵심이다.

Ⅰ. 개요 및 필요성

┌───────────────────────────────────────────────────────┐
│    온콜 프로세스                                      │
├───────────────────────────────────────────────────────┤
│  1. [알림 발생] — Prometheus → PagerDuty              │
│  2. [온콜 엔지니어 호출] — 5분 내 응답               │
│  3. [초기 대응] — 상황 파악·영향 범위 판단           │
│  4. [에스컬레이션] — 필요 시 2차 온콜·팀 호출        │
│  5. [해결] — 장애 복구·사용자 통보                   │
│  6. [사후 분석] — Postmortem 작성                     │
└───────────────────────────────────────────────────────┘

📢 섹션 요약 비유: 온콜은 병원의 당직 의사이다. 24시간 환자(시스템)를 돌볼 의사가 항상 있어야 하고, 로테이션으로 번갈아 근무한다.

Ⅱ. 아키텍처 및 핵심 원리

건강한 온콜 지표

지표	건강 기준
로테이션 주기	1~2주
야간 호출	주당 2회 이하
인터럽트 비율	25% 이하
MTTA	5분 이내
Postmortem	모든 주요 장애 후 작성

📢 섹션 요약 비유: 인터럽트 25% 이하는 "근무 시간의 75%는 프로젝트 작업, 25%만 장애 대응"이다.

Ⅲ. 비교 및 연결

비교	온콜 없음	온콜 있음
대응	혼란 (누가?)	명확한 책임자
시간	느림	MTTA 단축
번아웃	특정인 과부하	로테이션 분산

Ⅳ. 실무 적용 및 기술사 판단

온콜 도구

PagerDuty: 알림 라우팅·에스컬레이션.
OpsGenie (Atlassian): 온콜 스케줄·알림.
Incident.io: 사고 관리 + 온콜.
Slack/Teams: 실시간 커뮤니케이션.

Ⅴ. 기대효과 및 결론

온콜 관리는 SRE 팀의 지속 가능한 장애 대응 체계이며, Toil 감소·자동화와 함께 엔지니어 번아웃을 예방하는 핵심이다.

📌 관련 개념 맵

개념	연결 포인트
온콜	장애 대응 당번
PagerDuty	알림·에스컬레이션 도구
MTTA	알림 인지 시간
Postmortem	장애 사후 분석
Toil	온콜에서 발생하는 반복 작업

📈 관련 키워드 및 발전 흐름도

[수동 모니터링 + 전화 (2000s)]
    │
    ▼
[PagerDuty (2009~) — 자동 알림·에스컬레이션]
    │
    ▼
[SRE 온콜 문화 (Google SRE Book, 2016)]
    │
    ▼
[AIOps 자동 대응 (2020~)]
    │
    ▼
[현재: AI Incident Response — 자동 진단·자가 치유]

👶 어린이를 위한 3줄 비유 설명

온콜은 병원의 당직 의사예요. 밤에도 **환자(시스템)**를 돌볼 사람이 있어야 해요.
한 사람만 계속 당직하면 지치니까, 번갈아(로테이션) 근무해요.
당직 의사 덕분에 환자가 위급할 때 빠르게 치료받을 수 있답니다!