핵심 인사이트 (3줄 요약)

  1. 본질: Blameless Post-mortem은 서비스 장애를 특정 개인의 실수로 귀결시키지 않고, 시스템·프로세스·조직 구조의 근본 원인을 찾아 재발 방지 액션으로 전환하는 SRE 문화의 핵심 실천이다.
  2. 가치: 사람을 비난하는 대신 시스템을 개선하면, 엔지니어들이 실수를 숨기지 않고 투명하게 공유하는 심리적 안전감이 형성되어 조직 전체의 학습 속도가 높아진다.
  3. 판단 포인트: 5 Whys 분석으로 표면적 원인(사람의 실수)에서 멈추지 않고 그 실수를 가능하게 한 시스템 취약성(프로세스·도구·설계)까지 파고드는 것이 효과적인 포스트모템의 기준이다.

Ⅰ. 개요 및 필요성

장애가 발생했을 때 "누구의 잘못인가?"를 찾으면 단기적으로는 책임자를 특정할 수 있지만, 장기적으로는 엔지니어들이 위험을 감수하지 않고, 실수를 숨기고, 실험을 회피하는 문화를 만든다. 이것이 혁신과 빠른 배포를 가로막는다.

구글 SRE 팀이 체계화한 Blameless Post-mortem은 반대 접근을 취한다: "모든 사람은 그 순간 최선을 다했다. 문제는 사람이 아닌 시스템에 있다." 엔지니어를 비난하는 대신, 그 실수가 발생할 수밖에 없었던 시스템적 원인—불충분한 모니터링, 잘못된 설계, 부족한 문서화—을 찾아 개선한다.

항공 산업은 이 원칙을 수십 년 전부터 실천해왔다. 파일럿의 실수로 발생한 사고를 파일럿 해고로 마무리하지 않고, 그 실수를 유발한 계기판 설계·절차 문제를 찾아 전 항공사에 공유한다. 덕분에 항공 사고율이 지속적으로 감소했다. 소프트웨어 조직도 같은 원칙을 적용하는 것이 Blameless 문화다.

📢 섹션 요약 비유: 비난 없는 포스트모템은 식당에서 음식이 나쁘게 나왔을 때 요리사를 해고하는 대신, 레시피·재료·주방 환경의 문제를 찾아 시스템을 개선하는 것과 같다. 요리사는 그때 가능한 최선을 다했을 것이기 때문이다.


Ⅱ. 아키텍처 및 핵심 원리

포스트모템 작성 구조

  ┌─────────────────────────────────────────────────────┐
  │                 포스트모템 문서 구조                   │
  ├─────────────────────────────────────────────────────┤
  │  1. 영향도 요약                                       │
  │     - 발생 시간, 지속 시간                            │
  │     - 영향받은 사용자/서비스, 비즈니스 손실            │
  ├─────────────────────────────────────────────────────┤
  │  2. 타임라인 (Timeline)                               │
  │     - 발생부터 감지·대응·복구까지 분 단위 기록          │
  │     - 각 시점의 행동과 관찰 내용                        │
  ├─────────────────────────────────────────────────────┤
  │  3. 근본 원인 분석 (5 Whys)                            │
  │     Why1 → Why2 → Why3 → Why4 → Why5                │
  ├─────────────────────────────────────────────────────┤
  │  4. 기여 요인 (Contributing Factors)                  │
  │     - 직접 원인 + 시스템적 약점                        │
  ├─────────────────────────────────────────────────────┤
  │  5. 재발 방지 액션 아이템                               │
  │     - 단기 (1주): 핫픽스, 알림 추가                    │
  │     - 중기 (1달): 아키텍처 개선                        │
  │     - 장기 (분기): 프로세스 변경                        │
  └─────────────────────────────────────────────────────┘

5 Whys 분석 예시

장애: 프로덕션 DB 연결 고갈로 서비스 5분 다운

Why 1: DB 연결 풀이 고갈됐기 때문
Why 2: 새 배포가 연결 풀 크기를 기본값(10)으로 되돌렸기 때문
Why 3: 환경 변수가 코드에 하드코딩됐고 배포 시 덮어썼기 때문
Why 4: 배포 파이프라인에 연결 풀 설정 검증 스텝이 없었기 때문
Why 5: 중요 설정값 변경에 대한 자동 검증 문화가 없었기 때문

근본 원인: "중요 설정 변경을 자동으로 감지·검증하는 파이프라인 부재"
→ 액션: 배포 전 설정값 비교 검증 스텝 추가, ConfigMap 표준화

📢 섹션 요약 비유: 5 Whys는 양파 껍질 벗기기와 같다. 표면에서 멈추면 "양파가 작다(사람의 실수)"지만, 계속 벗기다 보면 "양파 품종 선택 프로세스가 잘못됐다(시스템 문제)"는 근본 원인에 도달한다.


Ⅲ. 비교 및 연결

포스트모템 vs 일반 버그 보고

항목일반 버그 보고포스트모템
목적버그 수정근본 원인 제거 + 학습
분석 깊이표면적 증상시스템적 근본 원인
결과물패치프로세스·아키텍처 개선
공유 범위담당 팀전 조직 (공개 권장)
비난 여부담당자 추적비난 없음

포스트모템 문화 성숙도

수준특징
0장애를 덮고 넘어감, 개인 비난
1포스트모템 작성은 하지만 비난 있음
2Blameless 작성, 내부 공유
3전 조직 공개, 타 팀 학습, 자동화 통합
4포스트모템이 시스템 개선의 핵심 피드백 루프

📢 섹션 요약 비유: 포스트모템 문화 성숙도는 병원의 의료사고 처리 방식과 같다. 수준 0이 사고 은폐라면, 수준 4는 전국 의사들이 공유하는 케이스 스터디가 되어 모든 병원이 같은 실수를 반복하지 않는 것이다.


Ⅳ. 실무 적용 및 기술사 판단

포스트모템 작성 프로세스:

장애 복구 완료 (24~48시간 내):
  1. 인시던트 코디네이터가 포스트모템 드래프트 작성
  2. 관련 엔지니어가 타임라인 검토·보완
  3. 5 Whys 그룹 세션 (30~60분, 비난 없이 진행)
  4. 액션 아이템 확정 (담당자·마감일 명시)
  5. 전 조직 공유 (내부 위키, 이메일)
  6. 액션 아이템 JIRA 티켓화 후 진행 추적

심리적 안전감(Psychological Safety)과의 연계:

  • Google의 프로젝트 아리스토텔레스: 고성과 팀의 공통점 1위가 "심리적 안전감"
  • 비난 없는 포스트모템은 심리적 안전감 형성의 가장 가시적인 조직 신호
  • 리더가 직접 자신의 실수를 포스트모템에 공개하면 문화 전파 속도가 빠름

기술사 판단 포인트:

  • "누가 실수했는가?"가 아니라 "이 실수를 가능하게 한 시스템의 약점이 무엇인가?"가 올바른 질문이다.
  • 액션 아이템이 없거나 "더 조심하기", "교육 실시"처럼 추상적이면 포스트모템의 가치가 없다. 구체적이고 검증 가능한 기술적 개선이어야 한다.
  • 포스트모템을 90일 내에 다시 검토하는 "리뷰 사이클" 설정이 재발 방지 효과를 높인다.

📢 섹션 요약 비유: 좋은 액션 아이템은 "더 조심하겠습니다"가 아니라 "자동 경보를 추가해서 이 상황이 5분 이상 지속되면 즉시 알림을 받겠습니다"처럼 구체적이어야 한다.


Ⅴ. 기대효과 및 결론

기대효과설명
학습 조직 형성실수가 개인 처벌이 아닌 조직 학습 원천이 됨
재발 방지근본 원인 제거로 유사 장애 반복 방지
심리적 안전감실수를 투명하게 공유하는 문화 형성
SRE Error Budget 연계포스트모템이 Error Budget 소비의 원인 분석

Blameless Post-mortem은 기술적 실천이기 전에 조직 문화의 선택이다. "사람을 믿고 시스템을 개선한다"는 철학이 없으면 도구와 프로세스만으로는 작동하지 않는다. 리더십이 먼저 자신의 실수를 공개하고 비난받지 않음을 보여줄 때, 진정한 Blameless 문화가 시작된다.

📢 섹션 요약 비유: Blameless 포스트모템은 항공기 블랙박스와 같다. 사고 원인을 찾아 조종사를 처벌하기 위함이 아니라, 항공 산업 전체가 같은 실수를 반복하지 않도록 학습하기 위해 존재한다.


📌 관련 개념 맵

개념연결 포인트
SRE Error Budget포스트모템이 Error Budget 소비 원인 분석의 입력
5 Whys근본 원인 분석의 핵심 기법
심리적 안전감Blameless 문화의 토대이자 결과
인시던트 관리포스트모템은 인시던트 해결 후 필수 후속 활동
DORA MetricsMTTR 감소는 효과적인 포스트모템 문화가 기여
카오스 엔지니어링포스트모템 학습 결과를 카오스 실험에 반영

👶 어린이를 위한 3줄 비유 설명

  1. 포스트모템은 축구팀이 진 경기 후 선수를 혼내는 대신, "왜 골을 먹었는지" 전술 비디오를 같이 보며 공부하는 거야.

📈 관련 키워드 및 발전 흐름도

장애 발생 → 책임 추궁 (Blame Culture)
    │
    ▼
Blameless Postmortem: 사람이 아닌 시스템 개선
    ├─► Timeline 작성 · 근본 원인 분석 (5 Whys)
    └─► Action Item + 담당자 + 기한 배정
    │
    ▼
학습 조직 문화: 장애를 성장 기회로 전환
  1. "5 Whys"는 "왜 졌어?" → "수비가 약해서" → "왜 약했어?" → "훈련이 부족해서" → "왜 훈련이 부족했어?" → 계속 파고들어.
  2. 결국 선수 탓이 아니라 훈련 방법이나 팀 시스템의 문제를 찾아서 고치는 게 목표야.