💡 핵심 인사이트
에러 예산(Error Budget)은 구글의 SRE(사이트 신뢰성 공학) 철학을 관통하는 가장 위대한 발명품으로, "시스템이 100% 완벽할 필요는 없다"고 선언하며, 한 달 동안 서버가 합법적으로 뻗어도(다운타임) 용서받을 수 있는 시간(예산)을 수학적으로 할당해 주는 것입니다.
이를 통해 개발팀(속도/혁신)과 운영팀(안정성) 간의 피 터지는 싸움을 끝내고 평화를 가져옵니다.


Ⅰ. 100% 무결점의 저주 (운영팀의 딜레마)

과거 운영팀의 목표는 "서버 가동률 100%"였습니다. 이를 위해 서버를 삼중화하고, 개발팀이 가져온 새로운 코드의 배포를 "위험하다"며 극도로 거부(Gatekeeping)했습니다. 하지만 SRE는 이렇게 말합니다. "가동률을 99.9%에서 99.99%로 올리려면 서버 증설에 돈이 10배나 더 드는데, 정작 사용자는 자기 폰의 Wi-Fi가 끊겨서 페이지가 늦게 뜨는지 우리 서버가 느린지 구분도 못 해. 즉, 100%는 비즈니스적으로 미친 짓이야!"


Ⅱ. 에러 예산의 계산과 공식

시스템의 목표 가동률(SLO)을 현실적으로 99.9%로 타협(합의)해 봅시다. 한 달은 약 730시간, 분으로 치면 43,800분입니다.

  • 에러 예산 = 100% - SLO(99.9%) = 0.1%
  • 43,800분 × 0.1% = 약 43.8분

43분이 바로 이번 달에 우리 개발/운영팀이 사이트를 말아먹어도 되는(Downtime) 합법적이고 공식적인 **에러 예산(지각 허용권)**이 됩니다.


Ⅲ. 에러 예산이 가져온 놀라운 조직 혁신

이 예산표 하나가 부서 이기주의를 박살 냈습니다.

1. 개발팀의 혁신 (예산이 남았을 때)

개발자는 신기능을 미친 듯이 배포하고 싶습니다. "운영팀장님, 우리 이번 달 에러 예산 43분 중에 아직 5분밖에 안 썼어요. 예산이 넘쳐나니까 이번 주말에 이 실험적인 코드 무조건 릴리즈할게요! 막지 마쇼!" ➔ 운영팀은 예산이 남아있는 한 개발팀의 배포를 절대 막을 수 없습니다 (혁신과 속도의 보장).

2. 운영팀의 브레이크 (예산이 고갈됐을 때)

개발팀이 코드를 개판으로 짜서 서버가 뻗고 롤백하느라 이번 달 에러 예산 43분을 다 까먹었습니다. (잔고 0원). "어? 예산 다 썼네. 개발팀, 지금 이 시간부터 이번 달 말일까지 모든 신규 기능 배포 강제 중단(Code Freeze)입니다. 무조건 안정화(리팩토링, 버그 픽스) 작업만 하세요!" ➔ 개발팀은 반항할 수 없이 무조건 안정성 작업에 투입되어 코드를 튼튼하게 고칩니다.

📢 섹션 요약 비유: 에러 예산은 자녀에게 한 달에 딱 한 번 주는 **'결석 허용 쿠폰'**입니다. 이 쿠폰이 있는 한 자녀는 새벽까지 게임(혁신적인 신규 개발)을 하다가 늦잠(서버 다운)을 자도 부모가 혼내지 않습니다(자율성). 하지만 쿠폰을 다 써버리면, 남은 한 달 동안은 무조건 밤 10시에 칼취침(시스템 안정화)을 해야 하는 절대적인 수학적 규칙으로 가정의 평화를 지킵니다.