183. 에러 예산 (Error Budget) - 혁신 속도와 신뢰성의 운영 균형

핵심 인사이트 (3줄 요약)

본질: 에러 예산 (Error Budget)은 Service Level Objective (SLO)를 100%보다 낮게 두고, 그 차이만큼을 "변경과 실패가 허용되는 운영 여유"로 계산한 신뢰성 통제 장치다.

가치: 개발팀은 남은 예산 안에서 실험과 배포를 계속할 수 있고, Site Reliability Engineering (SRE) 팀은 예산 소진 시 안정화 우선권을 확보해 속도와 안정성의 갈등을 숫자로 조정할 수 있다.

판단 포인트: 좋은 에러 예산은 단순 다운타임 합산이 아니라 Service Level Indicator (SLI), 평가 창, Burn Rate, 배포 정책이 하나의 루프로 연결되어야 실제 의사결정 도구가 된다.

Ⅰ. 개요 및 필요성

에러 예산 (Error Budget)은 "서비스는 완벽할 수 없으니, 얼마만큼의 불완전함을 감당할지 먼저 정하자"는 사고에서 출발한다. 예를 들어 월간 가용성 SLO가 99.9%라면 허용 실패량은 0.1%이고, 30일 기준으로 약 43.2분의 실패 시간이 예산이 된다. 이 숫자는 장애를 정당화하는 면죄부가 아니라, 변경 속도와 신뢰성을 같은 단위로 비교하기 위한 운영 기준선이다.

이 개념이 필요한 이유는 제품팀과 운영팀의 갈등이 대부분 "위험을 얼마까지 감수할 수 있는가"에 대한 합의 부족에서 생기기 때문이다. 기능 출시를 늦추면 시장 반응이 느려지고, 반대로 무리한 배포는 장애를 키운다. 100% 가용성을 절대 목표로 두면 모든 변화가 금기처럼 느껴지고, 아무 기준 없이 배포하면 품질 저하가 누적된다.

아래 그림은 에러 예산이 왜 단순 통계가 아니라 "변경 허용 한도"인지 보여 준다.

┌────────────────────────────────────────────────────────────────────┐
│ Reliability target and change budget                              │
├────────────────────────────────────────────────────────────────────┤
│ User requests -> SLI measurement -> SLO 99.9%                     │
│                                   │                                │
│                                   ├─ 99.9% good service required  │
│                                   └─ 0.1% failure budget allowed  │
│                                                │                   │
│                           budget remains ------┼-> release faster  │
│                           budget exhausted ----└-> stabilize first │
└────────────────────────────────────────────────────────────────────┘

핵심은 에러 예산이 "조금 고장 나도 괜찮다"는 선언이 아니라, 고객이 받아들일 수 있는 품질 범위 안에서만 혁신 속도를 쓰게 만드는 가드레일이라는 점이다. 그래서 SRE 조직은 예산을 통해 신뢰성을 비용이 아닌 투자 한도로 관리한다.

📢 섹션 요약 비유: 에러 예산은 고속도로의 갓길과 같다. 차선이 전혀 없으면 위험하고, 갓길이 너무 넓어 본선을 포기해도 문제다. 안전하게 달리되 비상 상황과 변화에 쓸 수 있는 최소한의 여유 공간이 필요하다.

Ⅱ. 아키텍처 및 핵심 원리

에러 예산이 실제로 작동하려면 네 가지가 연결되어야 한다. 첫째, 사용자 관점의 SLI를 정한다. 둘째, SLO와 평가 창을 선언한다. 셋째, 남은 예산과 Burn Rate를 계산한다. 넷째, 그 수치를 배포 정책과 직접 연결한다. 이 중 하나라도 빠지면 에러 예산은 보기 좋은 대시보드 숫자로만 남는다.

구성 요소	역할	실무 설계 포인트
SLI	실제 품질 측정값	성공률, 지연시간, 데이터 신선도처럼 사용자 영향 기준으로 정의
SLO	내부 목표치	28일·30일 롤링 창과 함께 선언
Error Budget	`1 - SLO`로 계산되는 허용 실패량	분모(eligible request)를 명확히 해야 함
Burn Rate	예산 소진 속도	빠른 장애와 느린 악화를 구분해 다중 창으로 감시
Policy	배포·실험 규칙	예산 상태별 승인 권한과 동결 조건을 사전 합의

가용성 기준에서는 계산식이 단순하다.
Error Budget = Total Eligible Time × (1 - SLO)
예를 들어 30일 동안 43,200분이 있고 SLO가 99.95%라면 예산은 21.6분뿐이다. 숫자 한 자리 차이가 허용 실패량을 절반 이하로 줄이므로, SLO 상향은 곧 더 엄격한 배포 관리와 복구 자동화를 요구한다.

아래 제어 루프는 에러 예산이 관측에서 정책으로 바뀌는 과정을 요약한다.

┌────────────────────────────────────────────────────────────────────┐
│ Error Budget control loop                                          │
├────────────────────────────────────────────────────────────────────┤
│ Telemetry -> SLI calc -> SLO window -> budget remain              │
│                                │                                   │
│                                ├-> burn rate alert                │
│                                ├-> canary / release gate          │
│                                └-> postmortem / SLO review        │
└────────────────────────────────────────────────────────────────────┘

실무에서는 잔여량만큼이나 Burn Rate가 중요하다. 잔여 예산이 많아 보여도 1시간 동안 평소의 10배 속도로 소진되면 즉시 배포를 멈추고 원인 분석을 시작해야 한다. 그래서 보통 1시간·6시간·3일 같은 복수 창을 함께 보며 "급성 장애"와 "만성 악화"를 따로 다룬다.

예산 상태	의미	권장 운영 행동
충분	예산 잔여량이 넉넉함	실험·배포 지속, 카나리 확대 가능
주의	Burn Rate 상승 또는 예산 급감	변경 폭 축소, 고위험 배포 보류
위험	예산 소진 임박	신규 기능보다 안정화 우선
소진	SLO 위반 상태	배포 동결, 장애 후속 조치와 구조 개선 집중

📢 섹션 요약 비유: 에러 예산 제어 루프는 연료 게이지와 내비게이션을 함께 보는 장거리 운전과 같다. 기름이 남았는지뿐 아니라 지금 속도로 달리면 어디서 바닥나는지도 같이 봐야 목적지까지 안전하게 간다.

Ⅲ. 비교 및 연결

에러 예산의 경계는 SLI, SLO, Service Level Agreement (SLA), 변경 관리와 비교할 때 더 선명해진다. SLI는 현재 상태를 재는 계기판이고, SLO는 허용 목표이며, SLA는 고객과의 계약이다. 에러 예산은 그중 SLO에서 파생되는 운영 가능한 실패량으로, 배포·실험·안정화 우선순위를 조절하는 내부 통제 수단이다.

구분	핵심 질문	역할
SLI	지금 실제 품질은 얼마인가	측정
SLO	어느 수준을 유지할 것인가	내부 목표
Error Budget	얼마나 더 변경 위험을 감수할 수 있는가	운영 통제
SLA	고객에게 무엇을 약속했는가	외부 계약

또한 에러 예산은 "100% 가용성 강박"과도 대비된다. 100%를 절대선으로 두면 사소한 오류도 곧바로 실패로 해석되어 변화가 멈춘다. 반대로 예산이 있는 조직은 허용 실패량을 전제로, 작은 실험을 반복하면서도 선을 넘으면 즉시 복원력 투자로 전환한다.

운영 방식	장점	한계
100% 가용성 집착	보수적 운영, 단기 사고 회피	혁신 위축, 숨은 장애 은폐 가능
SLO만 있고 정책 없음	목표는 존재	배포 여부가 결국 감정에 좌우
Error Budget 기반 운영	속도와 안정성의 공통 언어 제공	잘못된 SLI/SLO면 오판 가능

에러 예산은 다른 DevOps 지표와도 연결된다. DORA (DevOps Research and Assessment) 지표의 배포 빈도, 변경 실패율, 평균 복구 시간을 함께 보면 "왜 예산이 빨리 타는가"가 보인다. Toil이 많은 조직은 자동화가 부족해 예산을 방어하기 어렵고, Blameless Postmortem이 약하면 예산을 잃고도 학습을 남기지 못한다. 결국 에러 예산은 SRE 단독 개념이 아니라, 배포 문화와 운영 성숙도를 묶는 허브다.

📢 섹션 요약 비유: SLI·SLO·SLA·에러 예산의 관계는 체온계, 건강 목표, 보험 약관, 하루 활동량 한도의 관계와 같다. 체온은 상태를 보여 주고, 목표는 기준을 정하고, 보험은 약속을 만들며, 활동량 한도는 오늘 얼마나 무리할지 결정하게 만든다.

Ⅳ. 실무 적용 및 기술사 판단

실무에서 가장 중요한 판단은 "무엇을 예산에 포함할 것인가"와 "예산이 줄면 어떤 행동이 자동으로 바뀌는가"다. 사용자에게 보이지 않는 내부 오류를 모두 넣으면 과민 반응이 되고, 고객이 체감한 실패를 제외하면 의미 없는 숫자가 된다. 따라서 로그인, 결제, 검색, 데이터 적재 완료 같은 핵심 사용자 여정 중심으로 SLI를 잡아야 한다.

상황	권장 판단	이유
잦은 신규 기능 배포 서비스	에러 예산을 배포 게이트와 직접 연결	출시 속도와 안정성의 충돌이 크기 때문
규제성 핵심 경로	더 높은 SLO와 보수적 정책	실패 1건의 사업 영향이 큼
내부 분석 플랫폼	가용성보다 데이터 신선도 SLI 고려	사용자가 체감하는 실패 축이 다름
외부 의존성 많은 서비스	외부 장애도 사용자 영향이면 별도 태깅 후 예산에 반영	고객은 원인을 구분하지 않기 때문

기술사 답안에서 강조할 판단 포인트는 다음과 같다.

SLI는 시스템 내부 편의가 아니라 사용자 가치에 맞는가?
Burn Rate 알림이 단일 창이 아닌 다중 창으로 설계되어 있는가?
예산 소진 시 배포 동결, 카나리 축소, 승인 강화 같은 정책이 문서로 존재하는가?
예산 소진 원인이 배포 문제인지, 의존성 장애인지, 구조적 성능 한계인지 분류되는가?
반복 소진 시 SLO 자체를 현실화할지, 아키텍처 투자를 늘릴지 재평가하는가?

안티패턴도 분명하다. 첫째, "예산이 남으니 마음껏 배포해도 된다"며 실험 설계 없이 변경을 남발하는 태도다. 둘째, 예산이 조금 줄었다고 모든 변경을 과도하게 동결해 혁신을 스스로 막는 태도다. 셋째, 고객이 느끼는 장애는 숨기고 내부 로그 기준으로만 예산을 계산하는 태도다. 넷째, 월말에만 예산을 확인해 이미 늦은 뒤에야 동결하는 태도다.

결국 에러 예산의 핵심은 예산 자체보다 정책 자동화와 회고 루프에 있다. 숫자를 보고 끝내지 말고, 왜 탔는지와 다음엔 어떻게 덜 태울지를 연결해야 한다.

📢 섹션 요약 비유: 에러 예산 운영은 회사 법인카드 사용 규정과 같다. 잔액만 보는 것이 아니라, 잔액이 줄면 결재 절차를 바꾸고, 특정 항목이 반복 지출되면 예산 구조를 다시 짜야 한다.

Ⅴ. 기대효과 및 결론

에러 예산이 잘 정착되면 조직은 "빠르게 배포할 것인가, 안정적으로 운영할 것인가"를 이분법으로 보지 않게 된다. 예산이 남아 있을 때는 과감한 변화가 가능하고, 예산이 위험 구간에 들어가면 자동으로 안정화와 기술 부채 상환이 우선된다. 이 덕분에 신뢰성은 개발 속도를 막는 경찰이 아니라, 변화 속도를 안전하게 조절하는 재무 규칙처럼 작동한다.

물론 한계도 있다. SLO가 지나치게 느슨하면 예산이 의미 없이 넓어지고, 반대로 지나치게 공격적이면 조직이 늘 적색 경보 상태가 된다. 또한 고객이 체감하지 않는 지표를 SLI로 잡으면 예산이 남아도 실제 만족도는 떨어질 수 있다. 결국 에러 예산의 성패는 계산식보다 무엇을 측정하고 어떤 행동으로 연결하는가에 달려 있다.

앞으로는 자동 카나리 분석, 인공지능 기반 이상 탐지, 서비스별 동적 예산 정책이 더 많이 결합될 것이다. 그럼에도 기억해야 할 핵심은 같다. 에러 예산은 장애 허용량이 아니라, 고객 신뢰를 훼손하지 않는 범위에서 혁신 속도를 집행하는 운영 통화다.

📢 섹션 요약 비유: 에러 예산은 투자 포트폴리오의 위험 한도와 같다. 수익을 위해 어느 정도 위험은 감수하지만, 한도를 넘으면 즉시 포지션을 줄여 전체 자산을 지키는 식이다.

📌 관련 개념 맵

개념	연결 포인트
SLI (Service Level Indicator)	에러 예산 계산의 원천이 되는 실측값
SLO (Service Level Objective)	`1 - SLO`가 에러 예산의 기본 계산식
Burn Rate	남은 예산이 얼마나 빨리 소진되는지 보여 주는 속도 지표
Canary Release	예산을 적게 쓰면서 변경 위험을 검증하는 배포 방식
Toil	예산을 반복적으로 태우는 운영 부채의 신호
Blameless Postmortem	예산 소진 원인을 구조적 개선으로 바꾸는 학습 루프
SLA (Service Level Agreement)	내부 예산 관리가 지켜야 할 외부 계약 경계

📈 관련 키워드 및 발전 흐름도

서비스 품질 측정
    │
    ▼
SLI (Service Level Indicator)
    │
    ▼
SLO (Service Level Objective) 설정
    │
    ▼
Error Budget 계산
    │
    ├─ Burn Rate alert
    ├─ release / canary gate
    └─ postmortem / SLO tuning
    │
    ▼
신뢰성과 혁신 속도의 운영 균형

이 흐름은 단순 메트릭 수집이 배포 정책과 학습 루프까지 이어질 때 비로소 에러 예산이 살아 있는 운영 체계가 된다는 점을 보여 준다.

👶 어린이를 위한 3줄 비유 설명

에러 예산은 한 달 동안 써도 되는 "실수 쿠폰" 같은 거예요.
쿠폰이 남아 있으면 새 장난감을 시험해 볼 수 있지만, 거의 다 쓰면 먼저 망가진 곳을 고쳐야 해요.
그래서 모두가 감으로 싸우지 않고 숫자를 보며 "지금은 모험할 때인지, 고칠 때인지"를 정할 수 있어요.