핵심 인사이트 (3줄 요약)

  1. 본질: SRE(Site Reliability Engineering)는 Google이 정립한 소프트웨어 엔지니어링으로 운영 문제를 해결하는 철학이며, "운영을 소프트웨어 문제로 다루겠다"는 원칙 아래 SLI/SLO/Error Budget으로 신뢰성을 정량 관리한다.
  2. 가치: 전통 Ops는 "장애 없이 100% 가용"을 목표로 하지만, SRE는 **"100%는 잘못된 목표"**라고 선언하고, Error Budget(허용 가능 장애 시간)을 활용하여 신뢰성과 혁신 속도의 균형을 유지한다.
  3. 판단 포인트: SLI(측정 지표)→SLO(목표 임계치)→Error Budget(남은 여유)→SLA(계약)의 계층 구조를 이해하고, Error Budget이 소진되면 피처 개발을 중단하고 신뢰성 개선에 집중하는 정책이 핵심이다.

Ⅰ. 개요 및 필요성

┌───────────────────────────────────────────────────────┐
│    SRE 핵심 계층                                      │
├───────────────────────────────────────────────────────┤
│  SLI (Service Level Indicator)                        │
│   → 측정: 요청 성공률, p99 레이턴시                   │
│                                                       │
│  SLO (Service Level Objective)                        │
│   → 목표: 성공률 ≥ 99.9% (30일 기준)                │
│                                                       │
│  Error Budget = 100% - SLO = 0.1%                     │
│   → 30일 × 0.1% = 43.2분의 장애 허용                │
│   → 43.2분 소진 → 피처 개발 중단, 안정화 집중!       │
│                                                       │
│  SLA (Service Level Agreement)                        │
│   → 고객과의 계약 (SLO 미달 시 크레딧/위약금)        │
└───────────────────────────────────────────────────────┘
  • 📢 섹션 요약 비유: Error Budget은 매월 주어지는 **용돈(43분)**이다. 장애가 나면 용돈이 줄고, 다 쓰면 새 장난감(피처) 구매 금지(개발 중단), 안정화에 집중해야 한다.

Ⅱ. 아키텍처 및 핵심 원리

SRE vs DevOps

비교DevOpsSRE
관점문화·협업구체적 구현 방법
신뢰성정성적SLI/SLO 정량적
운영자동화 지향소프트웨어로 해결
관계철학DevOps의 구체적 구현

Toil 제거

  • Toil: 수동·반복적·자동화 가능한 운영 작업.

  • SRE 엔지니어는 Toil을 50% 미만으로 유지하고 나머지는 자동화·엔지니어링에 투자.

  • 📢 섹션 요약 비유: Toil은 매일 손으로 빨래하는 것이고, SRE는 세탁기(자동화)를 만들어 빨래 시간을 줄이고 나머지 시간에 새 옷(피처)을 만드는 것이다.


Ⅲ. 비교 및 연결

비교전통 OpsSRE
목표100% 가용SLO (99.9% 등)
장애무조건 나쁨Error Budget 내면 OK
혁신변경 회피Budget 내 혁신 장려

Ⅳ. 실무 적용 및 기술사 판단

SRE 핵심 도서

  • "Site Reliability Engineering" (Google, 2016): SRE 바이블.
  • "The Site Reliability Workbook" (2018): 실무 가이드.

Ⅴ. 기대효과 및 결론

SRE는 **"완벽한 가용성은 잘못된 목표"**라는 혁명적 관점으로, Error Budget을 통해 신뢰성과 혁신의 균형을 정량적으로 관리하는 현대 운영의 표준이다.


📌 관련 개념 맵

개념연결 포인트
SLI서비스 수준 지표 (측정)
SLO서비스 수준 목표 (임계치)
Error Budget허용 장애 시간 (혁신 vs 안정)
Toil수동·반복 운영 작업 (제거 대상)
SLA고객과의 계약 (SLO 기반)

📈 관련 키워드 및 발전 흐름도

[전통 운영 (NOC, 100% 가용 목표, ~2000s)]
    │
    ▼
[DevOps 문화 (2009~) — Dev+Ops 협업]
    │
    ▼
[SRE (Google, 2003→2016 공개) — SLI/SLO/Error Budget]
    │
    ▼
[Platform Engineering (2022~) — SRE + 내부 개발자 플랫폼]
    │
    ▼
[현재: AIOps + SRE — AI 기반 자동 인시던트 대응]

👶 어린이를 위한 3줄 비유 설명

  1. SRE는 **용돈(Error Budget)**을 매달 받는 거예요. 장애가 나면 용돈이 줄어요.
  2. 용돈이 다 떨어지면 새 장난감(피처) 사는 건 잠시 멈추고 안전(안정화)에 집중해요.
  3. 덕분에 너무 많이 놀지도(장애), 너무 공부만 하지도(변경 회피) 않는 균형을 유지해요!