핵심 인사이트 (3줄 요약)

  1. 본질: SLI(Service Level Indicator)는 사용자 경험 관점에서 서비스 품질을 정량적으로 측정하는 지표이며, "좋은 이벤트 수 / 전체 이벤트 수"의 **비율(0~100%)**로 표현된다.
  2. 가치: "서비스가 잘 돌아가고 있다"를 주관이 아닌 데이터로 판단할 수 있으며, SLI→SLO(목표)→Error Budget(허용 범위)→SLA(계약)의 계층적 신뢰성 관리 체계의 출발점이다.
  3. 판단 포인트: 가용성(성공 요청/전체)·레이턴시(p99 < 200ms 요청/전체)·에러율(5xx 에러/전체)이 3대 SLI이며, 사용자에게 의미 있는 지표를 선택하는 것이 핵심이다.

Ⅰ. 개요 및 필요성

┌───────────────────────────────────────────────────────┐
│    SLI 계산 예시                                      │
├───────────────────────────────────────────────────────┤
│  [가용성 SLI]                                         │
│   성공 요청: 99,950건 / 전체: 100,000건              │
│   → SLI = 99.95%                                     │
│                                                       │
│  [레이턴시 SLI]                                       │
│   p99 < 200ms 요청: 99,700건 / 전체: 100,000건      │
│   → SLI = 99.7%                                      │
│                                                       │
│  SLO: SLI ≥ 99.9% (목표)                             │
│  Error Budget: 100% - 99.9% = 0.1%                    │
└───────────────────────────────────────────────────────┘
  • 📢 섹션 요약 비유: SLI는 학생의 시험 점수이고, SLO는 **합격 기준(90점 이상)**이며, Error Budget은 틀려도 되는 문제 수이다.

Ⅱ. 아키텍처 및 핵심 원리

3대 SLI

SLI측정공식
가용성성공 요청 비율성공/전체 × 100%
레이턴시기준 이내 요청 비율(p99 < 200ms)/전체
에러율에러 미발생 비율(1 - 5xx/전체) × 100%

SLI 선택 원칙

  • 사용자 관점: 서버 CPU 사용률은 SLI가 아니다. 사용자가 느끼는 응답 속도·에러가 SLI다.

  • 비율: 항상 0~100%로 표현하여 SLO와 비교 가능.

  • 📢 섹션 요약 비유: CPU 사용률은 엔진 RPM이고, SLI는 승객이 느끼는 차량 속도이다. 승객에게 중요한 건 RPM이 아니라 속도이다.


Ⅲ. 비교 및 연결

비교SLISLOSLA
정의측정 지표목표 임계치계약
주체엔지니어팀 합의고객 계약
99.95%≥ 99.9%위반 시 크레딧

Ⅳ. 실무 적용 및 기술사 판단

SLI 측정 도구

  • Prometheus + Grafana: SLI 대시보드.
  • Datadog SLO: 자동 SLI 추적·알림.
  • OpenSLO: SLI/SLO를 YAML로 정의하는 표준.

Ⅴ. 기대효과 및 결론

SLI는 SRE의 모든 판단의 출발점이며, 올바른 SLI 선택이 SLO·Error Budget·운영 의사결정의 품질을 결정한다.


📌 관련 개념 맵

개념연결 포인트
SLI서비스 수준 측정 (비율)
SLOSLI의 목표 임계치
Error Budget100% - SLO
SLASLO 기반 고객 계약
OpenSLOSLI/SLO YAML 표준

📈 관련 키워드 및 발전 흐름도

[가용성 99.999% 목표 (전통 운영)]
    │
    ▼
[SRE (Google, 2003~) — SLI/SLO/Error Budget 정의]
    │
    ▼
[Prometheus + Grafana SLI 대시보드 (2016~)]
    │
    ▼
[OpenSLO 표준 (2022~) — SLI/SLO YAML 정의]
    │
    ▼
[현재: AI SLI — 이상 탐지 기반 자동 SLI 추천]

👶 어린이를 위한 3줄 비유 설명

  1. SLI는 학교 시험 점수예요. "우리 서비스가 몇 점인지" 알 수 있어요.
  2. SLO는 **합격 기준(90점)**이에요. 점수가 기준 이하면 공부(안정화)에 집중해야 해요.
  3. 중요한 건 학생(사용자)이 느끼는 점수이지, 선생님(서버) 기분이 아니에요!