핵심 인사이트
- SLA(Service Level Agreement)는 기술 지표가 아닌 비즈니스 계약 — 서비스 제공자와 고객 간 상호 의무와 기대를 법적으로 구속하는 문서이며, "무엇을 보장하고 위반 시 어떻게 보상하는가"가 핵심이다.
- SLA 협상에서 흔히 놓치는 세 가지 — ① 측정 방법(누가 어떻게 측정?), ② 예외 사항(scheduled maintenance, force majeure), ③ 에스컬레이션 절차. 이 세 가지가 분쟁의 씨앗이 된다.
- SLA 위반보다 SLA 초과(Over-delivery)도 위험 — SLA 99.9%를 지속적으로 99.99%로 제공하면 고객이 실제 SLA를 99.99%로 기대하게 되어, 단 한 번의 99.95% 시 불만이 발생한다. 의도적 SLA 관리가 필요하다.
Ⅰ. SLA 계약 구조
SLA 문서 구조:
1. 서비스 범위 정의:
포함된 서비스: 명확히 열거
제외된 서비스: 명확히 열거 (중요!)
예: 클라우드 SaaS SLA
포함: 웹 서비스 가용성, API 응답
제외: 인터넷 연결 문제, 사용자 오류
2. 가용성 정의:
측정 단위: 월간 또는 연간
계산 방법:
(합의 서비스 시간 - 다운타임) / 합의 서비스 시간
합의 서비스 시간:
24×7 (항상) 또는 영업 시간(08~18시)
다운타임 카운팅 기준:
"서비스 응답 불가 또는 5초 이상 지연"
3. 측정 방법:
합성 모니터링 (Synthetic Monitoring):
30초 간격 외부 프로브
누가 측정?: 제3자 또는 제공자
제공자 측정 vs 독립 측정:
제공자가 자체 측정 → 이해 충돌 가능
권고: 제3자 모니터링 또는 합의된 방법
4. 페널티 구조:
위반 심각도별 크레딧:
99.0~99.9%: 10%
95.0~99.0%: 25%
95.0% 미만: 50%
최대 크레딧 한도: 월 청구 금액의 100%
5. 지원 SLA:
P1 (심각): 30분 내 초기 응답, 4시간 내 해결
P2 (높음): 2시간 내 초기 응답
P3 (보통): 다음 영업일 내
📢 섹션 요약 비유: SLA 문서는 집 임대 계약서 — 집 상태(서비스 범위), 하자 보수 기간(응답 시간), 집주인 책임 범위(제외 사항), 위반 시 임대료 공제(페널티). 모든 조건을 미리 명시!
Ⅱ. SLA 협상 전략
SLA 협상 핵심 포인트:
공급업체 관점:
1. 합리적 목표 설정:
역사 데이터 기반: 과거 6개월 가용성
예: 실제 99.97% → SLA 99.9% 제안
(여유 0.07% = 완충 지대)
2. 예외 사항 명확화:
Scheduled Maintenance:
"매주 일요일 02:00-04:00 정기 점검" 제외
사전 72시간 공지 조건
Force Majeure:
자연재해, 법적 규제, 사이버 공격
제공자 통제 불가 상황
고객 귀책 사유:
API 오용, 제한 초과, 설정 오류
3. 측정 방법 합의:
제공자 모니터링 시스템 사용
고객이 독립 검증 원하면: 제3자 도구 합의
4. 크레딧 한도:
과도한 페널티 = 사업 불가
최대 크레딧: 월 청구액의 30~100%
현금 환불 대신 서비스 크레딧 선호
고객 관점:
1. 측정 방법 검토:
누가 측정? → 독립성 요구
"제공자가 자체 측정"이면 제3자 추가
2. SLA 적용 범위:
전체 서비스 vs 핵심 기능 SLA 구분
핵심 기능 더 엄격한 SLA 요구
3. 에스컬레이션 절차:
누구에게 보고? 언제?
이슈 미해결 시 다음 단계?
4. 종료 권리 (Termination Right):
연속 N회 SLA 위반 시 계약 해지 권리
📢 섹션 요약 비유: SLA 협상은 임대 계약 협상 — 집주인(공급업체)은 여유 있게 약속(실제 99.97% → SLA 99.9%), 세입자(고객)는 독립 검사(제3자 측정)와 보호 조항(종료권) 요구!
Ⅲ. SLA 거버넌스
SLA 거버넌스 체계:
정기 리뷰 사이클:
월간 운영 리뷰 (MOR):
SLA 실적 보고
인시던트 요약
개선 계획
분기 서비스 리뷰 (QBR):
트렌드 분석
비즈니스 요구사항 변화
SLA 수정 논의
연간 계약 리뷰:
SLA 재협상
서비스 로드맵 공유
다음 해 목표 설정
SLA 리포트 구성:
[월간 서비스 리포트]
기간: 2024년 3월
가용성:
합의 SLA: 99.9%
실제 가용성: 99.97%
다운타임: 8.6분 (목표 43.2분 대비 양호)
응답 시간:
P50: 180ms (목표 300ms ↓)
P95: 450ms (목표 500ms ↓)
P99: 1,200ms (목표 1,000ms ↑ ← 주의!)
인시던트:
P1: 0건
P2: 2건 (MTTR: 1.8시간, SLA: 4시간)
SLA 크레딧: 0원 (모든 지표 SLA 준수)
개선 과제:
P99 응답시간 초과 → DB 쿼리 최적화 계획
에스컬레이션 매트릭스:
L1: 담당자 자체 해결 (4시간)
L2: 팀 리더 참여 (다음 날)
L3: 관리자 / 임원 (SLA 위반 시)
L4: 경영진 회의 (반복 위반 시)
📢 섹션 요약 비유: SLA 거버넌스는 성적표+학부모 회의 — 매달 성적표(월간 리포트), 분기마다 학부모 상담(QBR), 연도말 진학 계획(연간 리뷰). 성적 나쁘면 보충수업(개선 계획)!
Ⅳ. 멀티 클라우드 SLA 관리
멀티 클라우드 SLA 복잡성:
단일 클라우드:
SLA: 한 공급업체 = 단순
멀티 클라우드:
AWS + Azure + GCP 동시 사용
서비스 A: AWS (SLA 99.99%)
서비스 B: Azure (SLA 99.95%)
DB: GCP Cloud SQL (SLA 99.95%)
End-to-End 가용성:
0.9999 × 0.9995 × 0.9995 ≈ 99.89%
→ 각 구성 요소 SLA 곱 = 낮아짐!
SLA 연쇄 (Cascaded SLA):
사용자 → 앱 → DB
전체 SLA = 앱 SLA × DB SLA
앱 SLA 99.9%, DB SLA 99.9%:
전체: 0.999 × 0.999 = 99.8%
(각각 SLA보다 낮음!)
멀티 클라우드 SLA 전략:
1. 의존성 최소화:
핵심 경로의 의존성 컴포넌트 수 최소화
2. 비동기 처리:
동기 호출 대신 큐 기반 비동기
→ 한 서비스 다운 시 영향 격리
3. 서킷 브레이커:
의존 서비스 장애 시 빠른 실패 + 폴백
4. 다중화 (Redundancy):
AWS + Azure 이중화 → 전체 가용성 향상
0.9999 × (1 - (1-0.9995)²) ≈ 99.9975%
SLA 관리 도구:
CloudHealth: 멀티 클라우드 비용+SLA
Datadog: 통합 모니터링
Statuspage.io: 상태 페이지 (고객 공개)
📢 섹션 요약 비유: 멀티 클라우드 SLA는 체인 약점 — 99.9%짜리 링크 3개 연결 = 99.7%. 체인은 가장 약한 고리! 의존성 최소화와 이중화로 체인 강화!
Ⅴ. 실무 시나리오 — 핀테크 SLA 재협상
핀테크 스타트업 클라우드 SLA 재협상:
배경:
AWS 기반 결제 서비스
현재 SLA: 99.9% (월 43분 다운타임 허용)
문제:
실제 발생한 장애 (지난 분기):
- DB 장애: 2시간 (SLA 위반!)
- 네트워크 이슈: 15분
SLA 크레딧 청구: 없음 (고객이 모름)
고객 불만: 3건 (결제 실패 경험)
재협상 목표:
1. SLA 강화:
가용성: 99.9% → 99.95%
MTTR: 미명시 → P1 4시간 보장
2. 측정 독립성:
AWS CloudWatch 외 Pingdom 추가
→ 독립적 외부 측정
3. 페널티 강화:
99.9~99.95%: 10% 크레딧 (기존 없음)
99.0~99.9%: 25% 크레딧
99.0% 미만: 100% 크레딧
4. 자동 크레딧:
조건 충족 시 자동 크레딧 (청구 불필요)
→ 고객 신뢰 향상
AWS와 협상 결과:
99.95% SLA → 기존 Premium Support 계약 조건
자동 크레딧: 일부 서비스만 적용
보완:
내부 SLO: 99.99% (SLA 여유분 확보)
중복화: Multi-AZ RDS + ALB
DR: 타 리전 수동 페일오버 절차
결과:
이후 4개월: SLA 위반 0건
고객 불만: 0건
결제 성공률: 99.82% → 99.97%
📢 섹션 요약 비유: 핀테크 SLA 재협상은 보험 업그레이드 — 기본 보험(99.9%)에서 업그레이드(99.95%). 독립 측정(제3자) + 자동 보상 추가. 장애 없어지자 고객 불만도 0!
📌 관련 개념 맵
SLA 거버넌스
+-- 문서 구조
| +-- 서비스 범위, 가용성, 측정 방법
| +-- 페널티, 예외 사항
+-- 협상 전략
| +-- 공급업체: 완충 지대, 예외 명확화
| +-- 고객: 독립 측정, 종료 권리
+-- 거버넌스
| +-- 월간/분기/연간 리뷰
| +-- 에스컬레이션 매트릭스
+-- 멀티 클라우드
+-- SLA 연쇄 (가용성 곱)
+-- 이중화 전략
📈 관련 키워드 및 발전 흐름도
[초기 IT 아웃소싱 (1990s)]
주관적 서비스 약속
SLA 미정착
|
v
[ITIL + SLA 표준화 (2000s)]
서비스 수명주기 관리
SLA 계약 형식화
|
v
[클라우드 SLA 공개 (2006~)]
AWS, Azure, GCP SLA 공표
크레딧 구조 표준화
|
v
[SLA 자동화 (2015~)]
Statuspage.io
자동 크레딧, 모니터링 통합
|
v
[현재: 비즈니스 임팩트 SLA]
가용성 → 수익 연결
AI 기반 SLA 예측 관리
👶 어린이를 위한 3줄 비유 설명
- SLA는 약속 증서 — "이만큼 잘 해드릴게요!" 서면 계약. 못 지키면 돈(크레딧) 드려요. 집 계약서처럼 모든 조건을 명시!
- SLA 협상은 균형 찾기 — 공급업체는 달성 가능한 약속, 고객은 강한 보호 요구. 양쪽이 Win-Win하는 균형점 찾기!
- 멀티 클라우드 SLA 함정 — 99.9%짜리 서비스 3개 연결하면 전체 99.7%로 떨어져요. 체인은 가장 약한 고리가 결정!