💡 핵심 인사이트
SLA는 IT 서비스를 제공하는 측(IT 부서/외주업체)과 서비스를 받는 측(고객)이 모여, 서비스의 품질 수준을 "서버 가동률 99.9%, 장애 응답 시간 30분 이내"처럼 명확하고 정량적인 수치로 합의한 법적 계약서입니다.
모호한 기대치를 없애고 분쟁을 막는 ITSM의 가장 중요한 나침반입니다.
Ⅰ. SLA(서비스 수준 협약)의 필요성
- 고객의 생각: "내가 돈을 엄청나게 줬으니, 클라우드 서버는 1년 365일 1초도 안 꺼지고 장애 나면 1분 만에 고쳐주겠지?"
- IT 업체의 생각: "야간에는 당직자가 1명뿐이라, 장애 나면 내일 아침 출근해서 고쳐주면 되겠지."
이렇게 서로 머릿속에 그리는 '좋은 서비스'의 기준이 완전히 달라서 분쟁(법정 소송)이 터지는 것을 막기 위해, 서비스 제공 전에 양측이 합의하여 문서에 도장을 찍는 정량적 품질 기준표가 SLA입니다.
Ⅱ. SLA의 핵심 지표 (SLI: Service Level Indicator)
SLA 문서 안에 들어가는 구체적인 측정 지표(수치)들을 SLI라고 부릅니다. 이 지표들은 추상적이면 안 되고 반드시 컴퓨터(모니터링 툴)로 초 단위 측정이 가능해야 합니다.
대표적인 SLA 지표 예시
- 가용성 (Availability / Uptime) ★가장 중요★: "서버는 1년 중 99.9% (쓰리 나인) 이상의 시간 동안 멈추지 않고 정상 작동해야 한다." (99.9%면 1년에 약 8시간 정도의 다운타임만 허용됨). AWS나 Azure 같은 클라우드 벤더의 핵심 계약 조건.
- 응답 시간 (Response Time): "사용자가 웹페이지 버튼을 눌렀을 때, 1.5초 이내에 화면이 떠야 한다."
- 평균 복구 시간 (MTTR, Mean Time To Repair): "장애가 발생하여 신고가 접수된 후, 평균적으로 2시간 이내에 서비스를 정상화해야 한다."
- 결함률: "월간 백업 작업 100번 중 실패 횟수는 1회 미만이어야 한다."
Ⅲ. SLA 미달 시의 패널티 (서비스 크레딧)
SLA는 단순한 목표가 아니라 **계약(Agreement)**입니다.
만약 AWS가 약속한 월간 가용성 99.9%를 못 지키고 서버가 5시간 동안 뻗어서 고객의 쇼핑몰 장사를 망쳤다면? AWS는 SLA 위반 조항에 따라 다음 달 청구될 클라우드 요금의 10%~30%를 할인해 주거나 환불해 주는 **'서비스 크레딧(Penalty)'**을 고객에게 지급해야 할 법적 의무를 집니다. 반대로 목표치를 초과 달성하면 인센티브를 주도록 계약하기도 합니다.
📢 섹션 요약 비유: SLA는 피자 배달 앱의 **'보상형 타이머'**와 같습니다. 고객과 피자집이 미리 "주문 후 정확히 **30분 이내(SLI 지표)**에 도착한다"고 약속(SLA)을 맺고, 만약 35분이 걸려 약속을 어겼다면 피자집이 고객에게 **2,000원짜리 사과 쿠폰(패널티/크레딧)**을 보상해야 하는 명확하고 깐깐한 배달 보증 계약서입니다.