핵심 인사이트 (3줄 요약)
- 시스템이 죽지 않고 살아있는 비율을 **가용성(Availability)**이라고 하며, 하드웨어 공급자(AWS 등)와 고객 간에 맺는 "목표 가용성을 달성하지 못하면 돈을 물어주겠다"는 계약서가 **SLA (서비스 수준 협약)**다.
- 가용성은 보통 '나인(Nines)'의 개수로 표현한다. 예를 들어 **99.9% (3 Nines)**는 1년에 약 8시간 정도 서버가 다운될 수 있음을 의미하고, **99.999% (5 Nines)**는 1년에 단 5분만 허용되는 극한의 수준이다.
- 높은 SLA를 보장하기 위해 컴퓨터 구조에서는 파워, 랜카드, 디스크 등을 이중화(Redundancy)하고 결함 허용(Fault Tolerance) 아키텍처를 적용하는 막대한 비용이 수반된다.
Ⅰ. SLA의 정의와 필요성
회사의 이메일 서버를 AWS 클라우드에 맡겼습니다. 그런데 하드웨어 고장으로 서버가 하루 종일 죽어서 수억 원의 영업 손실을 보았습니다. 이때 클라우드 업체가 "기계니까 고장 날 수도 있죠"라고 잡아떼면 고객은 미쳐버릴 것입니다.
이를 막기 위해 도장 찍는 계약이 **SLA (Service Level Agreement)**입니다.
- "우리는 서버의 월간 가동 시간(Uptime)을 무조건 99.9% 이상 유지하겠습니다."
- "만약 우리 하드웨어가 뻗어서 99.9% 밑으로 떨어지면, 다음 달 서버 요금의 10%를 환불(Service Credit)해 드리겠습니다."
SLA는 하드웨어 엔지니어들에게 "무슨 짓을 해서라도 이 시간 이상은 뻗으면 안 된다"는 기술적 데드라인을 제시합니다.
📢 섹션 요약 비유: 택배 회사(클라우드)가 "무조건 내일 도착 보장(SLA)! 내일 안 오면 배송비 전액 환불!"이라고 선언하는 것과 같습니다. 이 약속을 지키기 위해 택배 회사는 차가 고장 날 것을 대비해 예비 트럭(이중화)을 항상 대기시켜야 합니다.
Ⅱ. 9의 마법: 가용성(Availability)의 체감 시간
컴퓨터 공학에서 가용성은 **MTBF(평균 고장 간격)**와 **MTTR(평균 수리 시간)**의 수학적 공식으로 계산되지만, 현업에서는 보통 Nines(9의 개수)로 통용됩니다.
1년(365일 = 525,600분)을 기준으로 다운타임(장애 허용 시간)을 계산해 봅시다.
| 가용성 (SLA) | 9의 개수 | 1년 동안 허용되는 최대 다운타임 | 주요 적용 대상 |
|---|---|---|---|
| 99% | 2 Nines | 약 3.6일 (87시간) | 개인용 PC, 중요하지 않은 내부 인트라넷 |
| 99.9% | 3 Nines | 약 8.7시간 | 일반적인 웹 서버, 표준 클라우드 VM |
| 99.99% | 4 Nines | 약 52분 | 대형 이커머스, 핵심 데이터베이스 |
| 99.999% | 5 Nines | 단 5.26분 | 통신사 기지국(Carrier-Grade), 항공기, 금융 메인프레임 |
| 99.9999% | 6 Nines | 31초 | 우주선, 극단적 미션 크리티컬 장비 |
9가 하나 늘어날 때마다 허용되는 장애 시간은 1/10로 줄어들지만, 이를 구현하기 위한 하드웨어 투자 비용은 10배씩 기하급수적으로 폭등합니다.
📢 섹션 요약 비유: 99.9%는 직원이 1년에 하루 연차를 쓰는 것이 허용되는 직장이라면, 99.999% (5 Nines)는 1년 365일 내내 화장실 가는 시간 딱 5분만 빼고 단 1초도 자리를 비우면 안 되는 숨 막히는 경비 초소입니다.
Ⅲ. SLA 99.99% 이상을 달성하기 위한 하드웨어 구조
99.9% (3 Nines) 까지는 고장 났을 때 담당자가 삐삐를 받고 뛰어와서 서버를 재부팅(MTTR 단축)해도 달성할 수 있습니다. 하지만 99.999% (연 5분 다운)는 사람이 개입할 시간이 없습니다. 하드웨어 자체가 고장을 실시간으로 덮어버려야 합니다.
- 컴포넌트 레벨 이중화: 서버 한 대 안에 파워서플라이 2개, 랜카드 2개, 쿨링팬 4개를 달고 RAID로 디스크를 묶어, 부품 하나가 죽어도 1초의 멈춤 없이 굴러갑니다.
- 시스템 레벨 클러스터링: 앞서 배운 락스텝(Lockstep)이나 핫 스탠바이(Hot Standby)를 통해 보드 A가 불타면 0.1초 만에 보드 B가 IP 주소를 탈취하여 서비스를 이어갑니다.
- 지리적 다중화 (Multi-AZ / Multi-Region): 데이터센터 자체에 지진이 날 것을 대비해, 수십 km 떨어진 다른 데이터센터에 똑같은 하드웨어를 복제해 두고 광케이블로 동기화시킵니다.