핵심 인사이트 (3줄 요약)
- 앞서 배운 RBD(신뢰성 블록)나 FTA(결함 트리)는 "부품이 고장 나면 그걸로 끝이다"라는 정적인 분석이다. 하지만 실제 서버는 고장이 나면 사람이 가서 뚝딱뚝딱 고쳐서 다시 쌩쌩하게 살려낸다(수리, Repair).
- **마르코프 모델 (Markov Model)**은 이처럼 시간이 흐름에 따라 시스템이 정상 $\rightarrow$ 고장 $\rightarrow$ 수리 $\rightarrow$ 다시 정상으로 끊임없이 변하는 **동적인 상태 변화(State Transition)**를 확률적으로 계산하는 기법이다.
- 이를 통해 고장률($\lambda$)뿐만 아니라 수리율($\mu$)까지 반영하여, 클라우드 시스템이 "장기적으로 몇 %의 확률로 살아있을 것인가(가용성, Availability)"를 가장 현실과 가깝게 시뮬레이션할 수 있다.
Ⅰ. 고장 나도 고치면 그만이다 (수리의 중요성)
RBD 계산식에서 부품의 신뢰도(생존율)는 1년이 지나면 무조건 깎였습니다. 하지만 데이터센터는 고장 난 하드디스크를 그대로 두지 않고 1시간 만에 새 하드로 교체해 버립니다.
이렇게 '고치는 행위'가 포함된 시스템의 진짜 생존 확률은 단순히 곱하기로 풀 수 없습니다. "어제 비가 왔으니 오늘 비가 올 확률은 30%다"처럼, **현재 상태를 바탕으로 다음 상태로 변할 확률(전이 확률)**을 계산하는 체계가 필요했고, 수학자 안드레이 마르코프가 만든 모델이 여기에 딱 맞아떨어졌습니다.
📢 섹션 요약 비유: 체력이 깎이기만 하는 RPG 게임(RBD)이 아니라, 전투 중에도 포션을 먹어 체력을 회복(마르코프 모델)할 수 있는 게임입니다. 몬스터(고장)에게 맞는 속도보다 포션(수리) 먹는 속도가 더 빠르면 플레이어는 영원히 죽지 않습니다.
Ⅱ. 마르코프 상태 전이도 그리기
서버가 2대(A, B)인 Active-Standby 이중화 시스템을 마르코프 모델로 그려봅시다. 서버가 고장 나는 속도를 고장률($\lambda$, 람다), 직원이 고치는 속도를 수리율($\mu$, 뮤)라고 합니다.
상태(State)의 정의
- 상태 0 (S0): 서버 A, B 둘 다 쌩쌩하게 살아있는 최고 상태.
- 상태 1 (S1): 서버 1대가 죽었지만(고장 발생), 남은 1대로 서비스는 버티고 있는 아슬아슬한 상태.
- 상태 2 (S2): 서버 2대가 다 터져서 서비스가 멈춘 대재앙(System Failure) 상태.
전이도 (ASCII)
(서버 1대 고장남 $\lambda$) (남은 1대마저 고장남 $\lambda$)
───────▶ ───────▶
[ S0: 둘다생존 ] [ S1: 1대생존 ] [ S2: 둘다죽음 (재앙) ]
◀─────── ◀───────
(죽은 서버 새걸로 교체 $\mu$) (엔지니어가 밤새서 1대 고침 $\mu$)
마르코프 모델의 핵심은 저 동그라미(상태)들 사이를 화살표($\lambda, \mu$)를 타고 확률적으로 영원히 뱅글뱅글 돈다는 것입니다. 엔지니어는 연립 미분 방정식을 세워, "10년 뒤에 이 시스템이 상태 2(재앙)에 빠져 있을 확률이 0.001% 미만인가?"를 증명해 냅니다.
📢 섹션 요약 비유: 배(S0)에 구멍이 뚫려 물(고장, $\lambda$)이 들어옵니다. 선원이 바가지로 물(수리, $\mu$)을 퍼냅니다. 물이 차는 속도가 퍼내는 속도보다 빠르면 배는 결국 가라앉습니다(S2). 이 아슬아슬한 줄다리기의 최종 결과를 수학적으로 예측하는 것입니다.
Ⅲ. 마르코프 모델이 인프라 설계에 주는 교훈
이 공식을 돌려보면 인프라 관리자에게 아주 뼈 때리는 결론이 나옵니다.
"비싼 서버 1대 살 돈으로, 싸구려 서버 2대 사고 오토바이를 탄 총알 수리 기사를 고용해라!"
아무리 안 고장 나는 비싼 장비(낮은 $\lambda$)를 샀더라도 수리 기사가 3일 뒤에 오면, 결국 시스템은 언젠가 S2(재앙) 상태로 빠집니다. 반면 매일 1대씩 고장 나는 싸구려 장비라도(높은 $\lambda$), 수리 기사가 1분 만에 달려와서 새 하드를 꽂아주면(미친 듯이 높은 $\mu$), 이 시스템은 수학적으로 영원히 죽지 않는 **불사조(SLA 99.999%)**가 됩니다.
MTTR(평균 수리 시간)을 극한으로 줄이는 것이 최신 클라우드 인프라의 핵심임을 수학으로 증명해 준 위대한 모델입니다.