핵심 인사이트 (3줄 요약)

  1. 앞서 배운 RBD(신뢰성 블록)나 FTA(결함 트리)는 "부품이 고장 나면 그걸로 끝이다"라는 정적인 분석이다. 하지만 실제 서버는 고장이 나면 사람이 가서 뚝딱뚝딱 고쳐서 다시 쌩쌩하게 살려낸다(수리, Repair).
  2. **마르코프 모델 (Markov Model)**은 이처럼 시간이 흐름에 따라 시스템이 정상 $\rightarrow$ 고장 $\rightarrow$ 수리 $\rightarrow$ 다시 정상으로 끊임없이 변하는 **동적인 상태 변화(State Transition)**를 확률적으로 계산하는 기법이다.
  3. 이를 통해 고장률($\lambda$)뿐만 아니라 수리율($\mu$)까지 반영하여, 클라우드 시스템이 "장기적으로 몇 %의 확률로 살아있을 것인가(가용성, Availability)"를 가장 현실과 가깝게 시뮬레이션할 수 있다.

Ⅰ. 고장 나도 고치면 그만이다 (수리의 중요성)

RBD 계산식에서 부품의 신뢰도(생존율)는 1년이 지나면 무조건 깎였습니다. 하지만 데이터센터는 고장 난 하드디스크를 그대로 두지 않고 1시간 만에 새 하드로 교체해 버립니다.

이렇게 '고치는 행위'가 포함된 시스템의 진짜 생존 확률은 단순히 곱하기로 풀 수 없습니다. "어제 비가 왔으니 오늘 비가 올 확률은 30%다"처럼, **현재 상태를 바탕으로 다음 상태로 변할 확률(전이 확률)**을 계산하는 체계가 필요했고, 수학자 안드레이 마르코프가 만든 모델이 여기에 딱 맞아떨어졌습니다.

📢 섹션 요약 비유: 체력이 깎이기만 하는 RPG 게임(RBD)이 아니라, 전투 중에도 포션을 먹어 체력을 회복(마르코프 모델)할 수 있는 게임입니다. 몬스터(고장)에게 맞는 속도보다 포션(수리) 먹는 속도가 더 빠르면 플레이어는 영원히 죽지 않습니다.

Ⅱ. 마르코프 상태 전이도 그리기

서버가 2대(A, B)인 Active-Standby 이중화 시스템을 마르코프 모델로 그려봅시다. 서버가 고장 나는 속도를 고장률($\lambda$, 람다), 직원이 고치는 속도를 수리율($\mu$, 뮤)라고 합니다.

상태(State)의 정의

  • 상태 0 (S0): 서버 A, B 둘 다 쌩쌩하게 살아있는 최고 상태.
  • 상태 1 (S1): 서버 1대가 죽었지만(고장 발생), 남은 1대로 서비스는 버티고 있는 아슬아슬한 상태.
  • 상태 2 (S2): 서버 2대가 다 터져서 서비스가 멈춘 대재앙(System Failure) 상태.

전이도 (ASCII)

    (서버 1대 고장남 $\lambda$)         (남은 1대마저 고장남 $\lambda$)
       ───────▶                 ───────▶
 [ S0: 둘다생존 ]            [ S1: 1대생존 ]           [ S2: 둘다죽음 (재앙) ]
       ◀───────                 ◀───────
  (죽은 서버 새걸로 교체 $\mu$)        (엔지니어가 밤새서 1대 고침 $\mu$)

마르코프 모델의 핵심은 저 동그라미(상태)들 사이를 화살표($\lambda, \mu$)를 타고 확률적으로 영원히 뱅글뱅글 돈다는 것입니다. 엔지니어는 연립 미분 방정식을 세워, "10년 뒤에 이 시스템이 상태 2(재앙)에 빠져 있을 확률이 0.001% 미만인가?"를 증명해 냅니다.

📢 섹션 요약 비유: 배(S0)에 구멍이 뚫려 물(고장, $\lambda$)이 들어옵니다. 선원이 바가지로 물(수리, $\mu$)을 퍼냅니다. 물이 차는 속도가 퍼내는 속도보다 빠르면 배는 결국 가라앉습니다(S2). 이 아슬아슬한 줄다리기의 최종 결과를 수학적으로 예측하는 것입니다.

Ⅲ. 마르코프 모델이 인프라 설계에 주는 교훈

이 공식을 돌려보면 인프라 관리자에게 아주 뼈 때리는 결론이 나옵니다.

"비싼 서버 1대 살 돈으로, 싸구려 서버 2대 사고 오토바이를 탄 총알 수리 기사를 고용해라!"

아무리 안 고장 나는 비싼 장비(낮은 $\lambda$)를 샀더라도 수리 기사가 3일 뒤에 오면, 결국 시스템은 언젠가 S2(재앙) 상태로 빠집니다. 반면 매일 1대씩 고장 나는 싸구려 장비라도(높은 $\lambda$), 수리 기사가 1분 만에 달려와서 새 하드를 꽂아주면(미친 듯이 높은 $\mu$), 이 시스템은 수학적으로 영원히 죽지 않는 **불사조(SLA 99.999%)**가 됩니다.

MTTR(평균 수리 시간)을 극한으로 줄이는 것이 최신 클라우드 인프라의 핵심임을 수학으로 증명해 준 위대한 모델입니다.