12. 마르코프 성질 (Markov Property) — 미래 ⊥ 과거

핵심 인사이트

마르코프 성질(Markov Property)은 "미래는 현재만 알면 충분하며, 과거는 현재가 요약해준다"는 조건부 독립(Conditional Independence) 원칙으로, 복잡한 시계열 문제를 다루기 쉽게 만드는 핵심 가정이다. HMM(Hidden Markov Model)은 관측 불가능한 숨겨진 상태가 마르코프 체인을 이루고, 각 상태에서 관측값을 생성하는 구조로 — 음성 인식, 유전자 분석, 품사 태깅에서 필수 도구다. MDP(Markov Decision Process)는 마르코프 성질을 강화학습에 적용한 프레임워크로, 벨만 방정식(Bellman Equation)을 통해 최적 정책(Optimal Policy)을 동적 프로그래밍(Dynamic Programming)으로 계산한다.

Ⅰ. 마르코프 성질의 수학적 정의

1차 마르코프 가정 (First-Order Markov Assumption):

P(X_{t+1} | X_t, X_{t-1}, ..., X_0) = P(X_{t+1} | X_t)

미래 상태 X_{t+1}은 현재 상태 X_t에만 의존하고, 그 이전 이력 {X_{t-1}, ..., X_0}와는 조건부 독립이다.

고차 마르코프 가정 (Higher-Order Markov Assumption):

2차 (Second-Order): P(X_{t+1} | X_t, X_{t-1}) — 현재 + 직전 2개 상태 의존
k차 (k-th Order): P(X_{t+1} | X_t, ..., X_{t-k+1}) — 최근 k개 상태 의존
k차를 1차로 변환: 상태를 (X_t, ..., X_{t-k+1}) 튜플로 정의하면 1차로 환원 가능

**지수 분포(Exponential Distribution)의 무기억성(Memoryless Property)**은 연속 버전의 마르코프 성질이다:

P(X > s+t | X > s) = P(X > t)

전구가 이미 s시간 켜져 있어도, 앞으로 t시간 더 켜질 확률은 처음부터 t시간과 동일하다 — 과거 사용 이력이 무의미하다.

📢 섹션 요약 비유: 마르코프 성질은 "기억상실증 탐정"과 같다. 어제까지 수집한 단서는 모두 잊고, 오늘 현장 상태만으로 다음 상황을 추리한다 — 그런데도 최선의 판단이 된다.

Ⅱ. HMM (Hidden Markov Model)

**HMM(Hidden Markov Model, 은닉 마르코프 모델)**은 두 층의 확률 과정으로 구성된다.

숨겨진 상태 (Hidden States):
Z_1 ──▶ Z_2 ──▶ Z_3 ──▶ Z_4   ← 마르코프 체인
 │        │        │        │
 ▼        ▼        ▼        ▼
X_1      X_2      X_3      X_4   ← 관측값 (Observations)

숨겨진 상태 Z_t: 직접 관측 불가, 마르코프 성질 만족
관측값 X_t: Z_t에만 의존해 생성 (방출 확률, Emission Probability)
전이 확률 (Transition Probability): A_ij = P(Z_{t+1}=j | Z_t=i)
방출 확률 (Emission Probability): B_ik = P(X_t=k | Z_t=i)
초기 확률 (Initial Probability): π_i = P(Z_1=i)

3가지 핵심 문제:

평가 (Evaluation): 주어진 모델 λ에서 관측 시퀀스 X의 확률 → Forward Algorithm
디코딩 (Decoding): 가장 가능성 높은 숨겨진 상태 시퀀스 → Viterbi Algorithm
학습 (Learning): 관측 시퀀스로 모델 파라미터 추정 → Baum-Welch (EM 알고리즘)

📢 섹션 요약 비유: HMM은 "모스 부호 해독기"와 같다. 삐- 삐- 삐삐(관측값)만 들리고 실제 의도(숨겨진 상태)는 안 보이지만, 패턴과 전환 규칙을 학습해 "무슨 말인지"를 추론해낸다.

Ⅲ. MDP (Markov Decision Process)

**MDP(Markov Decision Process, 마르코프 결정 과정)**는 의사결정 문제를 마르코프 성질로 정형화한 프레임워크로, 강화학습의 수학적 기반이다.

MDP 5-튜플 (S, A, P, R, γ):

요소	표기	의미
상태 공간	S	환경의 모든 가능한 상태 집합
행동 공간	A	에이전트가 취할 수 있는 행동 집합
전이 확률	P(s'	s,a)
보상 함수	R(s,a)	상태 s에서 행동 a 시 즉각 보상
할인 인수	γ ∈ [0,1)	미래 보상의 현재 가치 감소율

**벨만 방정식 (Bellman Equation)**은 마르코프 성질 덕분에 성립한다:

V*(s) = max_a [ R(s,a) + γ · Σ_{s'} P(s'|s,a) · V*(s') ]

현재 상태 s의 최적 가치(Optimal Value)는 현재 보상 + 다음 상태의 할인된 최적 가치로 재귀적으로 표현된다. 과거 이력이 필요 없다 — 마르코프 성질 덕분이다.

📢 섹션 요약 비유: MDP는 "체스 게임의 수학적 설계도"다. 현재 말 배치(상태)만 보고 최선의 수(행동)를 계산하며, 지금까지의 게임 기록은 이미 현재 배치에 요약되어 있다.

Ⅳ. 동적 프로그래밍과 마르코프 성질

**동적 프로그래밍 (Dynamic Programming, DP)**이 가능한 이유는 정확히 마르코프 성질 때문이다.

최적 부분 구조 (Optimal Substructure):

전체 문제의 최적해 = 부분 문제의 최적해 조합
마르코프 성질: 현재 상태에서의 최적 결정은 과거 경로와 무관

MDP 풀이 알고리즘:

┌──────────────────────────────────────────────────────┐
│              MDP 풀이 방법                             │
├──────────────────┬───────────────────────────────────┤
│   모델 기반 (Model-Based)  │  모델 프리 (Model-Free)  │
├──────────────────┼───────────────────────────────────┤
│ Value Iteration  │  Q-Learning (TD 학습)              │
│ Policy Iteration │  SARSA                             │
│ (DP 사용)        │  Policy Gradient                   │
└──────────────────┴───────────────────────────────────┘

Value Iteration: V_{k+1}(s) = max_a [R(s,a) + γ·Σ P(s'|s,a)·V_k(s')]를 수렴까지 반복.

📢 섹션 요약 비유: 동적 프로그래밍은 "메모지 붙여가며 계산하는 수학자"와 같다. 이미 계산한 결과를 재활용해 중복 계산을 없애는데, 이게 가능한 이유는 "현재만 알면 미래를 계산할 수 있다"는 마르코프 성질 덕분이다.

Ⅴ. MDP vs HMM 비교 및 활용

두 모델 모두 마르코프 성질을 공유하지만 구조와 목적이 다르다.

구분	MDP	HMM
마르코프 성질 적용	상태 전이	숨겨진 상태 전이
상태 관측 여부	완전 관측 (일반적)	부분 관측 (숨겨짐)
행동/결정 존재	✅ 에이전트 행동 A	❌ 관측만 가능
목적	최적 정책 탐색	숨겨진 상태 추정
학습 방법	Q-Learning, Policy Gradient	Baum-Welch (EM)
대표 응용	게임 AI, 로봇 제어	음성 인식, 품사 태깅

POMDP (Partially Observable MDP): 관측이 불완전한 MDP — HMM과 MDP를 결합한 형태로, 자율 주행, 의료 진단 AI에 활용된다.

┌─────────────────────────────────────────────────┐
│           마르코프 성질 기반 모델 계층            │
├──────────────┬────────────┬─────────────────────┤
│    마르코프  │   HMM      │        MDP          │
│    체인      │ (관측 숨김)│  (행동 + 보상)       │
│  (기반)      │            │                     │
└──────────────┴────────────┴─────────────────────┘
                       ↓
               POMDP (통합 모델)

📢 섹션 요약 비유: MDP는 "보이는 미로에서 최선의 길 찾기", HMM은 "안개 낀 미로에서 지금 위치 추정하기"다. 둘 다 "현재만 알면 된다"는 마르코프 성질로 작동하지만, 무엇이 보이냐에 따라 다른 도구를 쓴다.

📌 관련 개념 맵

개념	연결 개념	관계
마르코프 성질	마르코프 체인	성질 → 체인 정의
마르코프 성질	무기억성 (지수 분포)	연속 버전의 마르코프 성질
HMM	Baum-Welch	파라미터 추정 알고리즘
HMM	Viterbi	디코딩 알고리즘
MDP	벨만 방정식	최적 가치 재귀 방정식
MDP	Q-Learning	모델 프리 풀이법
POMDP	HMM + MDP	통합 모델

📈 관련 키워드 및 발전 흐름도

[확률 과정 (Stochastic Process) — 시간에 따라 변하는 확률 모델]
    │
    ▼
[마르코프 성질 (Markov Property) — 현재 상태만 의존]
    │
    ▼
[마르코프 연쇄 (Markov Chain) — 이산 상태 전이 모델]
    │
    ▼
[은닉 마르코프 모델 (HMM, Hidden Markov Model) — 숨은 상태 추정]
    │
    ▼
[마르코프 결정 과정 (MDP, Markov Decision Process) — 강화학습 의사결정]

이 흐름은 시간에 따른 확률 과정을 현재 상태 중심으로 단순화하고, 연쇄와 HMM을 지나 MDP와 강화학습으로 이어지는 단계적 모델링을 보여준다.

👶 어린이를 위한 3줄 비유 설명

숨바꼭질에서 친구가 지금 어디 숨었는지만 알면 다음에 어디로 갈지 예측할 수 있어 — 5분 전에 어디 있었는지는 몰라도 돼. 그게 마르코프 성질이야. HMM은 친구가 안 보이는 안개 속 숨바꼭질이야 — 발소리(관측값)만 들리는데, 그 소리 패턴으로 "지금 부엌에 있겠구나"(숨겨진 상태)를 추리해. MDP는 미로 게임에서 "지금 어디 있는지"만 보고 최선의 방향을 선택하는 것 — 어떻게 여기까지 왔는지는 중요하지 않아!