463. 마르코프 결정 과정 (MDP)과 상태, 행동, 보상

핵심 인사이트 (3줄 요약)

본질: 마르코프 결정 과정(MDP, Markov Decision Process)은 로봇이 미로를 탈출하거나 자율주행차가 도로를 달릴 때, 현재의 "상태(State)"에서 어떤 "행동(Action)"을 해야 가장 큰 "보상(Reward)"을 받을 수 있는지를 수학적으로 계산해 내는 강화학습의 절대적인 뼈대(프레임워크)다.

가치: 세상의 모든 복잡한 연속된 선택의 문제를 S(상태), A(행동), P(확률), R(보상), γ(할인율)이라는 딱 5개의 수학 기호로 단순하게 치환해 버림으로써, 기계가 "어떻게 살아야 이득인가?"라는 추상적 질문을 수학 공식으로 풀 수 있게 만들었다.

판단 포인트: MDP의 가장 중요한 전제는 "미래는 오직 현재 상태에만 영향을 받으며, 과거는 알 필요 없다(마르코프성)"는 무기억성이다. 이 전제가 성립해야만 연산량이 무한대로 터지지 않고 로봇이 1초 만에 다음 행동을 결정할 수 있다.

Ⅰ. 개요 및 필요성

강아지에게 "앉아"라고 훈련을 시킨다. 강아지가 앉으면 간식(보상)을 주고, 서 있으면 아무것도 안 준다(벌). 강아지는 과거에 자기가 했던 행동의 결과를 바탕으로 "아, 주인이 이 표정(상태)일 때, 내가 앉으면(행동) 맛있는 걸(보상) 주는구나!"라는 법칙을 깨닫게 된다. 이것이 인간과 동물이 세상을 살아가는 방식, **강화학습(Reinforcement Learning)**이다.

"그럼 이 **[상황 -> 행동 -> 결과]**라는 연속된 인생의 과정을 컴퓨터가 계산할 수 있게 수학 공식으로 바꿀 순 없을까?" 수학자 마르코프(Markov)가 고안한 "과거는 잊고 현재만 봐라"라는 확률 모델에, 어떤 행동을 할지 선택(Decision)하는 과정을 결합하여 만든 5가지 변수의 완벽한 수학 모형이 바로 MDP다.

📢 섹션 요약 비유: 인생은 B(Birth)와 D(Death) 사이의 C(Choice)라고 한다. MDP는 이 수많은 인생의 갈림길(상태)에서 어떤 선택(행동)을 해야 나중에 벼락부자(보상)가 될 수 있는지를 계산해 주는 인생 시뮬레이션 게임의 룰북이다.

Ⅱ. 아키텍처 및 핵심 원리

MDP는 기계(Agent)와 세상(Environment)이 끝없이 핑퐁을 치는 아키텍처다.

┌────────────────────────────────────────────────────────┐
│             [ 마르코프 결정 과정 (MDP)의 5대 수학적 요소 ]      │
├────────────────────────────────────────────────────────┤
│ 1. S (State, 상태) : "지금 내가 어디 있지?"                │
│    - 로봇이 현재 있는 위치나 상황 (예: 미로의 (2,3) 좌표)       │
│                                                        │
│ 2. A (Action, 행동) : "이제 뭘 할까?"                   │
│    - 현재 상태에서 로봇이 할 수 있는 행동 (예: 상, 하, 좌, 우)  │
│                                                        │
│ 3. R (Reward, 보상) : "잘했어! 100점!"                  │
│    - 행동을 했을 때 환경이 주는 점수. (출구 도착 +10점, 벽 충돌 -1점)│
│    - 로봇의 유일한 목표는 이 보상의 '총합'을 극대화하는 것임!      │
│                                                        │
│ 4. P (Transition Probability, 전이 확률) : "세상의 억까"   │
│    - 위로 가려고(A) 했는데, 바람이 불어서 옆 칸으로 밀려날 확률(P)│
│    - 세상이 100% 내 마음대로 움직이지 않는다는 현실성을 반영함     │
│                                                        │
│ 5. γ (Gamma, 할인율) : "내일의 100원 vs 오늘의 100원"    │
│    - 0~1 사이의 값. 100스텝 뒤에 받는 100점 보상을, 지금 현재는   │
│      얼마의 가치로 쳐줄 것인가를 계산하는 이자율(감가상각) 개념     │
└────────────────────────────────────────────────────────┘

마르코프성 (Markov Property): $P[S_{t+1} | S_t] = P[S_{t+1} | S_1, S_2, \dots, S_t]$. 내일 날씨(상태)를 맞출 때, 오늘 날씨 하나만 보나 어제, 그제 날씨 100일 치를 다 보나 똑같이 정확하다는 뜻이다. 오직 "현재 상태" 안에 과거의 모든 정보가 다 농축되어 있다고 믿는 극한의 쿨가이 마인드다. 이 룰이 없으면 로봇은 1보 걸을 때마다 자기가 태어난 날부터의 모든 기록을 다 계산해야 해서 메모리가 터진다.
정책 (Policy, $\pi$): MDP를 푸는 최종 목적지다. "어느 상태(S)에서는 무조건 이 행동(A)을 해라!"라고 기계의 뇌 속에 콱 박아주는 완벽한 지침서(매뉴얼)다.

📢 섹션 요약 비유: 게임 <슈퍼 마리오>를 할 때, 마리오가 지금 서 있는 위치(S), 마리오가 누르는 점프 버튼(A), 동전을 먹었을 때 오르는 점수(R), 점프했는데 미끄러질 확률(P), 그리고 게임이 끝나기 전에 빨리 동전을 먹어야 하는 조급함($\gamma$)을 합친 완벽한 게임 엔진이다.

Ⅲ. 비교 및 연결

미래를 내다보고 가치를 계산하는 MDP의 핵심 함수 2가지를 비교해 본다.

비교 항목	상태 가치 함수 (State Value Function, $V(s)$)	행동 가치 함수 (Action Value Function, $Q(s, a)$)
기본 질문	"내가 지금 서 있는 이 자리(S), 대충 몇 점짜리 자리야?"	"이 자리(S)에서 저쪽으로 점프(A)하면 몇 점 받을까?"
변수 개수	오직 상태(S) 1개만 봄	상태(S)와 행동(A) 2개를 봄
활용법	체스판을 보고 "유리하네, 불리하네" 판단할 때	"여기에 폰을 둘까, 나이트를 둘까?" 구체적 행동 고를 때
알파고 적용	판세를 읽는 가치망 (Value Network)	다음 수를 결정하는 정책망 (Policy Network)
발전된 알고리즘	상태 점수만 갱신하는 Actor-Critic 구조로 발전	Q-Learning, DQN (Deep Q-Network)의 절대 뼈대

로봇은 이 가치 함수를 계산할 때 '벨만 방정식 (Bellman Equation)'이라는 미친 수식을 쓴다. "내 자리의 점수 = 방금 받은 간식(보상) + 내일 받게 될 간식의 점수($\gamma \times V(s_{t+1})$)"라는 수식을 무한 루프로 돌려, 먼 미래의 보상을 현재의 점수로 끌어와 계산하는 타임머신 연산법이다.

📢 섹션 요약 비유: 상태 가치 함수(V)는 강남역 한복판 땅(S)을 보고 "여긴 유동 인구가 많아서 땅값이 100억은 되겠네"라고 평가하는 감정평가사다. 행동 가치 함수(Q)는 "그 강남역 땅(S)에 붕어빵 장사(A)를 할까, 카페(A)를 차릴까? 각각 얼마를 벌까?"를 비교하는 철저한 사업가다.

Ⅳ. 실무 적용 및 기술사 판단

실무 적용 시나리오: 쇼핑몰 추천 AI를 짠다. 고객이 들어온다(State). AI가 A상품, B상품 중 하나를 추천한다(Action). 고객이 사면 +100점, 안 사면 0점을 받는다(Reward). 데이터 과학자는 고객의 클릭 로그를 바탕으로 이 MDP 환경을 구성하고 Q-Learning 알고리즘을 띄운다. 처음엔 엉뚱한 물건을 추천하던 AI가, "이 옷을 본 고객(S)에게 저 신발을 추천(A)했더니 +100점을 주네!"라는 사실을 깨닫고 Q-Table(수첩)에 점수를 적는다. 수만 번의 고객 트래픽을 거친 AI는 어떤 고객 상태(S)가 주어지든 가장 돈을 많이 버는 추천(A)을 뽑아내는 최고의 세일즈맨으로 진화한다.

기술사 판단 포인트 (Trade-off): 강화학습 환경(MDP) 설계 시 기술사는 **'할인율($\gamma$)'과 '보상(Reward) 셰이핑'**의 밸런스를 목숨 걸고 통제해야 한다.

할인율 딜레마: $\gamma$를 0으로 주면 AI는 눈앞에 떨어진 동전 1개(단기 보상)만 줍다가 자동차에 치여 죽는다. 반면 $\gamma$를 너무 1에 가깝게 주면, 10년 뒤의 보상까지 신경 쓰느라 당장 눈앞의 절벽을 못 보고 떨어져 죽는다.
보상 해킹 (Reward Hacking): 보상(R)을 잘못 설계하면 AI는 인간을 조롱한다. '빨리 결승선에 가라'고 보상을 줬더니, 결승선 앞에서 뱅글뱅글 돌면서 점수만 무한대로 뽑아 먹는 버그를 일으킨다.
기술사는 AI가 꼼수를 부리지 못하도록 "시간이 지날 때마다 -1점씩 감점(Time penalty)"을 주거나, 중간중간 징검다리 보상(Dense Reward)을 아주 촘촘하고 예쁘게 설계하여 AI가 포기하지 않고 정답까지 가도록 유도해야 한다.

📢 섹션 요약 비유: 강아지 훈련(MDP)을 시킬 때, 앉을 때마다 무조건 소시지 10개를 줘버리면(잘못된 보상) 강아지는 1번 앉고 배불러서 자버린다. 진짜 훈련사는 1번 앉을 때 사료 1알만 주고, 나중에 묘기를 부려야 소시지를 주며(할인율 제어), 너무 늦게 앉으면 안 준다(타임 페널티)며 밀당을 완벽하게 하는 조련사다.

Ⅴ. 기대효과 및 결론

마르코프 결정 과정(MDP)은 기계에게 "미래를 예측하고, 현재의 이득을 참으며, 궁극적으로 가장 큰 성공을 쟁취하는 지능"을 수학적으로 세팅해 준 기계 학습의 성배다. 정답(Label)을 일일이 달아주던 지도 학습의 노동을 끝내고, 기계가 스스로 넘어지고 깨지며(Trial and Error) 룰을 깨우치는 진정한 형태의 AI를 탄생시켰다.

결론적으로 바둑을 평정한 알파고(AlphaGo)부터, 사람처럼 대화하는 챗GPT의 RLHF 예절 교육까지 현대 AI의 가장 위대한 성과들은 모두 이 MDP라는 5개의 수학 기호 위에서 돌아가고 있다. 기술사는 딥러닝이라는 함수 덩어리를 그저 데이터를 찍어내는 기계로 보지 말고, 상태(S)를 읽고 행동(A)을 결단하며 세상과 상호작용하는 하나의 거대한 에이전트(Agent) 인프라로 바라보는 시야를 가져야 한다.

📢 섹션 요약 비유: MDP는 장기판 위에 덩그러니 놓인 장기 말(기계)에게, "저쪽 끝에 있는 왕을 잡으면 100만 원을 줄게. 대신 네가 직접 룰을 부딪치며 깨우쳐봐"라고 백지수표를 던져주는 것이다. 기계는 수천 번 박살이 나면서도 결국 왕을 잡는 완벽한 공략집(Policy)을 자기 스스로 완성해 낸다.

📌 관련 개념 맵

상위 개념: 강화학습 (Reinforcement Learning)
하위 개념: 상태(S), 행동(A), 보상(R), 전이 확률(P), 할인율($\gamma$), 정책($\pi$)
연결 개념: 마르코프 체인, 벨만 방정식, Q-Learning, DQN, RLHF

👶 어린이를 위한 3줄 비유 설명

슈퍼 마리오(로봇)가 게임을 하는데, 앞으로 갈지 점프할지(행동) 정해야 해요.
마리오는 "동전을 먹으면 10점(보상)을 받고, 불꽃에 맞으면 죽는다(상태)"는 게임 규칙(MDP) 속에서 수천 번 게임 오버를 당해봐요.
결국 마리오는 엄청난 실패 끝에 "아! 버섯이 보일 때 무조건 점프를 해야 점수가 제일 높구나!"라는 무적의 게임 공략집을 스스로 만들어내는 천재 로봇이 된답니다!