385. 은닉 마르코프 모델 (HMM)과 비터비 (Viterbi) 알고리즘

핵심 인사이트 (3줄 요약)

본질: 은닉 마르코프 모델(HMM)은 눈에 보이지 않는 진짜 상태(은닉 상태)가 무엇인지, 겉으로 드러난 단서(관측치)들의 순서만 보고 거꾸로 확률을 역추적해 내는 시계열(Time-series) 예측 모델이다.

가치: "I love you"라는 단어가 주어졌을 때, 각 단어의 진짜 품사(명사, 동사)를 찾아내기 위해, 단어들을 독립적으로 보지 않고 "앞에 대명사가 왔으니 다음엔 동사가 올 확률이 높겠군"이라는 마르코프(Markov) 체인의 흐름을 결합하여 완벽한 문장 번역(음성 인식)을 가능하게 했다.

판단 포인트: 상태가 길어지면 모든 경우의 수를 계산하는 연산량이 기하급수적으로 터지지만, 매 순간 가장 확률이 높은 '최적의 경로' 하나만 메모리에 남기고 나머지는 버리면서 전진하는 비터비(Viterbi) 알고리즘(동적 계획법) 덕분에 실시간 음성 인식이 가능해졌다.

Ⅰ. 개요 및 필요성

멀리 떨어진 친구가 매일 "산책", "쇼핑", "청소" 중 하나를 했다고 일기장에 적어서 보낸다. 우리는 친구가 있는 곳의 날씨(비, 맑음)를 알 수 없다. 단지 "오늘 산책을 한 걸 보니 맑았을 확률이 70% 겠군"이라고 추측할 뿐이다.

그런데 날씨는 어제 날씨에 영향을 받는다(마르코프 체인). 어제 비가 왔다면 오늘도 비가 올 확률이 높다. 그렇다면 "3일 연속으로 [산책 $\rightarrow$ 쇼핑 $\rightarrow$ 청소]를 했다는 일기(관측치)를 보았을 때, 이 3일간의 실제 날씨(은닉 상태)는 [맑음 $\rightarrow$ 비 $\rightarrow$ 비] 였을까, 아니면 [맑음 $\rightarrow$ 맑음 $\rightarrow$ 비] 였을까?" 이처럼 겉으로 드러난 현상만 보고, 그 속에 숨겨진 진짜 원인의 흐름을 통계적으로 가장 그럴듯하게 찾아내는 것이 **은닉 마르코프 모델(HMM, Hidden Markov Model)**이다.

📢 섹션 요약 비유: 방 안에 갇혀서 창문이 없는 상태에서, 복도에 지나가는 사람들의 우산이나 젖은 옷차림(관측치)만 보고 바깥의 날씨(은닉 상태)가 어제오늘은 어땠는지 가장 그럴듯한 시나리오를 추리해 내는 명탐정이다.

Ⅱ. 아키텍처 및 핵심 원리

HMM은 3가지의 확률 주사위(파라미터)를 굴려서 시나리오를 만든다. 그리고 이 시나리오를 역추적하는 것이 비터비(Viterbi) 알고리즘이다.

┌────────────────────────────────────────────────────────┐
│             [ HMM 아키텍처와 Viterbi 알고리즘 파이프라인 ]    │
├────────────────────────────────────────────────────────┤
│ 1. HMM의 3대 확률 파라미터 (λ = [A, B, π])            │
│    - 초기 확률(π) : 첫날 날씨가 맑을 확률 (예: 60%)          │
│    - 전이 확률(A) : 맑은 다음 날 또 맑을 확률 (마르코프 체인)  │
│    - 방출 확률(B) : 맑은 날 '산책'이라는 행동을 할 확률        │
│                                                        │
│ 2. 디코딩 문제 (Decoding Problem)                      │
│    - 목표: 관측치 [산책, 쇼핑, 청소]가 주어졌을 때,           │
│            가장 확률이 높은 날씨 경로 [?, ?, ?]를 찾아라!   │
│                                                        │
│ 3. 비터비 (Viterbi) 알고리즘 (동적 계획법, DP)           │
│    - 1일 차: '산책'을 했을 때 맑을 확률 vs 비 올 확률 계산     │
│    - 2일 차: 1일 차에서 넘어오는 경로 중 '가장 확률 높은 선'만 │
│              남기고 나머지는 가위로 잘라버림! (메모리 절약)   │
│    - 3일 차까지 가면 가장 두꺼운 선(최적 경로) 1개만 딱 남음!   │
└────────────────────────────────────────────────────────┘

상태 공간 폭발: 3일 치 날씨(맑음, 비)의 경우의 수는 $2^3 = 8$개다. 하지만 100단어짜리 문장의 품사를 분석하려면 $2^{100}$개의 경우의 수가 생겨 슈퍼컴퓨터도 뻗어버린다.
동적 계획법 (Dynamic Programming): 비터비 알고리즘은 이 무한대의 경우의 수를 구하지 않는다. 매 단계마다 "어제 비가 왔을 때 오늘 쇼핑할 확률"과 "어제 맑았을 때 오늘 쇼핑할 확률" 중 더 큰 놈 하나만 '표(Table)'에 적어두고(Memoization) 나머지는 과감히 버린다. 덕분에 연산량이 지수배($2^N$)에서 선형배($N$)로 획기적으로 압축된다.

📢 섹션 요약 비유: 서울에서 부산까지 가는 수만 개의 국도를 다 달려보는 게 아니라, 천안에 도착했을 때 가장 빨리 온 길 딱 1개만 기억하고 나머지 길은 머릿속에서 지워버리며 전진하는 아주 효율적인 내비게이션이다.

Ⅲ. 비교 시나리오 및 연결

시간의 흐름(Sequence) 데이터를 처리하는 AI 모델들의 계보를 비교해 본다.

비교 항목	은닉 마르코프 모델 (HMM)	순환 신경망 (RNN)	트랜스포머 (Transformer)
기본 철학	수학적 확률 통계 (통계적 추론)	인공신경망의 가중치 학습 (딥러닝)	어텐션 기반의 행렬 병렬 연산
기억력 (Memory)	바로 앞 단계(N-1)만 기억함 (마르코프 성질)	이론상 다 기억하지만 길어지면 까먹음	문장 전체를 한 번에 다 보고 완벽히 기억함
연산 속도	비터비 알고리즘 덕분에 매우 빠름	순차적으로 연산해야 해서 엄청 느림	병렬 처리로 빠름 (하지만 메모리 많이 먹음)
전성기	1990~2010년 (음성 인식의 제왕)	2014~2017년 (번역기의 혁명)	2017년~현재 (LLM의 시대)

HMM은 딥러닝이 등장하기 전, 애플의 시리(Siri)나 구글 음성 검색의 초창기 코어 엔진이었다. 사람이 "아, 이, 우, 에, 오"를 발음할 때 입술 모양(은닉 상태)이 변하는 과정을 음파(관측치)를 통해 역추적하는 데 HMM만큼 완벽한 확률 모델이 없었기 때문이다.

📢 섹션 요약 비유: HMM이 "어제 일만 기억하고 오늘을 예측하는 아주 빠른 주판"이라면, RNN은 "한 달 치 일기를 차례대로 읽고 예측하는 수첩"이고, 트랜스포머는 "한 달 치 일기를 한눈에 사진 찍듯 스캔해서 예측하는 슈퍼 컴퓨터"다.

Ⅳ. 실무 적용 및 기술사 판단

실무 적용 시나리오: 자연어 처리에서 "He plays guitar"라는 문장의 품사 태깅(POS Tagging)을 수행한다. 'plays'는 명사(연극)일 수도 있고 동사(연주하다)일 수도 있다(관측치). HMM 파이프라인은 'He(대명사)' 뒤에 '동사'가 올 전이 확률(A)이 '명사'가 올 확률보다 높다는 과거 통계표를 바탕으로 비터비 알고리즘을 돌린다. 결과적으로 plays가 동사(은닉 상태)라는 최적 경로를 0.01초 만에 뱉어낸다.

기술사 판단 포인트 (Trade-off): 시계열 예측 아키텍처를 설계할 때 기술사는 **'도메인의 규칙성'과 '데이터의 양'**을 저울질해야 한다.

HMM은 내부의 확률 파라미터(A, B 행렬)가 명확한 통계로 드러나기 때문에 "왜 이 단어를 명사로 판단했는가?"를 100% 설명(XAI)할 수 있다. 반면 RNN 계열 딥러닝 모델은 설명이 불가능한 블랙박스다.
따라서 학습 데이터가 적고, 의료 진단(심전도 신호 분석)이나 금융 사기 탐지처럼 **'법적인 설명 책임(Accountability)'**이 강력하게 요구되는 도메인에서는 무작정 딥러닝(RNN, LSTM)을 도입하는 대신 HMM-비터비 아키텍처를 베이스라인으로 깔아야 한다.

📢 섹션 요약 비유: RNN 딥러닝이 "그냥 내 직감상 이게 동사야!"라고 대답하는 천재라면, HMM은 "통계 책 50페이지에 따르면 대명사 뒤에 명사가 올 확률이 5%밖에 안 되기 때문에 동사입니다"라고 근거를 대는 깐깐한 학자다.

Ⅴ. 기대효과 및 결론

은닉 마르코프 모델(HMM)과 비터비 알고리즘의 결합은 기계가 '시간의 흐름'과 '맥락(Context)'을 이해하게 만든 인공지능 역사의 찬란한 금자탑이다. 단어를 독립적으로 잘라보던 수준에서 벗어나, 앞뒤 단어의 연결 고리를 확률적으로 이어나가는 '시퀀스(Sequence) 지능'의 개념을 최초로 정립했다.

결론적으로 HMM은 오늘날 자연어 처리(NLP)와 시계열 분석을 지배하는 트랜스포머(Transformer) 생태계의 영적인 할아버지다. 비터비 알고리즘의 동적 계획법(DP) 철학은 여전히 강화학습(RL)의 가치 함수 추산이나 유전자 서열(DNA) 분석의 얼라인먼트(Alignment) 등에서 핵심 코어로 박동하고 있다. 기술사는 딥러닝의 화려함 뒤에 숨겨진 이 우아한 통계적 최적화의 뼈대를 반드시 이해해야 한다.

📢 섹션 요약 비유: 그림자가 움직이는 것(관측치)만 보고 벽 뒤에 숨은 사람(은닉 상태)이 춤을 추고 있는지 체조를 하고 있는지 100% 정확하게 맞추는 그림자 연극의 최고 해석 전문가다.

📌 관련 개념 맵

상위 개념: 마르코프 체인 (Markov Chain), 베이지안 추론, 순차 모델링 (Sequential Modeling)
하위 개념: 은닉 상태 (Hidden State), 전이/방출 확률, 디코딩 (Decoding)
연결 개념: 비터비 알고리즘, 동적 계획법 (Dynamic Programming), RNN/LSTM

👶 어린이를 위한 3줄 비유 설명

친구가 텐트 안에서 수영복을 던지더니 다음엔 눈썰매를 밖으로 던졌어요 (관측치).
안에서 무슨 옷을 입고 있는지(은닉 상태) 안 보이지만, "수영복 다음엔 보통 수건을 던지는데, 눈썰매를 던지다니 이상하네?"라며 친구의 행동 순서(확률)를 추리해 볼 수 있죠.
비터비(Viterbi) 탐정은 이렇게 말도 안 되는 순서는 중간중간 과감하게 지워버리고, 가장 말 되는 행동 순서 딱 1개만 빠르게 찾아내는 천재 추리법이랍니다!