423. 몬테카를로 트리 탐색 (MCTS)과 알파고

핵심 인사이트 (3줄 요약)

본질: MCTS(Monte Carlo Tree Search)는 바둑처럼 경우의 수가 우주의 원자보다 많아 모든 수를 끝까지 계산(Minimax)하는 것이 불가능할 때, 무작위로 주사위를 던져 끝까지 게임을 판(시뮬레이션)해 보고 그 승률을 바탕으로 다음 수를 결정하는 강화학습 탐색 알고리즘이다.

가치: 기존 체스 AI가 썼던 '모든 경우의 수를 무식하게 파고드는' 방식(Brute-force)을 버리고, "승률이 높은 길을 더 깊게 파고(Exploitation), 가끔 안 가본 길도 찔러보는(Exploration)" UCB 공식을 도입해 10년은 걸릴 줄 알았던 바둑 AI(알파고)의 승리를 앞당겼다.

판단 포인트: 순수 MCTS는 끝까지 돌을 무작위로 놔봐야 해서 시간이 오래 걸리지만, 여기에 딥러닝(CNN)을 붙여 "이 판은 안 해봐도 뻔히 내가 졌네!"라고 중간에 판단하는 '가치망(Value Network)'을 섞은 것이 알파고 아키텍처의 진짜 승리 비결이다.

Ⅰ. 개요 및 필요성

체스를 정복한 인공지능(딥블루)의 무기는 단순했다. "내가 한 수 두고, 상대가 두는 모든 경우의 수를 10수 앞까지 다 계산해서 제일 유리한 곳에 두자!"(Minimax 알고리즘). 하지만 바둑은 바둑판이 너무 넓어 경우의 수가 $10^{170}$에 달한다. 1수 앞만 내다보려 해도 수백 개의 경우의 수가 생겨, 옛날 체스 AI처럼 모든 가지를 다 탐색하려다간 1수 두는 데 1만 년이 걸린다.

"다 계산하는 게 불가능하다면, 100군데 후보 중 대충 10군데만 찍어서 그 길로 끝까지 바둑을 (무작위로) 둬보면 어떨까? 100번 해봐서 90번 이긴 쪽에 돌을 놓자!" 카지노의 무작위 주사위 놀이(Monte Carlo)와 길 찾기 알고리즘(Tree Search)을 결합하여, 인간의 '수 읽기 직관'을 흉내 낸 천재적인 알고리즘이 바로 MCTS다.

📢 섹션 요약 비유: 미로를 빠져나갈 때 모든 길을 다 걸어보는 게 불가능하다면, 클론(분신) 100명을 미로에 풀어놓고 아무렇게나(무작위) 뛰게 만든 뒤, 가장 많이 살아남은 클론이 출발했던 첫 번째 갈림길을 정답으로 선택하는 인해전술이다.

Ⅱ. 아키텍처 및 핵심 원리

MCTS는 내가 돌을 둘 때마다 아래의 4단계 파이프라인을 수만 번 반복하며 트리를 키워나간다.

┌────────────────────────────────────────────────────────┐
│             [ MCTS (몬테카를로 트리 탐색) 4단계 파이프라인 ]    │
├────────────────────────────────────────────────────────┤
│ 1. 선택 (Selection) : "어디서부터 파볼까?"                │
│    - 이미 만들어진 트리에서 승률이 제일 좋아 보이는 끝(Leaf) 노드│
│      까지 UCB 공식을 타고 쏙쏙 골라서 내려감.                │
│                                                        │
│ 2. 확장 (Expansion) : "새로운 길 하나만 더 뚫어보자!"      │
│    - 도착한 끝 노드에서 한 수 앞을 내다보는 새로운 노드를 추가함│
│                                                        │
│ 3. 시뮬레이션 (Simulation, Play-out) : "끝까지 가보자!"    │
│    - 롤아웃(Roll-out)이라고도 함. 새로 추가된 노드에서부터 승패가│
│      날 때까지 아무 생각 없이 무작위로(Random) 돌을 둬봄!     │
│                                                        │
│ 4. 역전파 (Backpropagation) : "결과를 보고서에 적어라!"    │
│    - 방금 끝난 게임에서 이겼으면 1점, 졌으면 0점을 가지고,      │
│      뿌리(Root) 노드까지 거슬러 올라가며 거쳐 온 길의 승률을 갱신!│
└────────────────────────────────────────────────────────┘

UCT 공식 (UCB applied to Trees): 1단계(선택)에서 어느 길을 갈지 결정하는 절대 공식이다. $\text{승률} + C \sqrt{\frac{\ln(\text{총 방문 횟수})}{\text{이 노드 방문 횟수}}}$. 승률이 높은 곳(활용, Exploitation)을 우선적으로 가되, 너무 안 가본 곳(탐험, Exploration)에는 보너스 점수(루트 안의 값)를 줘서 골고루 탐색하게 만드는 황금 밸런스 수식이다.
무작위 롤아웃의 힘: 3단계 시뮬레이션에서 무작위로 바둑을 둔다고 하면 바보 같아 보이지만, 엄청난 속도로 수만 판을 시뮬레이션하면 '대수의 법칙(Law of Large Numbers)'에 의해 결국 승률은 진짜 정답에 완벽하게 수렴하게 된다.

📢 섹션 요약 비유: 4단계는 식당을 고르는 것과 같다. 1) 평점 좋은 식당 고르기(선택), 2) 그 식당의 안 먹어본 메뉴 시키기(확장), 3) 눈 딱 감고 먹어보기(시뮬레이션), 4) 네이버 지도에 맛집 평점 갱신하기(역전파)를 1초에 1만 번씩 하는 것이다.

Ⅲ. 비교 및 연결

게임 AI의 역사를 바꾼 두 가지 트리 탐색 트리를 비교해 본다.

비교 항목	미니맥스 (Minimax) + 알파-베타 가지치기	MCTS (몬테카를로 트리 탐색)
기본 철학	"최악의 상황을 가정하고, 그걸 방어하는 수를 둔다"	"일단 대충 끝까지 가보고, 이길 확률이 높은 수를 둔다"
탐색 깊이	끝까지 탐색 불가 (보통 10수 앞까지만 계산하고 멈춤)	무조건 게임 종료(승패)까지 롤아웃(끝까지 가봄)
가치 평가법	휴리스틱 함수 (말의 개수 등으로 점수 매김)	실제 승패의 통계 (100전 80승 = 80%)
적용 도메인	체스, 오셀로, 틱택토 (경우의 수 작음)	바둑, 스타크래프트 (경우의 수 무한대)

알파고는 순수 MCTS만 쓴 게 아니다. MCTS가 시뮬레이션을 할 때 끝까지 돌을 두는 건 너무 피곤하다. 그래서 딥러닝(CNN)을 통해 바둑판 사진만 딱 보고 "이건 해보나 마나 백이 90% 이겼네"라고 점수를 매겨주는 **가치 신경망(Value Network)**을 붙여서 시뮬레이션(3단계)을 중간에 칼같이 끊어버린 것이 신의 한 수였다.

📢 섹션 요약 비유: 미니맥스가 "내가 이걸 내면 쟤가 저걸 내겠지?"라고 꼬리에 꼬리를 물고 고민하다 머리가 터지는 사람이라면, MCTS는 "에라 모르겠다. 대충 1,000판 빨리 둬보고 제일 많이 이긴 쪽으로 던질래!"라며 통계를 믿는 행동대장이다.

Ⅳ. 실무 적용 및 기술사 판단

실무 적용 시나리오: 제약 회사에서 신약을 개발할 때 수억 개의 화학 분자 구조를 조합해야 한다. 모든 조합을 합성해 보는 건 불가능하다. 데이터 과학자는 화학 분자를 결합하는 시뮬레이터에 MCTS 알고리즘을 결합한다. MCTS는 "이 구조에 산소 원자를 붙이면 약효가 있을까?(선택/확장)"를 수만 번 무작위로 결합(시뮬레이션)해 보고, 가장 약효가 높을 확률(승률)이 높은 최적의 분자 구조 경로를 역전파하여 찾아낸다.

기술사 판단 포인트 (Trade-off): MCTS 아키텍처 설계 시 기술사는 **'시뮬레이션 비용(Roll-out Cost)'과 '정확도'**의 줄다리기를 해야 한다.

MCTS의 3단계(시뮬레이션)에서 무작위(Random)로 턴을 돌리면 속도는 빛의 속도지만 정확도가 떨어진다.
속도를 버리고 정확도를 높이려면, 롤아웃을 할 때 무작위가 아니라 가벼운 딥러닝 모델(정책망, Policy Network)을 써서 '좀 더 그럴싸한 수'만 두게 해야 한다.
기술사는 실시간성이 중요한 게임 AI에서는 무작위 롤아웃 비중을 높이고, 신약 개발처럼 한 수 한 수가 중요한 도메인에서는 무거운 딥러닝 정책망을 롤아웃에 태우는 **도메인 특화 롤아웃(Domain-specific Roll-out)**을 아키텍처링해야 한다.

📢 섹션 요약 비유: MCTS 시뮬레이션에서 무작위로 돌을 두는 건 "눈 감고 미로 달리기"다. 빠르긴 한데 자주 죽는다. 여기에 정책망(Policy)을 씌우는 건 "눈은 뜨고 달리기"다. 느리지만 훨씬 살 확률이 높다. 남은 시간에 맞춰 눈을 감을지 뜰지를 조절해야 한다.

Ⅴ. 기대효과 및 결론

MCTS(몬테카를로 트리 탐색)는 계산 불가능해 보이던 무한대의 공간(바둑)을 확률(통계)의 마법으로 정복한 휴리스틱 탐색의 마스터피스다. 100% 완벽한 정답을 찾는 것을 쿨하게 포기하고, "한정된 시간 안에 가장 그럴싸한 힌트"를 찾아내는 이 타협은 컴퓨터 공학에 엄청난 충격을 주었다.

결론적으로 알파고의 대성공 이후, MCTS는 게임을 넘어 현대 AI 추론(Reasoning) 아키텍처의 필수 코어로 자리 잡았다. 최근 거대 언어 모델(LLM)이 수학 문제를 풀 때 한 번에 답을 뱉지 않고 스스로 트리를 그려가며 여러 논리를 전개하는 ToT(Tree of Thoughts) 기법 역시 이 MCTS의 철학을 텍스트 공간에 그대로 가져온 것이다. 기술사는 무식한 연산력을 이기는 것은 결국 똑똑한 샘플링(확률)이라는 통찰을 지녀야 한다.

📢 섹션 요약 비유: 우주에 있는 모든 모래알을 다 세어보고 가장 예쁜 걸 고르는 건 불가능하다. MCTS는 그냥 모래사장에서 100군데만 무작위로 파본 다음, 가장 예쁜 모래가 많이 나온 구역만 집중적으로 다시 파고들어 최고의 보석을 찾아내는 기적의 다우징 머신(탐지기)이다.

📌 관련 개념 맵

상위 개념: 탐색 알고리즘 (Search Algorithm), 강화학습 (Reinforcement Learning)
하위 개념: UCB 공식, 롤아웃 (Roll-out / Simulation), 역전파 (Backpropagation)
연결 개념: Minimax 알고리즘, 알파고 (AlphaGo), 강화학습 상태 가치망 (Value Network)

👶 어린이를 위한 3줄 비유 설명

게임을 할 때 경우의 수가 너무 많아서 다음 수를 어디 둬야 할지 멘붕이 왔어요.
MCTS 마법사는 내 머릿속에 클론 100명을 만들어서, 눈 감고 무조건 게임이 끝날 때까지 다 대충 싸워보게 시켰어요.
1초 만에 100판을 싸워본 클론들이 "주인님! 아까 마법을 썼던 80판이 다 이겼어요!"라고 보고해주면, 저는 웃으면서 마법을 쓰는 버튼을 클릭한답니다!