171. 정책 경사법 (Policy Gradient)

핵심 인사이트 (3줄 요약)

본질: 정책 경사법 (Policy Gradient)은 "행동의 1등 점수표(Q-Value)"를 거쳐서 간접적으로 1등 행동을 고르던 구시대적 엑셀 노가다 방식을 찢어버리고, 아예 딥러닝 인공신경망이 "직접, 상황을 보자마자 지금 당장 할 최적 행동의 확률(예: 점프 70%, 멈춤 30%)"을 곧바로 뿜어내도록 가중치를 직접 미분(Gradient Ascent)해버리는 직관적 알고리즘이다.

가치: DQN 같은 점수 기반 방식으로는 영원히 풀 수 없었던 로봇 관절의 미세한 각도 조절이나 자동차 조향각 꺾기 같은 연속적 제어 공간 (Continuous Action Space) 문제를 완벽하게 뚫어버려 현대 로보틱스와 제어 공학 AI를 해방시켰다.

판단 포인트: 가장 원시적인 정책 경사법(REINFORCE)은 한 에피소드(게임판)가 깰 때까지 기다렸다가 점수를 정산하므로 분산(Variance)이 너무 커서 툭하면 훈련이 절벽으로 추락한다. 따라서 정책망(배우)을 감시하고 한 발짝마다 점수를 평가해 주는 '가치망(평론가)'을 덧대는 **액터-크리틱(Actor-Critic)**이나, 절벽 추락을 막는 족쇄인 PPO로 무조건 진화 설계해야 생존이 가능하다.

Ⅰ. 개요 및 필요성

DQN(Deep Q-Network)이 천하를 호령했지만, 아주 치명적인 유리천장에 갇혀 있었다. DQN은 머릿속에서 오직 뚝뚝 끊어지는(이산적인, Discrete) 행동만 할 수 있다. "위로 갈래, 아래로 갈래, 총 쏠래?" 처럼 정해진 버튼 몇 개 중 가장 점수가 높은 1등을 딱 하나 고르는(argmax) 메커니즘이기 때문이다.

하지만 진짜 현실 세계는 버튼을 누르는 게 아니다. 자율주행 자동차는 핸들을 "왼쪽 1도, 1.5도, 1.55도..." 무한대의 연속된 각도로 부드럽게 꺾어야(Continuous Action) 살 수 있다. 이 무한대의 행동을 DQN의 엑셀 표로 나누어 점수를 매기면 우주의 메모리를 다 끌어와도 뻗어버린다. 게다가 가위바위보 게임에서 DQN처럼 무조건 1등 점수('바위')만 계속 내면, 상대가 눈치채고 '보'만 내서 로봇을 파산시킨다.

이 두 가지 저주를 한 번에 박살 내기 위해, 정책 경사법 (Policy Gradient) 철학이 등장했다. 점수 엑셀 표 따위는 버려버리고, 아예 로봇의 뇌(신경망 파라미터 $\theta$)가 "상태(사진)를 딱 보면 ─▶ 즉시 행동 A를 할 직관적 확률 분포(예: 좌 20%, 직진 75%, 우 5%)"를 뱉어내도록 훈련의 궤도를 180도 갈아엎어 버린 것이다.

📢 섹션 요약 비유: Q-러닝(DQN)은 맛집을 고를 때 전국의 모든 식당 평점을 다 뒤져서 1등 평점인 곳만 무식하게 가는 맹신자라면, 정책 경사법은 평점표 따윈 버려두고 뇌 속 본능에 따라 "오늘은 짜장면 먹을 느낌 80%, 짬뽕 20%" 라며 부드럽고 유연하게 식당을 고르는 세련된 미식가다.

Ⅱ. 아키텍처 및 핵심 원리

정책 경사법의 가장 기초적이고 위대한 뼈대가 되는 오리지널 알고리즘은 REINFORCE (리인포스) 알고리즘이다.

┌──────────────────────────────────────────────────────────────┐
│           정책 경사법 (REINFORCE)의 직관적 산오르기 훈련 수식 도해       │
├──────────────────────────────────────────────────────────────┤
│  [1. 에피소드(게임 1판) 무지성 플레이 전개]                       │
│   로봇 뇌(π_θ)가 뱉는 '확률'대로 1판이 끝날 때까지 막 던지며 움직임.    │
│   예) s_1 ─(좌 70%)─▶ s_2 ─(우 30%)─▶ s_3 ─(점프 90%)─▶ [목적지 도착! 총 100점]│
│                                                              │
│  [2. 핵심 미분 업데이트 방정식 (Gradient Ascent)]                │
│   새로운 뇌(θ) = 기존 뇌(θ) + α * [ ∇log(π_θ(a|s)) * G(총 누적 보상) ] │
│                                                              │
│  [ 수식의 잔혹하고 우아한 번역 ]                                │
│   * ∇log(π) : "방금 내가 고른 이 행동(a)을 할 확률을 미친 듯이 올려라(기울기 상승)!"│
│   * G (보상) : "잠깐, 곱하기 G가 있네?"                        │
│     ▶ G가 +100점 (대박 났다!) : "방금 했던 궤적의 확률을 폭풍 증폭시켜!"  │
│     ▶ G가 -50점 (절벽에 죽음!) : "방금 했던 짓의 확률을 끔찍하게 깎아내려!"│
└──────────────────────────────────────────────────────────────┘

핵심 원리 (경사 상승법, Gradient Ascent): 딥러닝의 지도 학습(개/고양이 분류)은 오차(Loss)를 줄여야 하므로 산을 내려가는 경사 하강법(Gradient Descent)을 쓴다. 하지만 정책 경사법은 내가 죽을 때까지 얻은 '총점수(Objective, $J(\theta)$)'를 미친 듯이 높여야(최대화) 하므로 산의 정상을 향해 기어올라가는 **경사 상승법(Gradient Ascent)**을 쓴다. 로봇은 좋은 점수를 얻었던 게임 판에서 자기가 우연히 눌렀던 버튼들의 확률을 대폭 키워버리고, 죽었던 판에서 눌렀던 버튼들의 확률은 짓눌러버리면서 점점 최적의 신들린 무빙 확률을 뇌 신경망에 각인시킨다.

📢 섹션 요약 비유: 로봇이 눈 감고 다트를 던지다 우연히 과녁 정중앙(100점)을 맞췄다. 그러면 뇌는 방금 팔 근육의 각도와 힘 조절했던 확률을 머릿속에서 "다음번엔 무조건 이 각도로 던질 확률 99%!"로 폭풍 칭찬(업데이트)한다. 엉뚱한 곳에 맞아 -50점을 받으면 "방금 던진 각도 확률은 다 지워버려!"라고 매몰차게 채찍질(마이너스 업데이트)하는 스파르타식 몸 기억법이다.

Ⅲ. 비교 및 연결

정책 기반 방식은 가치 기반 방식이 풀 수 없는 한계를 박살 냈지만, 훈련 안정성 측면에서는 유리 몸을 가졌다.

비교 방식	1. 가치 기반 (Value-Based, DQN)	2. 정책 기반 (Policy Gradient, REINFORCE)
행동 공간 제어	이산적 (버튼 1, 2, 3 누르기만 가능)	연속적 (소수점 무한대 각도의 핸들 꺾기 제어 가능)
학습의 목표	엑셀 점수판($Q$)의 숫자를 정답에 맞게 교정하기	신경망 확률 망($\pi$)의 행동 확률 밸런스를 직관적으로 조절하기
적대적 게임 생존	100% 무조건 1등 점수만 골라서, 패턴을 읽히고 패배	랜덤 확률이 섞여 있어(예: 가위 33%), 상대가 내 패턴을 죽어도 못 읽음
치명적 단점 (한계)	로봇 팔 제어처럼 연속 공간을 계산하려 들면 메모리가 폭발함	분산(Variance)이 너무 큼. 100판 중 1판 우연히 1만 점을 따면, 그 판에서 했던 뻘짓(코 파기) 확률까지 통째로 다 같이 뻥튀기시켜 학습이 절벽으로 요동침

오리지널 REINFORCE 알고리즘은 1판이 죽을 때까지 기다려야 점수를 정산할 수 있다. 만약 게임 1판이 1년이 걸린다면 영원히 뇌를 고치지 못한다. 그래서 "1판 끝날 때까지 기다리지 말고, 한 발짝 걸을 때마다 이 발걸음이 얼마나 훌륭한지 훈수(가치 점수)를 둬주는 평론가(Critic)를 옆에 붙이자!"라는 역사적 깨달음이 발생했고, 이것이 가치망과 정책망을 기적적으로 하나로 융합한 액터-크리틱(Actor-Critic) 구조로의 진화다.

📢 섹션 요약 비유: 정책 경사법의 가장 큰 약점(높은 분산)은 '연대 책임'이다. 축구에서 10명이 똥을 싸고 스트라이커 1명이 우연히 벼락 슛을 넣어 100점을 얻으면, 감독(뇌)은 "아, 우리 11명 다 잘했어! 똥 싼 놈들도 훌륭해!"라며 팀 전체 확률을 칭찬해 버리는 착각(Variance)에 빠진다. 이 엉터리 연대 책임을 박살 내는 게 현대 RL의 진화 방향이다.

Ⅳ. 실무 적용 및 기술사 판단

산업용 로보틱스, 드론 제어, 자율주행 스티어링, 4족 보행 로봇(Spot) 훈련 파이프라인에서 아키텍트가 가장 먼저 꺼내 드는 무기가 바로 이 정책 경사법 기반의 알고리즘(PPO, DDPG 등)이다.

실무 아키텍처 설계 판단 (체크리스트)

행동 확률 분포(Distribution) 모델링의 결단: 로봇 팔의 모터를 제어할 때, 신경망 마지막 단에 단순 선형(Linear) 활성화 함수를 달면 행동 범위가 우주로 날아간다. 모터가 회전할 수 있는 유한한 범위를 통제하기 위해, 뇌 신경망이 평균($\mu$)과 표준편차($\sigma$)를 뿜어내게 하고 그 가우시안 정규 분포(Gaussian Distribution) 속에서 모터 꺾기 값을 무작위 추출(Sampling)하도록 확률 통계 레이어를 정확히 씌웠는가?
베이스라인 (Baseline) 차감으로 노이즈 분산 척결: REINFORCE 훈련 중 로봇이 우연히 얻어걸린 점수에 취해 미쳐 날뛰는 분산(Variance) 폭발을 막으려면 필수적인 수학 수술이 필요하다. "오늘 번 100점"을 그냥 칭찬 곱하기로 쓰는 게 아니라, "내가 원래 보통 벌던 점수(Baseline, V값)"를 빼준다. 원래 90점 벌던 놈이 100점을 벌면 (+10점 차이)만큼만 확률을 올려주고, 100점 벌던 놈이 90점을 벌면 (-10점 차이)만큼 기분 나쁘게 확률을 깎아버리는 어드밴티지(Advantage) 수식을 꽂아 넣어야만 상용 환경에서 수렴이 보장된다.

안티패턴

단순 경사 상승법(Gradient Ascent)의 무한 절벽 돌진 (Policy Collapse): 일반 딥러닝처럼 학습률(Learning Rate)을 고정하고 정책 경사법을 무지성으로 업데이트하면 뇌 가중치가 한 번에 너무 크게 변해버린다. 어제까지 두 발로 잘 걷던 로봇이 오늘 갑자기 미끄러진 후 뇌가 뒤집혀, 내일부터 평생 바닥을 기어 다니는 바보로 전락(정책 붕괴)한다. 로봇의 뇌가 한 번 업데이트될 때 기존 뇌에서 일정한 비율(Ratio) 이상 절대 변하지 못하도록 클리핑(Clipping) 족쇄를 걸어두는 PPO (Proximal Policy Optimization) 구조 없이 로봇에 배포하는 것은 자살 행위다.
📢 섹션 요약 비유: 순수 정책 경사법은 스키 초보자가 산 정상에서 직활강(가장 경사가 가파른 곳)으로 미친 듯이 내려꽂는 것과 같다. 우연히 최고 속도(높은 점수)를 낼 수도 있지만 한 번 넘어지면 목이 부러져 재기 불능(Policy Collapse)이 된다. 그래서 1번 움직일 때마다 절대 1미터 이상 못 나가게 스키에 밧줄(PPO 클리핑)을 묶어두는 튜닝이 필수다.

Ⅴ. 기대효과 및 결론

정책 경사법(Policy Gradient)은 인공지능 강화 학습의 지형도를 "점수를 외우는 계산기"에서 "상황을 보고 확률을 본능적으로 뿜어내는 진짜 생명체의 뇌"로 180도 뒤집은 거대한 패러다임 시프트다. 이 직관적인 확률 매핑 방식 덕분에 AI는 무한한 실수의 연속 공간을 부드럽고 우아하게 제어하는 '신체 밸런스'를 얻게 되었다.

이 위대한 발견은 단순히 로봇 공학에만 머물지 않았다. 오픈AI(OpenAI)는 대규모 언어 모델(LLM)이 인간의 윤리에 맞게 예쁜 말을 뱉도록 길들이는 RLHF 파이프라인의 최종 심장부로 이 정책 경사법의 후손인 PPO를 채택했다. 언어 모델이 다음에 뱉을 단어의 '확률' 자체를 인간이 좋아하는 방향으로 정밀 타격해 꺾어버리는 이 치명적인 수학의 힘은, 이제 단순한 로봇 팔을 넘어 인류의 거대한 집단 지성(ChatGPT)의 윤리와 도덕을 통제하는 절대적인 나침반으로 진화하였다.

📢 섹션 요약 비유: 정책 경사법은 로봇의 심장에 직관적 야성(본능)을 불어넣은 마법이다. 로봇은 더 이상 두꺼운 점수 계산기(엑셀 표)를 들고 다니지 않는다. 대신 수만 번 몸으로 깨진 생존 본능을 뇌세포 신경망에 각인시켜, 절벽을 보면 "0.1초 만에 99%의 확률로 점프"를 직관적으로 내지르는 야생의 표범으로 거듭난 것이다.

📌 관련 개념 맵

개념	연결 포인트
강화 학습 (Reinforcement Learning)	"행동을 했더니 보상이 좋더라 ─▶ 그 행동 확률을 올려라!" 라는 진화론적 생존 철학의 가장 직관적인 대전제
연속적 행동 공간 (Continuous Action)	핸들 각도나 모터 토크처럼 소수점으로 무한히 쪼개지는 현실의 제어 문제로, 오직 이 정책 경사법 류의 확률 매핑만이 통제 가능한 영역
어드밴티지 함수 (Advantage Function)	우연히 팀이 이겨서 똥 싼 놈까지 칭찬받는 엉터리 연대 책임을 부수기 위해, "원래 내 평균 평점보다 얼마나 더 잘했나?"라는 진짜 엑기스 순수 실력만 도려내는 가산점 지표
액터-크리틱 (Actor-Critic)	정책 경사법(Actor)이 너무 충동적으로 춤추는 걸 막기 위해, 옆에 점수 전문가(Critic)를 딱 붙여서 실시간으로 팩트 폭행 훈수를 두게 만든 진화형 합체 로봇

👶 어린이를 위한 3줄 비유 설명

정책 경사법은 로봇이 "내가 어떤 상황에서 이런 행동을 했을 때 칭찬을 받았나?"를 몸이 기억하게 만드는 **'본능 근육 훈련법'**이에요.
우연히 점프 버튼을 눌러서 괴물을 잡고 큰 칭찬을 받으면, 뇌 속에서 "다음에도 이 괴물을 보면 점프할 확률을 99%로 팍 올려!" 하고 뇌세포를 폭풍 성장시켜요.
점수 계산기를 들고 다니지 않아도 몸이 본능적으로 정답을 알게 되니까, 로봇의 팔다리가 체조 선수처럼 아주 부드럽고 정밀하게 움직이는 기적을 만들 수 있답니다.