172. 액터-크리틱 (Actor-Critic) 모델

핵심 인사이트 (3줄 요약)

본질: 액터-크리틱 (Actor-Critic) 모델은 강화 학습의 양대 산맥인 '가치 기반(DQN)'과 '정책 기반(Policy Gradient)' 철학의 장점만을 뽑아 한 몸에 융합한 궁극의 키메라 아키텍처로, 직접 몸으로 뛰며 행동을 고르는 '배우(Actor)' 뇌와 그 행동의 미래 점수를 냉철하게 매기는 '평론가(Critic)' 뇌 두 개를 동시에 굴리는 구조다.

가치: 오리지널 정책 경사법(REINFORCE)이 1판의 게임이 다 끝날 때까지 기다려야 점수를 정산받아 학습이 요동치고 느렸던 치명적 단점(High Variance)을, 평론가 뇌가 1스텝(한 발짝) 걸을 때마다 실시간으로 가치 점수를 훈수 두는 구조로 박살 내며 연속 제어 로보틱스의 훈련 속도를 수백 배 가속했다.

판단 포인트: 배우 뇌와 평론가 뇌가 앞단의 CNN(시각) 레이어 가중치를 서로 공유하게 할 것인지(메모리 절약 vs 학습 불안정), 아예 분리시켜 따로 놀게 할 것인지의 딥러닝 네트워크 분기(Split) 설계가 현업 모델 안정성의 가장 핵심적인 줄타기다.

Ⅰ. 개요 및 필요성

강화 학습이 세상에 등장한 이후, 연구자들은 두 파벌로 나뉘어 싸웠다. 한쪽은 "행동의 엑셀 점수판(Q-Table/DQN)만 완벽히 계산하면 행동은 1등만 고르면 끝난다"는 **가치 기반 파벌(Critic)**이었고, 다른 쪽은 "점수판 따위 버리고 그냥 지금 당장 왼쪽으로 뛸지 오른쪽으로 뛸지 확률 분포를 조작하는 게 직관적이다"라는 **정책 기반 파벌(Actor)**이었다.

하지만 두 파벌 모두 치명적인 한계가 있었다. 가치 파벌(DQN)은 로봇 팔 각도 같은 연속적이고 부드러운 움직임을 제어하다 메모리가 터져버렸고, 정책 파벌(REINFORCE)은 1판이 죽을 때까지 기다려야 한 번 피드백을 받는 탓에 훈련이 미친 듯이 널뛰며 절벽으로 추락하기 일쑤였다(Variance 폭발).

"그렇다면 둘의 장점만 합치면 되지 않을까?" 로봇이 부드럽게 팔을 뻗는 확률적 '배우(Actor)' 역할을 하고, 그 팔을 뻗은 1초 뒤에 곧바로 "방금 그 각도는 미래에 10점짜리 펀치다"라고 '평론가(Critic)'가 실시간으로 팩트 폭행을 해준다면 훈련은 완벽해진다. 이 두 개의 딥러닝 뇌를 한 두개골 안에 집어넣어 서로를 채찍질하게 만든 역사적 대통합이 바로 **액터-크리틱 (Actor-Critic)**의 탄생이다.

📢 섹션 요약 비유: 액터(배우)는 눈을 감고 미로를 걷는 감각적인 탐험가고, 크리틱(평론가)은 그 옆에 딱 붙어서 지도를 들고 "방금 그 발걸음은 절벽 냄새 90%니까 당장 멈춰!"라고 귀에 대고 실시간 내비게이션 잔소리를 해주는 가이드다. 둘이 콤비를 이루니 게임 끝날 때까지 안 기다려도 1초마다 완벽하게 걸음걸이가 교정된다.

Ⅱ. 아키텍처 및 핵심 원리

액터-크리틱 에이전트의 뇌 속에는 두 개의 분리된 인공신경망이 실시간으로 확률과 점수를 주고받으며 각자의 수학 공식을 업데이트한다.

┌──────────────────────────────────────────────────────────────┐
│           액터-크리틱 (Actor-Critic)의 실시간 채찍질 쌍둥이 뇌 아키텍처   │
├──────────────────────────────────────────────────────────────┤
│  [ 현재 상태 (S_t: 몬스터가 눈앞에 있음) ]                        │
│         │                                                    │
│         ▼                                                    │
│  [1. Actor (배우 신경망, π_θ)] ──▶ "점프 70%, 회피 30% 확률 뿜뿜!" │
│         │                         (주사위 굴려 점프(a) 선택!)   │
│         │                                                    │
│         ▼ (환경에 행동 a 투척 ─▶ 진짜 보상 R 받고 다음 상태 S'로 이동) │
│                                                              │
│  [2. Critic (평론가 신경망, V_w)] ──▶ 상태 S와 S'를 스캔하여 훈수 둠! │
│     * 평론가의 계산(TD Error): "내가 원래 이 자리가 10점짜리라 봤는데,  │
│       네가 뛰고 나니 진짜 5점 줬고 다음 자리가 20점짜리네? 오, 뜻밖의 대박(+15점)!"│
│                                                              │
│  [3. 두 뇌의 영혼의 동시 피드백 업데이트 ]                          │
│     ▶ 평론가(Critic) 업데이트: 엇, 내 예상 점수표가 틀렸네? V(s) 점수 수정!│
│     ▶ 배우(Actor) 업데이트: 헐, 평론가가 방금 행동이 15점 더 이득이래! │
│                           '점프'할 확률을 70%에서 85%로 폭풍 상승시켜! │
└──────────────────────────────────────────────────────────────┘

핵심 원리 (TD Error와 어드밴티지): 평론가(Critic)의 핵심 무기는 게임이 끝날 때까지 기다리는 멍청한 짓을 버리고, 지금 당장 받은 진짜 보상 $R$과 다음 상태의 내 예상 가치 $V(s')$를 더해서, 기존에 내가 기대했던 $V(s)$를 빼버리는 시간차 오차(TD Error, $\delta = R + \gamma V(s') - V(s)$)를 구하는 것이다. 이 TD 에러는 곧 "내가 생각했던 것보다 이 행동이 얼마나 더 대박이었나?"를 보여주는 어드밴티지(Advantage) 지표와 수학적으로 완벽히 동일하다. 배우(Actor)는 이 순수한 엑기스 어드밴티지 점수만 받아먹고 자신의 뇌 확률(Policy Gradient)을 부드럽게 조정하며 수렴의 극치를 달린다.

📢 섹션 요약 비유: 평론가는 주식 애널리스트다. 배우가 테슬라 주식(행동)을 샀을 때 1년 뒤 결과를 기다리지 않는다. 하루 만에 주가가 5% 오르면 평론가는 즉시 "내 원래 예상보다 3% 더 초과 달성(TD Error/어드밴티지) 했네! 테슬라 매수 확률 더 올려!"라고 실시간 피드백을 때려 박는다.

Ⅲ. 비교 및 연결

액터-크리틱이 등장하면서 이전 세대의 원시적인 강화 학습들은 박물관으로 들어가게 되었다. 왜 액터-크리틱이 황제인지 비교해보자.

비교 알고리즘	DQN (가치 기반)	REINFORCE (순수 정책 기반)	Actor-Critic (완전체 융합)
행동 공간 제어	이산적 행동(버튼 클릭)만 가능, 로봇 관절 조작 불가능	연속적 행동(조향각 제어) 훌륭하게 가능	연속적 행동(조향각 제어) 완벽하게 가능
학습의 속도 (피드백)	매 스텝마다 (빠름)	에피소드 끝날 때까지 통째로 기다림 (미치도록 느림)	매 스텝마다 평론가가 점수 쏴줌 (엄청나게 빠름)
학습의 불안정성	차원의 저주, 뻥튀기 과대평가에 취약함	우연한 보상에 뇌가 폭주하는 분산(Variance) 폭발 위험이 큼	분산(Variance)이 평론가 덕에 대폭 감소하여 부드럽게 안정적 수렴
단점 및 병목	연속 제어 불가	로봇이 한 번 삐끗하면 뇌가 완전히 무너져 파산함	두 개의 딥러닝 뇌를 동시에 조율하며 훈련해야 하므로 하이퍼파라미터 줄타기 세팅이 헬 난이도임

오늘날 오픈AI나 딥마인드가 발표하는 최신 강화 학습 모델(A3C, SAC, PPO, DDPG)들은 그 이름이 무엇이든 간에 밑바닥 심장부를 까보면 100% 모두 이 Actor-Critic 뼈대 위에서 돌아가고 있다. 더는 이 융합 구조를 벗어난 모델은 존재하지 않는다고 봐도 무방하다.

📢 섹션 요약 비유: DQN이 투박하지만 튼튼한 장갑차(가치 기반)고, REINFORCE가 빠르지만 뒤집어지기 쉬운 스포츠카(정책 기반)라면, 액터-크리틱은 스포츠카의 미친 속도와 장갑차의 흔들리지 않는 묵직한 서스펜션을 하나로 합친 최첨단 전투형 트랜스포머다.

Ⅳ. 실무 적용 및 기술사 판단

자율주행의 조향/액셀/브레이크 연속 복합 제어나, ChatGPT를 정렬시키는 RLHF 파이프라인에서 보상 모델(Critic)과 PPO 언어망(Actor)을 구성할 때 아키텍트는 두 뇌의 물리적 분리를 결단해야 한다.

실무 아키텍처 설계 판단 (체크리스트)

Network Parameter Sharing (가중치 공유 딜레마): 이미지 픽셀을 보고 판단하는 게임(Atari 등)에서 Actor와 Critic은 각각 앞단의 CNN(비전) 뇌를 필요로 한다. 이때 CNN을 두 개 띄우면 VRAM 메모리가 박살 나므로 앞단 층을 샴쌍둥이처럼 공유하고 맨 마지막 출력층 파이프만 $\pi$(확률)와 $V$(가치)로 찢는 아키텍처를 흔히 쓴다. 하지만 실무에서는 Actor와 Critic이 원하는 특징(Feature)이 미묘하게 달라서 두 뇌가 앞단 CNN을 자기 쪽으로 미친 듯이 당기며 싸우다 훈련이 붕괴된다. 메모리가 허락한다면 무조건 Actor망과 Critic망을 100% 분리(Disjoint)하여 독립적으로 훈련시키는 것이 안정성 방어의 1원칙이다.
어드밴티지 함수(A2C) 강제 치환: 단순한 Q-value나 평론가 점수(V)를 그대로 배우(Actor)에게 먹이면, "원래 좋은 땅"에 우연히 떨어진 로봇이 아무 버튼이나 누르고 자기가 펀치를 잘 친 줄 착각한다. 무조건 $A(s, a) = Q(s,a) - V(s)$ 수식을 통해 "기본 땅값 거품을 뺀, 오직 내 펀치 실력 덕분에 더 벌어들인 순수 가산점(Advantage)"만을 발라내어 업데이트하는 A2C (Advantage Actor-Critic) 구조로 컴파일해야 뇌의 착각과 헛손질 분산(Variance)을 박살 낼 수 있다.

안티패턴

학습률(Learning Rate) 동기화의 재앙: 딥러닝 옵티마이저(Adam 등)를 짤 때, 무지성으로 Actor와 Critic의 학습률 $\alpha$를 똑같이 1e-3으로 맞춰놓고 돌리는 멍청한 버그. 평론가(Critic)가 점수를 제대로 꿰뚫어 보기도 전에, 배우(Actor)가 설레발치며 정책을 확확 바꿔버리면 장님이 장님을 이끄는 지옥행 급행열차가 된다. 무조건 Critic의 학습률을 Actor보다 10배 이상 크게(빠르게) 잡아주어, 평론가가 먼저 우주 최강의 냉철한 팩트 폭행 눈을 갖추고 난 뒤에 배우가 서서히 그 조언을 따라가도록 조율해야 한다.
📢 섹션 요약 비유: 평론가(Critic)는 앞을 보는 눈이고, 배우(Actor)는 걷는 다리다. 눈이 아직 흐릿한데 다리가 미친 듯이 질주하면 낭떠러지로 떨어진다. 눈(Critic)의 시력을 초고속(높은 학습률)으로 몽골인 수준으로 개안시킨 다음, 다리(Actor)가 그 조심스러운 가이드에 맞춰 천천히 보폭을 수정하는 것이 완벽한 훈련 동기화의 비밀이다.

Ⅴ. 기대효과 및 결론

액터-크리틱(Actor-Critic)은 기계에게 "직관적으로 움직이는 몸(Actor)"과 "그 움직임을 이성적으로 반성하는 뇌(Critic)"라는 인간의 이원론적 인지 구조를 완벽하게 수학으로 구현해 낸 딥러닝 융합의 마스터피스다. 이 두 신경망이 수천만 번의 프레임을 돌며 영혼의 스파링을 거치면, 헬리콥터를 거꾸로 뒤집어 날게 하고 네 발 로봇이 얼음판에서 넘어지지 않고 탭댄스를 추는 초월적 연속 제어 최적화가 완성된다.

오늘날 이 뼈대 위에 다중 스레드(Thread)를 미친 듯이 꽂아 넣어 비동기로 학습 속도를 우주로 보내버린 A3C나, 정책망이 너무 크게 변하지 못하도록 족쇄를 묶어 훈련 붕괴를 원천 봉쇄한 오픈AI의 **PPO (Proximal Policy Optimization)**까지, 액터-크리틱의 진화는 끝이 없다. 거대 언어 모델(LLM)이 인간의 섬세한 철학적 의도를 완벽히 따라 하는 뒤편에도, 인간 피드백을 외운 거대한 평론가 망(Reward Model/Critic)이 언어 생성기(Actor)의 입을 매 순간 찰나의 확률로 교정하는 이 액터-크리틱의 위대한 앙상블이 숨 쉬고 있다.

📢 섹션 요약 비유: 액터-크리틱은 내 안에 잠든 '야생의 본능(배우)'과 '냉철한 이성(평론가)'의 완벽한 융합이다. 야생의 본능이 눈 딱 감고 절벽을 뛰어넘을 확률을 내지르면, 냉철한 이성이 1초 만에 "방금 그 점프는 각도가 15% 더 완벽했다, 보상!"이라고 피드백을 내린다. 이 핑퐁이 수억 번 반복되면 신도 흉내 내지 못할 가장 기하학적이고 우아한 발걸음이 완성된다.

📌 관련 개념 맵

개념	연결 포인트
정책 경사법 (Policy Gradient/Actor)	액터-크리틱의 절반을 차지하는 본체. 상황을 보고 주사위를 던져 왼쪽, 오른쪽 연속된 행동을 직접 뿜어내는 행동파 딥러닝 뇌
가치 함수 (Value Function/Critic)	액터-크리틱의 나머지 절반 본체. 행동은 못 하지만 "그 자리에서 그거 하면 총 100점 예상"이라고 훈수와 팩트 폭행을 담당하는 냉철한 딥러닝 뇌
어드밴티지 (Advantage)	평론가(Critic)가 배우(Actor)에게 조언을 줄 때, "원래 좋은 땅값 빼고 네가 순수하게 더 잘한 점수 엑기스"만 발라주는 핵심 마법의 수학 지표 (A2C)
PPO (Proximal Policy Optimization)	액터-크리틱 뼈대 위에서, 배우(Actor)가 너무 극단적으로 한 번에 행동 확률을 확 바꿔버려 파산하는 걸 막는 오픈AI의 절대 방어구 알고리즘

👶 어린이를 위한 3줄 비유 설명

액터-크리틱은 한 로봇의 머릿속에 몸을 움직이는 **'행동 대장(Actor)'**과 옆에서 잔소리하는 '똑똑한 훈수꾼(Critic)' 두 명이 동시에 살고 있는 신기한 구조예요.
행동 대장이 눈 꽉 감고 아무렇게나 점프를 하면, 훈수꾼이 1초 만에 "방금 점프는 50점짜리 쓰레기였어! 각도를 좀 더 틀어!"라고 실시간으로 채점과 잔소리를 해줘요.
훈수꾼 덕분에 행동 대장은 게임 끝날 때까지 멍청하게 기다리지 않고 매 순간마다 폼을 고칠 수 있어서, 백배 천배 빠르게 우주 최고의 달인으로 성장한답니다!