389. PPO (Proximal Policy Optimization) 최적화 알고리즘

핵심 인사이트 (3줄 요약)

본질: PPO(근위 정책 최적화)는 챗GPT 등 현대 거대 인공지능이 인간의 피드백을 받아들여 똑똑해질 때(RLHF) 사용하는 강화학습의 최적화 알고리즘으로, AI가 "어떤 행동을 할 확률(Policy)"을 직접 학습하고 수정하는 기법이다.

가치: 기존 강화학습 모델들은 학습 중에 우연히 엄청나게 좋은 점수를 받으면 흥분해서 기존의 학습 방향을 완전히 뒤엎어버려 모델이 망가지는(폭주) 고질병이 있었는데, PPO는 **클리핑(Clipping)**이라는 안전장치를 도입해 이 폭주를 완벽하게 막아냈다.

판단 포인트: TRPO라는 엄청나게 복잡한 수학(KL-Divergence)을 쓰던 이전 모델을, 단순한 '가위질(Clipping)' 수식 하나로 대체하여 수학적으로는 훨씬 가볍고, 속도는 빠르며, 성능은 압도적으로 안정적인 현대 강화학습의 절대 표준(De facto standard)이 되었다.

Ⅰ. 개요 및 필요성

자전거 타기를 배우는 인공지능이 있다. 기존의 Q-Learning 계열(DQN)은 "페달을 밟으면 10점, 브레이크를 밟으면 0점"이라는 점수표(Value)를 외우는 방식이었다. 하지만 로봇 팔의 각도처럼 경우의 수가 무한대인 연속적인 행동 앞에서는 점수표를 다 만들 수가 없었다. 그래서 학자들은 점수표 대신 "자전거가 기울면 핸들을 튼다"는 '정책(Policy)' 자체를 통째로 딥러닝으로 학습시키는 방식을 고안했다.

그런데 이 '정책 기반(Policy Gradient)' 방식은 엄청난 약점이 있었다. AI가 우연히 핸들을 확 꺾어서 100점을 한 번 받으면, 기존에 잘 타고 있던 부드러운 핸들링 감각을 다 잊어버리고 앞으로는 무조건 핸들만 확확 꺾어대는 미치광이(파라미터 붕괴)가 되어버렸다. "AI가 한 번에 너무 크게 변하지 못하도록, 딱 한 발짝씩만 안전하게 학습하게 만들 순 없을까?" 이 고민에서 탄생한 오픈AI(OpenAI)의 걸작이 바로 **PPO(Proximal Policy Optimization)**다.

📢 섹션 요약 비유: 골프 선수가 폼을 교정할 때, 우연히 눈 감고 휘두른 스윙이 홀인원이 되었다고 해서 폼 전체를 '눈 감고 치는 폼'으로 완전히 뜯어고치면 망한다. PPO는 코치가 옆에서 "흥분하지 말고, 기존 폼에서 딱 10%만 수정해!"라고 브레이크를 걸어주는 것이다.

Ⅱ. 아키텍처 및 핵심 원리

PPO의 핵심은 기존 정책과 새로운 정책이 얼마나 달라졌는지 비율(Ratio)을 구하고, 그 비율이 선을 넘으면 강제로 잘라버리는(Clipping) 목적 함수(Objective Function)에 있다.

┌────────────────────────────────────────────────────────┐
│             [ PPO의 클리핑(Clipping) 목적 함수 아키텍처 ]     │
├────────────────────────────────────────────────────────┤
│ 1. 정책 변화 비율 (Ratio, r)                           │
│    - r_t = (새로운 정책으로 행동할 확률) / (과거 정책으로 행동할 확률)│
│    - r이 1.5면 "새 모델이 이 행동을 50%나 더 자주 하네!"의미     │
│                                                        │
│ 2. 서로게이트(Surrogate) 목적 함수와 클리핑             │
│    - L_CLIP = min( r_t * A_t,  clip(r_t, 0.8, 1.2) * A_t )│
│    [어드밴티지, A_t] : "이 행동이 평균보다 얼마나 더 좋은가?"     │
│                                                        │
│ 3. PPO의 방어 매커니즘 (가위질)                          │
│    - A_t가 플러스(+)라서 행동을 늘리려는데, 이미 1.2배(20%)를 넘었다면?│
│      -> "그만! 더 이상 확률을 올리지 마!" (1.2에서 컷!)         │
│    - A_t가 마이너스(-)라서 행동을 줄이려는데, 0.8배 밑으로 떨어졌다면?│
│      -> "그만! 한 번에 너무 많이 포기하지 마!" (0.8에서 컷!)     │
└────────────────────────────────────────────────────────┘

어드밴티지 (Advantage, $A_t$): 단순히 점수가 높다고 좋은 게 아니다. 원래 100점짜리 자리에서 105점을 받은 것보다, 원래 10점짜리 자리에서 50점을 받은 것이 훨씬 위대한 행동이다. 어드밴티지는 **(실제 받은 보상) - (그 자리의 평균 기대 보상)**을 계산하여, 이 행동이 '평균 대비' 얼마나 훌륭했는지를 칭찬해 주는 잣대다.
액터-크리틱 (Actor-Critic): PPO는 두 개의 신경망을 동시에 돌린다. **액터(Actor)**는 핸들을 직접 꺾는 선수(Policy)고, **크리틱(Critic)**은 옆에서 "이번 핸들링은 평균보다 10점 높았어(Advantage)"라고 평가해 주는 코치(Value)다.

📢 섹션 요약 비유: 주식 투자를 할 때 어제 1만 원 벌던 방법에서 오늘 2만 원 버는 방법(어드밴티지 높음)을 찾았더라도, 전 재산을 그 방법에 몰빵(정책의 과도한 변경)하지 못하게 법으로 투자 금액의 20%까지만 바꾸도록(클리핑) 막아놓은 안전장치다.

Ⅲ. 비교 및 연결

강화학습을 학습하는 두 가지 큰 줄기(가치 기반 vs 정책 기반)와 PPO의 위치를 비교한다.

비교 항목	DQN (가치 기반)	TRPO (기존 정책 기반)	PPO (현대 정책 기반)
학습 대상	상태와 행동의 점수(Q값) 자체	"어떤 행동을 할까?"라는 정책 곡선	"어떤 행동을 할까?"라는 정책 곡선
행동의 공간	왼쪽, 오른쪽 등 이산적(Discrete) 행동만 가능	핸들 각도 등 연속적(Continuous) 행동 가능	핸들 각도 등 연속적 행동 완벽 지원
안전장치	타겟 신경망 분리	KL-Divergence라는 엄청 복잡한 수학 공식 사용	단순한 Min, Clip(가위질) 함수 사용
학습/배포	오프 폴리시 (과거 남의 데이터로 학습 가능)	온 폴리시 (무조건 자기가 직접 해봐야 함)	온 폴리시 (무조건 자기가 직접 해봐야 함)
속도 및 성능	복잡한 시뮬레이션에서 흔들림	성능은 좋으나 연산이 너무 무겁고 느림	가볍고(First-order), 빠르고, 압도적으로 안정적

PPO는 이전 세대인 TRPO(Trust Region Policy Optimization)의 철학(Trust Region: 믿을 수 있는 범위 내에서만 움직여라)을 그대로 계승했지만, TRPO의 악랄한 2차 미분(헤시안 행렬) 수학 연산을 다 걷어내고 단순한 1차 미분(클리핑)으로 바꿔치기하여 '가성비의 극치'를 이끌어 냈다.

📢 섹션 요약 비유: TRPO가 차가 미끄러지지 않게 하려고 수백만 원짜리 복잡한 컴퓨터 제어 서스펜션(2차 미분)을 달았다면, PPO는 그냥 핸들에 물리적인 잠금장치(클리핑)를 달아서 핸들이 아예 20도 이상 안 돌아가게 막아버린 천재적인 가성비 튜닝이다.

Ⅳ. 실무 적용 및 기술사 판단

실무 적용 시나리오: 챗GPT(LLM)가 욕설을 하지 않고 공손하게 말하도록 훈련하는 RLHF (인간 피드백 기반 강화학습) 파이프라인의 최종 단계다. 챗GPT가 문장을 뱉으면 보상 모델(Reward Model)이 "이 문장은 공손하네, 10점!"이라고 어드밴티지($A_t$)를 준다. 그러면 PPO 알고리즘이 가동되어, 챗GPT 내부의 트랜스포머 가중치(Policy)를 '공손한 단어를 뱉는 쪽으로' 업데이트한다. 이때 PPO의 클리핑 덕분에 챗GPT가 "감사합니다"라는 말에 꽂혀서 "감사합니다 감사합니다 감사합니다"만 반복하는 앵무새로 망가지는 것을 완벽하게 막아준다.

기술사 판단 포인트 (Trade-off): PPO 아키텍처를 도입할 때 기술사는 **'온 폴리시(On-Policy)의 치명적 한계(데이터 효율성)'**를 계산해야 한다.

PPO는 '자기가 직접 행동해서 얻은 방금 전의 데이터'만으로 학습하고, 한 번 학습한 데이터는 바로 쓰레기통에 버려야 하는 온 폴리시(On-Policy) 알고리즘이다.
따라서 시뮬레이션에서 로봇을 돌릴 수 있는 환경(데이터 수집이 공짜인 환경)에서는 최고의 알고리즘이지만, 실제 사람의 클릭이 필요하거나 데이터를 모으는 데 돈과 시간이 많이 드는 환경(데이터가 귀한 환경)에서는 PPO 대신, 옛날 데이터를 재활용(Replay Buffer)할 수 있는 SAC (Soft Actor-Critic) 같은 오프 폴리시(Off-Policy) 계열로 아키텍처를 우회해야 한다.

📢 섹션 요약 비유: PPO는 책을 한 번 읽고 머리에 집어넣은 뒤 바로 불태워버리는 천재다. 책값이 공짜인 도서관(시뮬레이션)에서는 책을 계속 뽑아오면 되니 문제가 없지만, 책값이 한 권에 10만 원씩 하는 현실 세계에서는 책을 무한정 태울 수 없으니 낡은 책도 계속 꺼내보는 방식(오프 폴리시)이 필요하다.

Ⅴ. 기대효과 및 결론

PPO는 구글과 딥마인드, 오픈AI가 각축전을 벌이던 딥러닝 강화학습 세계의 천하를 통일한 궁극의 최적화 알고리즘이다. 복잡한 수학 공식보다 직관적이고 단순한 엔지니어링(클리핑)이 실무에서 훨씬 더 강력하다는 것을 증명한 딥러닝 역사의 상징적인 사건이기도 하다.

결론적으로 PPO가 없었다면 오늘날의 챗GPT(LLM)는 세상에 나오지 못했을 것이다. LLM의 미세 조정(Fine-tuning) 과정에서 모델의 언어 능력을 붕괴시키지 않고, 인간의 가치관(Alignment)만 살짝 주사기처럼 주입해 넣는 데 PPO만큼 완벽한 도구는 아직 없다. 기술사는 이 알고리즘이 "AI의 폭주를 제어하는 브레이크"라는 점을 통찰하고, 향후 AGI(범용 인공지능) 시대의 안전성(Safety) 아키텍처의 기본 원리로 삼아야 한다.

📢 섹션 요약 비유: PPO는 망아지 같은 인공지능에게 씌워놓은 가장 완벽한 고삐다. 인공지능이 마음껏 뛰놀며 새로운 길(학습)을 찾도록 풀어주되, 벼랑 끝으로 확 뛰어내리려는(파라미터 붕괴) 순간에는 고삐가 팽팽해지며(클리핑) 절대 선을 넘지 못하게 지켜준다.

📌 관련 개념 맵

상위 개념: 강화학습 (Reinforcement Learning), 정책 경사 (Policy Gradient)
하위 개념: 클리핑 (Clipping), 어드밴티지 (Advantage), 액터-크리틱 (Actor-Critic)
연결 개념: TRPO, RLHF (인간 피드백 기반 강화학습), DQN, 언어 모델 정렬 (Alignment)

👶 어린이를 위한 3줄 비유 설명

로봇이 자전거 타기를 배울 때, 핸들을 오른쪽으로 살짝 꺾었더니 자전거가 안 넘어졌어요! (좋은 정책)
너무 기뻐한 로봇이 "아! 그럼 핸들을 오른쪽으로 확 꺾어버리자!"라고 오버하다가 넘어져서 자전거가 망가져 버렸죠 (정책 폭주).
PPO 선생님은 "아무리 좋은 방법을 찾아도, 한 번에 10도 이상은 절대 꺾지 마!"라고 브레이크(클리핑)를 걸어줘서, 로봇이 아주 안전하게 자전거를 배울 수 있게 도와준답니다!