핵심 인사이트 (3줄 요약)
- 본질: 강화 학습은 에이전트(Agent)가 환경(Environment)과 상호작용하면서 보상(Reward)을 최대화하는 행동 정책(Policy)을 학습하는 ML 패러다임이며, 별도의 정답 라벨 없이 **시행착오(Trial and Error)**를 통해 학습한다.
- 가치: 바둑(AlphaGo)·로봇 제어·게임·추천 시스템·LLM 정렬(RLHF)에서 최적 행동 전략을 자동으로 발견할 수 있으며, 지도 학습처럼 정답 라벨이 필요 없다.
- 판단 포인트: 탐색(Exploration) vs 활용(Exploitation) 딜레마가 핵심이며, Q-Learning(Value 기반)·Policy Gradient(Policy 기반)·Actor-Critic(하이브리드)의 3대 접근법을 구분해야 한다.
Ⅰ. 개요 및 필요성
┌───────────────────────────────────────────────────────┐
│ 강화 학습 프레임워크 │
├───────────────────────────────────────────────────────┤
│ [Agent] │
│ 현재 상태 s → 행동 a 선택 (Policy π) │
│ │ │
│ ▼ │
│ [Environment] │
│ 행동 a 수행 → 보상 r + 새 상태 s' 반환 │
│ │ │
│ ▼ │
│ [Agent] 보상 r을 기반으로 Policy 업데이트 │
│ → 반복하여 누적 보상 최대화 │
└───────────────────────────────────────────────────────┘
- 📢 섹션 요약 비유: 강화 학습은 게임을 처음 하는 아이가 **점수(보상)**를 올리기 위해 여러 버튼을 눌러보면서(시행착오) 최적 전략을 스스로 터득하는 것이다.
Ⅱ. 아키텍처 및 핵심 원리
3대 접근법
| 접근법 | 학습 대상 | 대표 | 특징 |
| Value 기반 | Q(s,a) 가치 함수 | DQN | 이산 행동 |
| Policy 기반 | π(a|s) 직접 | REINFORCE | 연속 행동 |
| Actor-Critic | 둘 다 | PPO, A3C | 실용 표준 |
RLHF (강화 학습 + 인간 피드백)
LLM(GPT)을 인간 선호도 피드백으로 정렬하는 기법. ChatGPT의 핵심 학습 방법이다.
- 📢 섹션 요약 비유: RLHF는 작문 선생님(인간)이 학생(LLM)의 글에 "이 답변이 더 좋아"라고 **피드백(보상)**하면서 글쓰기를 가르치는 것이다.
Ⅲ. 비교 및 연결
| 비교 | 지도 | 비지도 | 강화 |
| 피드백 | 정답 라벨 | 없음 | 보상 |
| 목표 | 예측 | 구조 발견 | 행동 최적화 |
| 대표 | XGBoost | K-Means | PPO, DQN |
Ⅳ. 실무 적용 및 기술사 판단
적용 분야
- 게임: AlphaGo(바둑), Atari(DQN).
- 로봇: 보행·조작 제어.
- LLM: RLHF (GPT 정렬).
- 추천: 장기 사용자 만족도 최적화.
Ⅴ. 기대효과 및 결론
강화 학습은 "정답이 없는 순차적 의사결정 문제"의 유일한 해법이며, RLHF를 통해 LLM 정렬의 핵심 기술로 자리잡았다.
📌 관련 개념 맵
| 개념 | 연결 포인트 |
| Agent | 행동을 선택하는 학습 주체 |
| Reward | 행동의 좋고 나쁨을 알려주는 신호 |
| Policy | 상태→행동 매핑 전략 |
| RLHF | 강화 학습 + 인간 피드백 (GPT) |
| PPO | 실용적 Policy Gradient 알고리즘 |
📈 관련 키워드 및 발전 흐름도
[Q-Learning (1989) — 테이블 기반]
│
▼
[DQN (2013, DeepMind) — 딥 Q-Network]
│
▼
[AlphaGo (2016) — 바둑 세계 챔피언 달성]
│
▼
[PPO (2017, OpenAI) — 실용적 Policy Gradient]
│
▼
[현재: RLHF (ChatGPT) + GRPO — LLM 정렬]
👶 어린이를 위한 3줄 비유 설명
- 강화 학습은 게임을 처음 하면서 점수(보상)를 올리는 방법을 배우는 거예요.
- 좋은 행동(높은 점수)은 더 많이 하고, 나쁜 행동(낮은 점수)은 줄여요.
- AlphaGo도 이 방법으로 바둑을 배워서 세계 챔피언을 이겼답니다!