465. DQN (Deep Q-Network)과 경험 리플레이, 타겟 네트워크

핵심 인사이트 (3줄 요약)

본질: DQN(Deep Q-Network)은 강화학습이 쓰던 종이 수첩(Q-Table)을 찢어버리고, 그 자리에 딥러닝(CNN) 신경망을 꽂아 넣어 "어떤 복잡한 화면(픽셀)이 들어오든, 각 행동(상/하/좌/우)을 했을 때 받을 점수를 함수로 예측해 내는" 초거대 인공지능 뇌다.

가치: 기존 강화학습은 벽돌 깨기 게임의 수억 개가 넘는 화면(상태)을 모두 수첩에 적을 수 없어 파산했지만, DQN은 화면 자체를 이미지로 인식하는 CNN과 결합하여 인간의 개입 없이 스스로 벽돌 깨기 게임의 만점 공략법을 깨우치며 2013년 전 세계를 경악시켰다.

판단 포인트: 단순히 딥러닝과 Q-Learning을 합치면 모델이 미쳐 날뛰며(학습 붕괴) 터져버린다. 구글 딥마인드는 이를 막기 위해 과거의 경험을 섞어 쓰는 **경험 리플레이(Experience Replay)**와, 쫓아가는 정답지를 꽁꽁 얼려두는 **타겟 네트워크(Target Network)**라는 두 가지 전설적인 꼼수를 발명하여 딥러닝과 강화학습의 완벽한 융합을 이뤄냈다.

Ⅰ. 개요 및 필요성

강화학습 알고리즘 Q-Learning은 똑똑하지만 치명적인 한계가 있었다. 게임 속 경우의 수가 바둑판 100칸이면 수첩(Q-Table)에 다 적을 수 있지만, 오락실 벽돌 깨기 게임의 화면(픽셀) 경우의 수는 우주의 원자 수보다 많아 수첩에 절대 적을 수 없었다 (차원의 저주).

"모든 경우의 수를 수첩에 다 적지 말고, 현재 화면의 픽셀 사진을 딱 보여주면 '오른쪽으로 가면 10점, 왼쪽으로 가면 -5점'이라고 대충 예측해 주는 딥러닝 함수(신경망)를 만들면 안 될까?" 강화학습의 뼈대 위에 거대한 신경망(Deep Learning)을 뇌로 이식한 것, 그것이 구글 딥마인드(DeepMind)를 세계 최고의 AI 회사로 만든 DQN의 시작이다.

📢 섹션 요약 비유: 동네 빵집 사장님(Q-Learning)은 단골 100명의 얼굴과 취향을 수첩에 다 적어놓고 외울 수 있었다. 하지만 전국 5천만 명의 손님이 몰려오자 수첩이 터져버렸다. 그래서 5천만 명의 얼굴 데이터를 보고 취향을 자동으로 때려 맞추는 거대한 AI 컴퓨터(DQN)를 카운터에 들여놓은 것이다.

Ⅱ. 아키텍처 및 핵심 원리

DQN은 딥러닝과 강화학습이 만났을 때 벌어지는 최악의 버그들을 두 가지 특수 파이프라인으로 완벽하게 진압했다.

┌────────────────────────────────────────────────────────┐
│             [ DQN의 학습 붕괴 방어를 위한 2대 파이프라인 ]      │
├────────────────────────────────────────────────────────┤
│ 1. 문제 1: 데이터의 시간적 편향 (Correlation)              │
│    - 게임을 하면 [1초 화면 -> 2초 화면 -> 3초 화면]이 연속으로 들어옴│
│    - 비슷한 화면만 연달아 학습하면 딥러닝이 과적합으로 바보가 됨! │
│    - [해결책] 경험 리플레이 (Experience Replay)             │
│      -> 매 순간의 캡처 화면을 거대한 '리플레이 버퍼(메모리)'에 저장함│
│      -> 학습할 땐 순서대로 안 뽑고, 버퍼에서 무작위(Random)로    │
│         과거 기억을 섞어서 끄집어내어 학습함! (노이즈 파괴)         │
│                                                        │
│ 2. 문제 2: 움직이는 과녁 (Moving Target)                  │
│    - Q_new = R + γ * Max(Q_next) 공식에서, Q_next를 예측하는│
│      신경망과 Q_new를 학습하는 신경망이 똑같은 놈임.             │
│    - 내가 1보 걸을 때마다 정답지도 같이 1보 도망가는 미친 상황 발생! │
│    - [해결책] 타겟 네트워크 (Target Network) 분리           │
│      -> 정답지를 예측하는 '타겟 신경망'을 아예 복사해서 하나 더 만듦│
│      -> 이 타겟망의 가중치는 꽁꽁 얼려두고(Freeze) 1만 번에 한 번씩만│
│         메인 신경망과 동기화시킴! (정답지가 가만히 멈춰 있게 됨)     │
└────────────────────────────────────────────────────────┘

상태(State)로서의 이미지: DQN의 입력값은 숫자가 아니다. 게임 화면 픽셀 그대로다. 딥마인드는 최근 4개의 프레임(화면)을 겹쳐서 CNN에 밀어 넣었다. 사진 1장만 주면 공이 위로 가는지 아래로 가는지 모르지만, 4장을 겹쳐서 주면 CNN이 스스로 '공의 이동 방향과 속도(벡터)'까지 완벽히 인식해 낸다.
End-to-End 학습: "픽셀 화면을 넣으면, 조이스틱 버튼(행동)이 튀어나온다." 중간에 인간이 '공의 위치를 찾아라' 같은 힌트를 단 하나도 주지 않았음에도, 오직 점수(보상) 하나만 보고 기계가 화면을 스스로 씹어먹는 엔드투엔드(End-to-End)를 달성했다.

📢 섹션 요약 비유: 경험 리플레이는 수학 공부를 할 때 1단원만 쭉 풀면 나중에 2단원을 까먹으니까, 문제집의 1, 2, 3단원 문제를 섞어서 랜덤으로 푸는 복습법이다. 타겟 네트워크는 움직이는 토끼(과녁)를 향해 활을 쏘면 계속 빗나가니까, 토끼를 10초 동안 나무에 묶어놓고(Freeze) 여유롭게 활의 영점을 잡는 사냥법이다.

Ⅲ. 비교 및 연결

수학 수첩(Table)을 쓰던 시절의 Q-Learning과 신경망(Deep Learning)을 쓴 DQN의 급나누기 비교다.

비교 항목	Q-Learning (테이블 기반)	DQN (딥러닝 기반)
저장 매체	2차원 엑셀 표 (Q-Table)	거대한 인공신경망 (CNN, MLP)
상태(State) 처리	이산적(Discrete)인 상태만 가능	무한대의 픽셀 이미지(연속적/고차원) 처리 가능
일반화 성능	한 번도 안 가본 길은 점수가 0이라 모름	안 가본 길도 비슷한 픽셀이면 점수를 유추해 냄 (Generalization)
학습 안정성	매우 안정적으로 수렴함	경험 리플레이, 타겟망 없으면 폭발함 (매우 불안정)

DQN이 위대하긴 하지만 여전히 한계가 있다. 행동(Action)이 "조이스틱 위/아래"처럼 딱딱 끊어지는 불연속(Discrete) 행동만 할 수 있다는 점이다. 자율주행 자동차의 "핸들을 15.3도 꺾어라" 같은 부드럽고 연속적인(Continuous) 행동은 불가능하다. 이를 극복하기 위해 등장한 것이 행동까지 딥러닝으로 뽑아내는 DDPG나 SAC (Soft Actor-Critic) 같은 최신 연속 제어 알고리즘이다.

📢 섹션 요약 비유: Q-Learning은 식당 메뉴판 100개를 다 먹어보고 수첩에 맛 점수를 적는 미식가다(안 먹어본 건 모름). DQN은 음식의 재료와 냄새(픽셀 특징)만 맡고도 "이건 안 먹어봐도 90점짜리 맛이겠네!"라고 일반화(Generalization)해서 유추해 내는 천재 백종원이다.

Ⅳ. 실무 적용 및 기술사 판단

실무 적용 시나리오: 로봇 팔이 컨베이어 벨트에서 물건을 집어 드는 픽 앤 플레이스(Pick and Place) 강화학습을 설계한다. 로봇 위에 달린 카메라 영상이 상태(S)다. 기술사는 파이토치로 DQN 아키텍처를 짠다. 카메라 영상이 들어오면 CNN이 이를 압축하고, 마지막 출력층에서 [위, 아래, 집기, 놓기] 4가지 행동에 대한 Q값(기대 점수)을 뱉어낸다. 학습 초반, 로봇은 미친 듯이 허공에 팔을 휘젓는다(탐험). 이 모든 헛발질 영상과 점수가 Replay Buffer에 10만 장 쌓인다. 밤이 되자 GPU가 이 버퍼에서 64장씩 무작위로 뽑아(Mini-batch) 역전파를 돌린다. 아침이 되자 로봇은 카메라 화면만 보고도 가장 완벽한 궤적으로 물건을 집어 드는 달인으로 진화했다.

기술사 판단 포인트 (Trade-off): DQN 파이프라인 설계 시 기술사는 '과대평가(Overestimation)' 버그를 방어하기 위한 알고리즘 스위칭을 단행해야 한다.

DQN의 가장 고질적인 수학적 결함은 $Max(Q_{next})$를 맹신한다는 것이다. 딥러닝이 가끔 노이즈 때문에 엉뚱한 행동에 '100만 점'이라는 가짜 1등 점수를 매겨버리면, 모델이 그 가짜 1등 점수를 정답으로 믿고 업데이트하며 며칠 치 학습이 통째로 붕괴한다.
기술사는 이 끔찍한 버그를 막기 위해, 1등 행동을 "고르는 놈(메인 신경망)"과 그 행동의 "점수를 매기는 놈(타겟 신경망)"을 완벽하게 찢어놓는 **Double DQN (DDQN)**으로 아키텍처를 진화시켜야 한다.
행동 선택과 점수 평가를 분리하면 한쪽 신경망이 헛소리를 해도 다른 신경망이 팩트 체크를 해주어 과대평가(오버피팅)가 귀신같이 사라진다.

📢 섹션 요약 비유: 식당을 평가할 때 식당 주인이 직접 "우리 집이 1등이고 100점이다!"라고 평가하면 사기를 당한다(과대평가). Double DQN은 "1등 식당 후보를 고르는 건 주인이 하되(메인 신경망), 그 식당이 진짜 100점짜리인지는 까다로운 미슐랭 심사위원(타겟 신경망)이 검증하게 하는" 완벽한 견제와 균형 시스템이다.

Ⅴ. 기대효과 및 결론

DQN(Deep Q-Network)은 "딥러닝(인지)"과 "강화학습(제어)"이라는 두 개의 완전히 다른 AI 학문을 한 몸으로 융합해 낸 컴퓨터 공학의 프랑켄슈타인이자 마스터피스다. 기계가 사람의 눈(카메라)을 가지고, 사람처럼 화면을 보며, 스스로 게임의 룰을 깨우치게 만든 최초의 인공 일반 지능(AGI)의 서막이었다.

결론적으로 DQN은 강화학습이 그저 '수학 공식의 말장난'이 아니라 현실 세계의 복잡한 픽셀 공간(자율주행, 로봇)에 적용될 수 있다는 것을 증명한 위대한 도약이다. 기술사는 단순히 DQN 논문을 복사 붙여넣기 하는 수준을 넘어, 경험 리플레이(Replay Buffer)의 메모리를 효율적으로 비우고 타겟 네트워크의 동기화 주기를 튜닝하며, 시뮬레이션 속도를 수천 배로 끌어올리는 백엔드 최적화의 마법사가 되어야 한다.

📢 섹션 요약 비유: 수첩(Q-Table)만 쳐다보며 계산만 하던 서생(강화학습)이, 눈과 뇌(딥러닝)를 이식받고 현실 세계로 튀어나와 직접 몬스터를 때려잡는 완벽한 사이보그 전사(DQN)로 다시 태어난 것이다. 이 사이보그의 탄생이 알파고라는 신화의 가장 강력한 밑바탕이 되었다.

📌 관련 개념 맵

상위 개념: 강화학습 (Reinforcement Learning), 딥러닝 아키텍처
하위 개념: 경험 리플레이 (Experience Replay), 타겟 네트워크 (Target Network), Q-값
연결 개념: Q-Learning, 오프 폴리시 (Off-Policy), Double DQN (DDQN), 알파고

👶 어린이를 위한 3줄 비유 설명

옛날 꼬마 로봇은 미로의 모든 길을 수첩(Q-Table)에 다 적어야 했는데, 미로가 100만 칸(화면 픽셀)으로 커지니까 수첩이 찢어져 버렸어요.
DQN 박사님은 로봇에게 수첩 대신 커다란 AI 뇌(딥러닝)를 이식해 줬어요. 이제 뇌가 화면만 딱 봐도 "왼쪽으로 가면 10점!"이라고 바로 예측해 줘요.
로봇이 한쪽 길만 파고들다 바보가 되는 걸 막으려고, 박사님은 로봇의 어제, 그제 기억(경험 리플레이)을 랜덤으로 섞어서 복습시키며 아주 훌륭한 게임 천재로 키워냈답니다!